Сквозной подход к глубокому обучению для автономного вождения: имитационное обучение

Опубликовано: 09/01/2021 Время на прочтение: 5 минут

Фердинанд стер на Unsplash

Сквозной подход к глубокому обучению для автономного вождения: имитационное обучение

Чингис Ойнар

3 часа назад*7 минут чтения

по @ort на Unsplash

Идеальный автономный автомобиль-это транспортное средство, которое может ощущать окружающее и реагировать без участия человека. По данным Общества автомобильных инженеров (SAE), существует 6 уникальных уровней автоматизации вождения, начиная с уровня 0, который полностью ручной, и заканчивая уровнем 5, то есть полностью автономным. Датчики являются важнейшими компонентами, которые делают автономные транспортные средства автономными, поскольку они необходимы для правильного восприятия окружающей среды. Существует два типа датчиков: экстероцептивные, используемые для восприятия окружающей среды, и проприоцептивные, используемые для восприятия некоторых внутренних аспектов транспортного средства. Экстероцептивные датчики включают камеры, лидар, радар и гидролокатор, в то время как проприоцептивные датчики включают ГНСС и одометрию колеса.

В этой работе я демонстрирую Си-Эн-Эн, которая действительно мощна, применяя ее за пределами распознавания образов. Таким образом, он изучает весь технологический трубопровод, необходимый для управления транспортным средством. Работа вдохновлена автономным автомобилем NVIDIA реального размера под названием DAVE-2, который ездил по дорогам общего пользования автономно, полагаясь только на CNN. Поэтому идентичная архитектура реализуется и тестируется в различных средах 🙂

Обучение нейронной сети от NVIDIA

На рисунке представлен высокоуровневый обзор того, как NVIDIA собирала данные для обучения предлагаемой модели. Дэйв-2 постоянно обучался вождению вручную в различных условиях. Данные были сняты с трех камер, каждая из которых показывала разную перспективу, которая впоследствии использовалась для обучения модели. Кроме того, для достижения лучшего обобщения использовались различные методы увеличения, такие как вращение. Поэтому смещенные изображения получаются с двух дополнительных камер, расположенных по обе стороны от центральной камеры. Таким образом, по мере того как изображение передается в модель на основе CNN, генерируется вычисленная по сети команда рулевого управления, которая сравнивается с желаемой командой рулевого управления, полученной от водителя.

Подробнее читайте, обратившись к этой статье 🙂

Архитектура DAVE-2

Дэйв-2, предложенный в статье.

На рисунке выше показана общая архитектура, используемая в качестве модели. Среднеквадратичная ошибка используется для того, чтобы свести к минимуму разницу между предсказанной командой рулевого управления и предоставленной целевой командой. Всего существует 9 слоев. Как видно, первые 3 сверточных слоя построены с размером ядра 5 на 5 и размером шага 2 на 2. За этими слоями следуют еще несколько слоев, имеющих размер шага 3 на 3. Наконец, полученный объект передается набору полностью связанных слоев. Чтобы лучше ознакомиться с деталями, я рекомендую вам прочитать эту статью 🙂 Я суммирую его с помощью следующей реализации Pytorch ниже.

Моя Реализация Pytorch

Имитационное Обучение

Два подхода к имитационному обучению

Методы имитационного обучения направлены на имитацию поведения человека в заданной задаче. На приведенном выше рисунке показаны два различных подхода, которые могут быть использованы для реализации имитационного обучения. Первый подход основан на Агенте обучения с подкреплением, который рассматривается как эксперт и используется для моделирования и агрегирования данных пары наблюдение-действие для использования в контролируемом обучении. Однако последнее требует не агента, а человека для моделирования сценариев. Точно так же NVIDIA собирала данные во время ручного вождения по различным районам.

Начало работы: RL-Imitation Learning, теория о подходе Теслы к имитационному обучению, введение в имитационное обучение

Экспериментальная Установка

Логотип DuckieTown взят из DuckieTown

Duckietown-это гибкая и открытая платформа, которая широко используется для автономного образования и исследований. Первоначально тренажер был ориентирован на робототехнику, однако теперь он широко используется и для моделирования автономного вождения. Платформа включает в себя небольших автономных роботов, которые называются Duckiebots, построенных из готовых компонентов, и города, которые содержат большое разнообразие объектов, включая препятствия, светофоры и граждан. Поэтому тренажер используется не только для задач навигации по полосе движения, но и для других задач, таких как обнаружение и распознавание объектов. Платформа предлагает широкий спектр функциональных возможностей при значительно низкой стоимости.

Duckietown simulator используется для обучения агентов подкрепления обучения и выполнения различных задач. Наблюдения представляют собой однокамерные изображения размером 120 на 160.

Начало Работы: DuckieTown

Агент RL

Агент был реализован с использованием глубокого детерминированного градиента политики (DDPG). DDPG также используется в качестве расширения алгоритма Deep Q Network (DQN), который способен эффективно изучать политики управления для непрерывных пространств действий. Алгоритм DDPG основан на архитектуре актор-критик, и он извлекает выгоду из буферов воспроизведения и замороженной целевой сети, чтобы стабилизировать обучение, как DQN. Критик, используемый в глубоком детерминированном градиенте политики, получает пары состояний и действий, выводя значения Q для каждой пары. Критик оценивает действие, совершаемое актером в определенном состоянии. Я не хочу погружаться во все детали,но оставлю полезные ссылки, чтобы ознакомиться.

Знакомьтесь: Объяснены Глубокие Детерминированные Градиенты Политики

Детали Обучения



прокрутка вверх