Достижения проекта PIA в AIDO5

Опубликовано: 09/01/2021 Время на прочтение: 4 минут

Этот-настоящий гонщик.

Мы соревновались в городской Лиге вождения, которая воплощает в себе три задачи, которые мы стремились решить:

Одно из наших решений протестировано в нашей реальной среде Duckietow.

  1. Lane Following: в котором Duckiebot должен следовать по правой полосе без каких-либо других объектов на дороге.
  2. Следование по полосе с пешеходами: в этом случае на дороге есть пешеходы, представленные резиновыми утками, и Duckiebot должен избегать их, сохраняя при этом хорошую политику следования по полосе.
  3. Lane Following with other vehicles multibody: представленный алгоритм передается в несколько Duckiebots, которые работают одновременно на трассе. Цель состоит в том, чтобы следовать по полосе движения, избегая при этом несчастных случаев.

Наши лучшие рейтинги

Наши работы заняли первое место в 2 из 3 задач. Несмотря на то, что окончательные результаты были основаны только на результате, полученном в реальной обстановке на соревнованиях, мы удовлетворены нашими результатами в моделируемой среде.

Общий рейтинг во всех 3-х задачах с подробностями.

Вот все наши рейтинги с более подробной информацией.

Вы можете заметить, что в реальной среде наши агенты работают плохо (т. е. пройденное расстояние очень мало). Мы думаем, что это связано с аппаратной модернизацией ботов на конкурсе: Новая серия duckiebots (DT19) оснащена двигателями со встроенными колесными энкодерами, в то время как мы обучали нашего агента, используя предыдущую аппаратную версию (DT18), оснащенную простыми двигателями постоянного тока. К сожалению, мы не знали об этом аппаратном обновлении до последнего дня соревнований, и, похоже, больше никого среди конкурентов не было.

Взгляните на наши решения

Андраш Калапос

Мое решение на 5-й олимпиаде по вождению ИИ использует нейросетевую политику контроллера, которая была обучена с помощью обучения с подкреплением. Его «мозг» представляет собой сверточную нейронную сеть, которая почти непосредственно вычисляет управляющие сигналы на основе изображений робота. К наблюдениям применяется только очень простая предварительная обработка, такая как уменьшение масштаба, обрезка и укладка. Затем, основываясь на этом входе, сеть вычисляет единственное скалярное значение в качестве своего выхода, которое интерпретируется как сигнал управления.

Важной особенностью моего решения является то, что я обучал агента только в симуляции, а также тестировал его в реальном мире. Я обучил его, используя алгоритм обучения подкреплению типа градиента политики, а именно проксимальную оптимизацию политики для его стабильности, сложности выборки и способности использовать преимущества нескольких параллельных рабочих. Для достижения надежной производительности в физической среде я использовал рандомизацию доменов. Это предполагает обучение политика множеству различных вариантов моделирования, которые генерируются случайным образом возмущающими его параметрами, такими как условия освещения, текстуры объектов, параметры камеры и так далее. Встроенные функции рандомизации официального моделирования Duckietow оказались достаточными для надежного следования по полосе движения на реальных дорогах Duckietown, несмотря на отсутствие реалистичной графики и физической точности этого моделирования.

Я разработал свое решение в рамках магистерской диссертации с помощью двух супервайзеров, Роберта Мони и Чаба Гура. Я очень благодарен им за помощь и руководство! Если вас интересуют подробности нашей работы, мы опубликовали статью об этом, озаглавленную «обучение подкреплению Sim-to-real применительно к сквозному управлению транспортными средствами».

Андраш Береш



прокрутка вверх