Достижения проекта PIA в AIDO5
Опубликовано: 09/01/2021 Время на прочтение: 4 минут
Этот-настоящий гонщик.
Мы соревновались в городской Лиге вождения, которая воплощает в себе три задачи, которые мы стремились решить:
Одно из наших решений протестировано в нашей реальной среде Duckietow.
- Lane Following: в котором Duckiebot должен следовать по правой полосе без каких-либо других объектов на дороге.
- Следование по полосе с пешеходами: в этом случае на дороге есть пешеходы, представленные резиновыми утками, и Duckiebot должен избегать их, сохраняя при этом хорошую политику следования по полосе.
- Lane Following with other vehicles multibody: представленный алгоритм передается в несколько Duckiebots, которые работают одновременно на трассе. Цель состоит в том, чтобы следовать по полосе движения, избегая при этом несчастных случаев.
Наши лучшие рейтинги
Наши работы заняли первое место в 2 из 3 задач. Несмотря на то, что окончательные результаты были основаны только на результате, полученном в реальной обстановке на соревнованиях, мы удовлетворены нашими результатами в моделируемой среде.
Общий рейтинг во всех 3-х задачах с подробностями.
Вот все наши рейтинги с более подробной информацией.
Вы можете заметить, что в реальной среде наши агенты работают плохо (т. е. пройденное расстояние очень мало). Мы думаем, что это связано с аппаратной модернизацией ботов на конкурсе: Новая серия duckiebots (DT19) оснащена двигателями со встроенными колесными энкодерами, в то время как мы обучали нашего агента, используя предыдущую аппаратную версию (DT18), оснащенную простыми двигателями постоянного тока. К сожалению, мы не знали об этом аппаратном обновлении до последнего дня соревнований, и, похоже, больше никого среди конкурентов не было.
Взгляните на наши решения
Андраш Калапос
Мое решение на 5-й олимпиаде по вождению ИИ использует нейросетевую политику контроллера, которая была обучена с помощью обучения с подкреплением. Его «мозг» представляет собой сверточную нейронную сеть, которая почти непосредственно вычисляет управляющие сигналы на основе изображений робота. К наблюдениям применяется только очень простая предварительная обработка, такая как уменьшение масштаба, обрезка и укладка. Затем, основываясь на этом входе, сеть вычисляет единственное скалярное значение в качестве своего выхода, которое интерпретируется как сигнал управления.
Важной особенностью моего решения является то, что я обучал агента только в симуляции, а также тестировал его в реальном мире. Я обучил его, используя алгоритм обучения подкреплению типа градиента политики, а именно проксимальную оптимизацию политики для его стабильности, сложности выборки и способности использовать преимущества нескольких параллельных рабочих. Для достижения надежной производительности в физической среде я использовал рандомизацию доменов. Это предполагает обучение политика множеству различных вариантов моделирования, которые генерируются случайным образом возмущающими его параметрами, такими как условия освещения, текстуры объектов, параметры камеры и так далее. Встроенные функции рандомизации официального моделирования Duckietow оказались достаточными для надежного следования по полосе движения на реальных дорогах Duckietown, несмотря на отсутствие реалистичной графики и физической точности этого моделирования.
Я разработал свое решение в рамках магистерской диссертации с помощью двух супервайзеров, Роберта Мони и Чаба Гура. Я очень благодарен им за помощь и руководство! Если вас интересуют подробности нашей работы, мы опубликовали статью об этом, озаглавленную «обучение подкреплению Sim-to-real применительно к сквозному управлению транспортными средствами».
Андраш Береш