Онлайн-примерочная на базе искусственного интеллекта: VOGUE
Опубликовано: 25/01/2021 Время на прочтение: 6 минут
VOGUE: Примерка от StyleGAN Interpolation Optimization [1]
Группа исследователей из Google, Массачусетского технологического института и Вашингтонского университета недавно опубликовала статью под названием «VOGUE: примерная оптимизация интерполяции StyleGAN». Они используют архитектуру GAN для создания онлайн-примерочной, где вы можете автоматически примерять любые брюки или рубашки, используя только свое изображение. Это также называется переносом одежды. Цель состоит в том, чтобы взять одежду у человека на фотографии и перенести ее на кого-то еще, сохранив правильную форму тела, волосы и цвет кожи. Это сложная задача, поскольку некоторые части, такие как одежда выходного изображения, должны быть извлечены из одного изображения, а другие части, относящиеся к фактическому человеку, взяты из другого изображения, сохраняя «личность» человека, которого мы хотим попробовать. одетый.
Что ж, они смогли сделать именно это, используя архитектуру на основе GAN. Точнее, StyleGAN2 с учетом позы лежит в основе их архитектуры. Я не буду вдаваться в подробности этого StyleGAN2 и архитектуры GAN, поскольку я уже объяснял это во многих видео, например, в этом видео, где я объяснил Toonify, который также использует архитектуру на основе StyleGAN2. Я определенно приглашаю вас посмотреть это видео, прежде чем продолжить, если вы не знакомы с GAN или StyleGAN2.
Модель
Разница между StyleGAN2 и VOGUE версией StyleGAN2. Используется с разрешения Кэтлин Льюис [1]
Итак, чтобы работать и создавать фотореалистичные изображения с другой одеждой, VOGUE необходимо тренировать эту ориентированную на позу архитектуру StyleGAN2. Но это сложнее, чем просто реализовать StyleGAN2, поскольку он в основном разрабатывался для изображений лиц, откуда и получил свою популярность. Им пришлось внести две ключевые модификации: сначала им пришлось изменить начало генератора с помощью кодировщика, который принимает ключевые точки изображения в качестве входных данных. Он служит входом для первого «блока стиля 4×4» StyleGAN2 вместо постоянного входа для реализации этого условия позы.
Карта сегментации, созданная моделью VOGUE StyleGAN2 [1]
Затем они обучили свой StyleGAN2 выводить сегменты при каждом разрешении в дополнение к изображению RGB, как вы можете видеть здесь. Используя эту сеть, они смогли создать множество изображений и их сегментов с желаемой позой.
Модель VOGUE. Используется с разрешения Кэтлин Льюис [1]
После этого, учитывая входную пару изображений, они могли «проецировать» изображения в скрытое пространство генератора для вычисления скрытых кодов, которые лучше всего различали бы характеристики пары входных изображений. Используя оптимизатор, найдите пространство комбинаций, в котором лежит одежда из второго изображения и человек из первого изображения. Они должны были максимизировать изменения в интересующей области, минимизируя изменения вне интересующей области. Для этого они использовали два скрытых пространства, представляющих два входных изображения: первое — из изображения с человеком, которое нужно сгенерировать, а второе — из изображения с передаваемой одеждой. Как мы видели, им также нужна была тепловая карта позы, поскольку входные данные для генератора StyleGAN2 снова показаны серым цветом. Затем они получили доступ к сегментам и изображениям, созданным на основе обученной архитектуры GAN. После этого они использовали функцию потерь, состоящую из трех отдельных членов, каждый из которых оптимизирует часть сгенерированного изображения.
Существует термин потери при редактировании-локализации, который побуждает сеть интерполировать стили только в пределах интересующей области, обозначенной здесь как M, с использованием результатов сегментации.
Кроме того, потеря одежды используется для передачи правильной формы и текстуры одежды.
Используя вложения из очень популярной архитектуры сверточной нейронной сети под названием VGG-16, они вычисляют расстояние между областями одежды двух изображений, снова используя метки сегментации. Эта созданная маска затем применяется к созданным изображениям RGB.
Наконец, есть потеря идентичности, которая, как говорится, направляет сеть к сохранению личности человека.
Это снова делается с помощью этикеток сегментации, следуя той же процедуре, что и потеря одежды.
Просто посмотрите, как эти потери влияют на выходное изображение. Вы можете четко видеть, когда потеря локализации или потеря идентичности отсутствует, и их важность.
Влияние потерь на результат переноса одежды. Используется с разрешения Кэтлин Льюис [1]
Больше результатов
Как они заявляют: «Наш метод может синтезировать рубашку одного и того же стиля для различных поз и форм тела, исправив вектор стиля. Мы представляем несколько разных стилей в разных позах ». [1]
На этом рисунке каждая строка представляет собой фиксированный стиль, а каждый столбец — фиксированную позу и форму тела. Используется с разрешения Кэтлин Льюис [1]
Просто посмотрите, насколько лучше результаты с этим новым подходом:
Качественное сравнение VOGUE. Используется с разрешения Кэтлин Льюис [1]
Еще больше результатов!
Конечно, это был всего лишь обзор новой статьи. Я настоятельно рекомендую вам прочитать их статью в приведенных ниже ссылках для лучшего технического понимания.
Если вам нравится моя работа и вы хотите быть в курсе технологий искусственного интеллекта, вы обязательно должны подписаться на меня в моих каналах в социальных сетях.
- Подписывайтесь на мой канал на YouTube .
- Следите за моими проектами в LinkedIn .
- Изучайте AI вместе, присоединяйтесь к нашему сообществу Discord , делитесь своими проектами, статьями, лучшими курсами, находите товарищей по команде Kaggle и многое другое!
Рекомендации
[1] Льюис, Кэтлин М. и др. (2021 г.), VOGUE: примерка от StyleGAN Interpolation Optimization, https://vogue-try-on.github.io/
Интерактивные примеры: https://vogue-try-on.github.io/demo_rewrite.html