Открытый клип AI: изучение визуальных концепций с помощью наблюдения за естественным языком

Опубликовано: 11/01/2021 Время на прочтение: 3 минут

Фото Сорагрит Вонгса на Unsplash

DALL-E, кажется, привлекла большую часть внимания на этой неделе, но я думаю, что клип может оказаться еще более значимым. Мы экспериментировали с ним на этой неделе, и результаты кажутся почти слишком хорошими, чтобы быть правдой; он даже смог довольно хорошо классифицировать виды грибов на фотографиях с моей фотопленки.

Брэд Дуайер на Facebook

Несколько дней назад OpenAI выпустила 2 впечатляющие модели CLIP и DALL-E. В то время как DALL-E способен генерироватьтекст из изображений, CLIP классифицирует очень широкий спектр изображений, превращая классификацию изображений в проблему сходства текста. Проблема современных сетей классификации изображений заключается в том, что они обучены фиксированному числу категорий, клип не работает таким образом, он учится непосредственно из необработанного текста об изображениях и, таким образом, не ограничен метками и наблюдением. Это довольно впечатляюще, клип может классифицировать изображения с самой современной точностью без какого-либо специального обучения набору данных.

Основной пункт продажи клипа

OpenAI пытается отойти от традиционных методов обучения под наблюдением. Например, ImageNet (самый большой набор данных изображений) способен классифицировать только те изображения, которые принадлежат классам, на которых он был обучен. Нет смысла продолжать добавлять новый класс В набор данных и переобучать сеть в долгосрочной перспективе.

Набор данных ImageNet, один из самых больших усилий в этом пространстве, потребовал более 25 000 рабочих, чтобы аннотировать 14 миллионов изображений для 22 000 категорий объектов. В отличие от этого, CLIP учится на парах текст-изображение, которые уже доступны в открытом доступе в интернете. Снижение потребности в дорогостоящих больших маркированных наборах данных было широко изучено в предыдущих работах.

Источник: OpenAI

Только представьте, сколько стоит нанять 25 000 рабочих!

Основной пункт продажи клипа-классификация изображений с нулевым кадром, это означает, что вы можете взять фрагмент текста и изображение, отправить их по сети и получить прогноз того, насколько вероятно, что они будут похожи.

Это означает, что вы можете выполнять классификацию без предварительного обучения вашего набора данных для вашего пользовательского варианта использования, и это действительно впечатляет, потому что раньше так строились почти все классификационные сети, поскольку у вас был бы пользовательский набор данных, который представлял бы те вещи, которые вы хотите классифицировать, а затем у вас были бы изображения, которые совпадали бы с ними, и вы должны были бы отправить их через процедуру обучения и в конечном итоге получить свою сеть в конце, в то время как clip позволяет вам обойти

Краткий обзор: Контрастивное обучение

Контрастивное обучение — это подход к постановке задачи поиска похожих и непохожих вещей для модели ML. Используя этот подход, можно обучить модель машинного обучения классификации между похожими и несходными изображениями.

Источник: AnalyticsVidyha



прокрутка вверх