Мультимодальные модели. CLIP. VQVAE. DALLE-E.¶

Мультимодальные модели¶

Мультимодальные модели - это модели машинного обучения, которые способны обрабатывать данные разных видов или модальностей. Например, они могут обрабатывать и объединять информацию из текстовых, аудио и визуальных источников. Они могут быть полезны в задачах, где требуется обработка разнородных данных.

CLIP (Contrastive Language-Image Pretraining)¶

CLIP - это мультимодальная модель от OpenAI, которая одновременно обучается понимать изображения и текст. Основная идея CLIP заключается в том, чтобы использовать информацию из текста и изображения вместе для получения более хороших результатов.

CLIP обучается путем максимизации сходства между изображением и текстом в паре, а также минимизации сходства между этим изображением и другими текстами (и наоборот). Сходство между изображением \(i\) и текстом \(t\) измеряется с помощью скалярного произведения векторов признаков, вычисленных моделями изображений и текстов.

\[ \text{similarity}(i, t) = \frac{v_i \cdot v_t}{\|v_i\|_2 \|v_t\|_2} \]

где \(v_i\) и \(v_t\) - векторы признаков для изображения и текста соответственно.

VQ-VAE (Vector Quantized Variational AutoEncoder)¶

VQ-VAE - это разновидность автоэнкодера, который использует векторное квантование для кодирования латентного пространства. Вместо того чтобы напрямую кодировать и декодировать входные данные, VQ-VAE сначала квантуем латентное пространство на предопределенный набор векторов, затем восстанавливает данные из этих квантованных векторов.

Латентный вектор \(z\) для входного вектора \(x\) выбирается из словаря \(e\) на основе ближайшего соседа:

\[ z = \arg\min_{e_i \in e} \|f(x) - e_i\|_2^2 \]

где \(f(x)\) - это выход энкодера для входа \(x\).

DALL-E¶

DALL-E - это модель генерации изображений, основанная на GPT-3, которая способна генерировать изображения на основе текстовых описаний. Она обучена на парах изображений и текстовых описаний, подобно CLIP, но с использованием архитектуры трансформера, подобной GPT-3, для генерации изображений пиксель за пикселем.

Схематично DALL-E работает следующим образом:

Преобразует входной текст в вектор признаков с помощью модели трансформера.
Входной вектор признаков передается в декодер (также модель трансформера), который генерирует изображение пиксель за пикселем.