Google пусна Gemini Embedding 2 — първият мултимодален embedding модел

Google обяви Gemini Embedding 2 — първият си нативно мултимодален embedding модел, който вече е достъпен в public preview. Какво е embedding модел? Embedding...

Google обяви Gemini Embedding 2 — първият си нативно мултимодален embedding модел, който вече е достъпен в public preview.

Какво е embedding модел?

Embedding моделите превръщат данни (текст, изображения, аудио) в числови вектори, които компютрите могат да сравняват и търсят. Това е основата на semantic search — търсене по смисъл, не по ключови думи.

Какво е новото при Gemini Embedding 2?

Досега embedding моделите работеха предимно с текст. Gemini Embedding 2 е първият, който обединява всички типове данни в едно пространство:

- Текст: до 8192 токена контекст - Изображения: до 6 снимки на заявка (PNG, JPEG) - Видео: до 120 секунди (MP4, MOV) - Аудио: директно, без транскрипция - Документи: PDF до 6 страници

Защо това е важно?

За RAG системи: Retrieval-Augmented Generation (RAG) е техника, при която AI моделът търси релевантна информация преди да отговори. С мултимодален embedding, RAG системите могат да търсят не само в текст, а и в изображения, видеа и документи.

За semantic search: Можете да търсите картинка с текстово описание, или да намерите подобни видеа на база на аудио съдържанието им.

За класификация: Един модел за категоризиране на всякакъв тип съдържание — от имейли до снимки и записи.

Технически детайли

- Базиран на Gemini архитектурата - Поддържа 100+ езика - Matryoshka Representation Learning за гъвкави изходни размери (3072, 1536, 768) - Достъпен през Gemini API и Vertex AI

Кой вече го използва?

Everlaw го интегрират за legal discovery — търсене в милиони документи по време на съдебни дела. Sparkonomy го ползват за индексиране на видео съдържание с 70% по-ниска латентност.

Сподели:👤🐦💼