logo

Компактная языковая модель Phi Silica стала мультимодальной

43
0

Компактная языковая модель (SLM) Phi Silica от Microsoft теперь способна понимать не только текст, но и изображения, что переводит её в статус мультимодальных. Это важное обновление, поскольку модель интегрирована в операционную систему Windows 11 на устройствах ПК Copilot+ и работает на локальном нейронном процессоре (NPU), встроенном в процессор. Сейчас модель работает только с процессором Snapdragon X, но в ближайшее время появится поддержка чипов от AMD и Intel.

Вместо добавления отдельной громоздкой модели для анализа изображений, инженеры Microsoft объединили существующие компоненты. Базой осталась уже развернутая модель Phi Silica. Для машинного зрения применяется кодировщик изображений Florence, который также используется в предварительной версии Windows Recall и улучшенном поиске на базе ИИ. И, наконец, разработан небольшой дополнительный модуль «Projector» (всего 80 млн параметров), который преобразует визуальные данные от Florence в формат, понятный Phi Silica.

[media=https://vkvideo.ru/video-3783130_456239407]

Так Microsoft удалось избежать необходимости развёртывания ещё одной громоздкой модели на устройствах пользователей. Этого подход позволил сэкономить дисковое пространство и уменьшить вычислительную нагрузку. Кроме этого, повторное использование существующих компонентов сократило затраты и время на обучение моделей.

Главным примером практического применения новой технологии стала функция генерации описаний изображений для незрячих или слабовидящих пользователей. Мультимодальная Phi Silica может генерировать для «Экранного диктора» описания изображений с разной степенью детализации,

[media=https://vkvideo.ru/video-3783130_456239407]

Phi Silica создаёт краткие описания изображений из 135 символов в среднем за 4 секунды, тогда как для подробного описания из 400-500 символов требуется около 7 секунд. Текущая версия оптимизирована для английского языка, но в будущем планируется поддержка других языков.

Пример описания изображения с картой острова Оаху

Краткое описание:

На изображении представлена карта Гавайского острова Оаху, на которой обозначены различные места, такие как мыс Кахуку (Kahuku Point), залив Кавела (Kawela Bay), Кахуку (Kahuku) и другие точки и поселения, включая Перл-Сити (Pearl City) и Эва-Бич (Ewa Beach).

Подробное описание:

Изображение представляет собой карту Гавайского острова Оаху, на которой обозначены различные места и географические объекты. Ключевые места включают мыс Кахуку (Kahuku Point), залив Кавела (Kawela Bay), Кахуку (Kahuku) и Кауаи (Kauai). Другие примечательные места: Лайе (Laie), Коолау (Koolau), Хауула (Hauula), Пуналу (Punaluu), Мокулея (Mokulēia), Анахулу (Anahulu), Вайалуа (Waialua), Кааава (Kaaawa) и Кауконахуа (Kaukonahua). Также виден Тихий океан (Pacific Ocean). Среди других упомянутых мест — Уитмор-Виллидж (Whitmore Village), гора Кала (Mt. Kala), мыс Куалоа (Kualoa Point), Вахиава (Wahiawa) и Канеохе (Kaneohe). На изображении также показаны различные поселки и города, такие как Милилани (Mililani), Ахуиману (Ahuimanu), Перл-Сити (Pearl City) и Ваипио (Waipio). Другие примечательные места включают Кахулу (Kahulu), Нанакули (Nānākuli), Коолау (Koolau) и Ваиманало (Waimanalo).

Дополнительную техническую информацию об обновлении модели Phi Silica можно найти в официальном блоге Microsoft по этой ссылке.

Яндекс.Метрика
Top.Mail.Ru
Мы используем файлы cookie или аналогичные технологии для улучшения работы сайта. Оставаясь на сайте, вы соглашаетесь с нашей Политикой конфиденциальности.