Компактная языковая модель (SLM) Phi Silica от Microsoft теперь способна понимать не только текст, но и изображения, что переводит её в статус мультимодальных. Это важное обновление, поскольку модель интегрирована в операционную систему Windows 11 на устройствах ПК Copilot+ и работает на локальном нейронном процессоре (NPU), встроенном в процессор. Сейчас модель работает только с процессором Snapdragon X, но в ближайшее время появится поддержка чипов от AMD и Intel.
Вместо добавления отдельной громоздкой модели для анализа изображений, инженеры Microsoft объединили существующие компоненты. Базой осталась уже развернутая модель Phi Silica. Для машинного зрения применяется кодировщик изображений Florence, который также используется в предварительной версии Windows Recall и улучшенном поиске на базе ИИ. И, наконец, разработан небольшой дополнительный модуль «Projector» (всего 80 млн параметров), который преобразует визуальные данные от Florence в формат, понятный Phi Silica.
Так Microsoft удалось избежать необходимости развёртывания ещё одной громоздкой модели на устройствах пользователей. Этого подход позволил сэкономить дисковое пространство и уменьшить вычислительную нагрузку. Кроме этого, повторное использование существующих компонентов сократило затраты и время на обучение моделей.
Главным примером практического применения новой технологии стала функция генерации описаний изображений для незрячих или слабовидящих пользователей. Мультимодальная Phi Silica может генерировать для «Экранного диктора» описания изображений с разной степенью детализации,
Phi Silica создаёт краткие описания изображений из 135 символов в среднем за 4 секунды, тогда как для подробного описания из 400-500 символов требуется около 7 секунд. Текущая версия оптимизирована для английского языка, но в будущем планируется поддержка других языков.
Пример описания изображения с картой острова Оаху
Краткое описание:
Подробное описание:
Дополнительную техническую информацию об обновлении модели Phi Silica можно найти в официальном блоге Microsoft по этой ссылке.