Microsoft анонсировала мультимодальную компактную языковую модель Phi-3-vision, которая может работать как с текстом, так и с изображениями. Она наилучшим образом подходит для использования в мобильных устройствах.
Компания заявляет, что модель включает в себя 4,2 миллиарда параметров (параметры означают сложность модели и степень ее обучаемости), что позволяет ей выполнять базовые задачи на основе визуального восприятия, например, задавать вопросы об изображениях или диаграммах.
Phi-3-vision намного меньше других моделей, ориентированных на работу с изображениями, будь то DALL-E от OpenAI или Stability AI от Stable Diffusion. При этом задача Phi-3-vision не в генерации изображений, а в распознавании и анализе графической информации.
Предварительная версия Phi-3-vision уже доступна в библиотеке Azure. Также доступны и другие модели семейства Phi-3, такие как Phi-3-mini, Phi-3-small и Phi-3-medium.
Phi-3 не сможет заменить более крупные модели, такие как GPT-4, однако может быть полезной в конкретных задачах. К примеру, компактный размер модели позволяет запускать её на смартфонах и ноутбуках без необходимости подключения к интернету. Также она может быть полезна для организаций, использующих собственные данные для обучения.