تعمل مايكروسوفت على توسيع عائلة Phi-3 من نماذج اللغات الصغيرة من خلال تقديم Phi-3-vision.
وعلى عكس أشقائه، لا يركز Phi-3-vision على النص فحسب، بل إنه نموذج متعدد الوسائط يمكنه تحليل الصور وفهمها أيضًا.
تم تصميم هذا النموذج الذي يضم 4.2 مليار معلمة للأجهزة المحمولة ويتفوق في مهام التفكير البصري العامة.
يمكن للمستخدمين طرح أسئلة على Phi-3-vision حول الصور أو المخططات، وسوف يقدم إجابات ثاقبة. وعلى الرغم من أنها ليست أداة لتوليد الصور مثل DALL-E أو Stable Diffusion، إلا أن Phi-3-vision تتفوق في تحليل الصور واستيعابها.
يأتي وصول Phi-3-vision في أعقاب Phi-3-mini، أصغر عضو في عائلة Phi-3 بـ 3.8 مليار معلمة. وتتضمن العائلة الكاملة الآن Phi-3-mini، وPhi-3-vision، وPhi-3-small، و Phi-3-medium.
يعكس هذا التركيز على النماذج الأصغر اتجاهًا متزايدًا في تطوير الذكاء الاصطناعي. وتتطلب النماذج الأصغر حجمًا طاقة معالجة وذاكرة أقل، مما يجعلها مثالية للأجهزة المحمولة والبيئات الأخرى ذات الموارد المحدودة.
وقد شهدت مايكروسوفت بالفعل نجاحاً في هذا النهج، حيث تفيد التقارير بأن نموذج Orca-Math الخاص بها يتفوق على المنافسين الأكبر حجماً في حل المسائل الرياضية.
يتوفر Phi-3-vision حاليًا للمعاينة، بينما يمكن الوصول إلى بقية عائلة Phi-3 (الصغيرة والصغيرة والمتوسطة) من خلال مكتبة نماذج Azure.