يكتشف الذكاء الاصطناعي الأشياء في الصور باستخدام تقنيات الرؤية الحاسوبية التي تحلل السمات المرئية للصورة. وتتضمن العملية عادةً استخدام شبكة عصبية تلافيفية (CNN) لتحديد الأنماط في بيانات الصورة التي تتوافق مع فئات الكائنات المختلفة.
تستخرج عملية CNN أولاً ميزات من الصورة باستخدام سلسلة من الطبقات التلافيفية والتجميعية ثم تستخدم هذه الميزات لعمل تنبؤات حول وجود كائنات مختلفة. يتم تدريب الشبكة عادةً على مجموعات بيانات كبيرة من الصور المصنفة لمعرفة كيفية التعرف على الكائنات بدقة في مجموعة متنوعة من السياقات، ويمكنها تحقيق مستويات عالية من الدقة في اكتشاف الكائنات في الصور الجديدة.
ومع ذلك، فإن Meta تأخذ خطوة بعيدة عن الطريقة التقليدية لاكتشاف الذكاء الاصطناعي، حيث يمكن لنموذج الذكاء الاصطناعي الجديد، Segment Anything، اكتشاف كائنات لم يسبق لها مثيل في الصور.
وفقًا لورقة بحثية نشرتها الشركة، يمكن استخدام هذا النموذج عن طريق تحديد الكائنات عن طريق النقر فوقها أو استخدام مطالبات النص الحر. ببساطة عن طريق كتابة “طائر”، سيسلط الذكاء الاصطناعي الضوء على جميع الطيور في صورة معينة.
علاوة على ذلك، يمكن أن يعمل النموذج بالتعاون الوثيق مع طرز أخرى للمساعدة في إعادة بناء كائن ثلاثي الأبعاد أو الرسم من المناظر من سماعة رأس الواقع المختلط.
في حين أن النموذج الحالي قد يكون له قيود، مثل فقدان التفاصيل الدقيقة وعدم الدقة في اكتشاف الحدود مثل النماذج الأخرى، إلا أنه يمكن أن يساعد في المواقف التي يكون فيها الاعتماد فقط على بيانات التدريب أمرًا غير عملي.
على سبيل المثال، يمكن لشبكة اجتماعية استخدام التكنولوجيا لمواكبة الحجم المتزايد بسرعة من المحتوى. على الرغم من أنه قد لا يتم استخدام هذا الذكاء الاصطناعي في الأجهزة التي تتطلب اكتشافًا سريعًا ودقيقًا للأشياء، إلا أن نماذج مثل هذه توضح إمكانية الحد من الحاجة إلى تدريب إضافي على الذكاء الاصطناعي.
أتاحت Meta كل من نموذج الذكاء الاصطناعي ومجموعة البيانات للتنزيل بترخيص غير تجاري. ستعمل هذه الخطوة على توسيع الوصول إلى التكنولوجيا، لأغراض البحث في المقام الأول. ومع ذلك، يُظهر هذا الاختراق أن شركة Meta تريد تعميم رؤية الكمبيوتر، وأنها تخطط بالفعل لإنشاء “شخصيات” ذكاء اصطناعي لتطبيقاتها الاجتماعية، مما يدل على أن لديها بعض المزايا الخاصة بها.