اعترفت شركة جوجل بأنها قامت بتصوير مقطع فيديو أثناء العرض التوضيحي لنموذج الذكاء الاصطناعي الجديد Gemini.
يعتبر Gemini هو رد جوجل المباشر على نموذج GPT-4 الخاص بـ OpenAI، والذي أحدث ثورة في الإنترنت منذ طرحه في شهر نوفمبر الماضي.
حتى إطلاق GPT-4، كانت جوجل تعتبر بشكل عام الشركة الرائدة في برامج الذكاء الاصطناعي، لكنها وجدت نفسها فجأة متأخرة في سباق الذكاء الاصطناعي التوليدي.
بعد عام واحد من إطلاق GPT-4، عادت جوجل مع Gemini، والذي تدعي أنه يتفوق على GPT-4، ولكنه أيضًا أول نموذج ذكاء اصطناعي يتفوق على الخبراء البشريين في فهم اللغة متعدد المهام (MMLU).
ويعتبر Gemini Ultra، واحد من ثلاث خيارات جديدة لـ Gemini والذي يأتي أيضًا بأحجام “Pro” و“Nano”، والذي حصل ايضًا على ما يبدو على 90.04% في MMLU، اي اكثر من GPT-4، الذي سجل 87.29%.
ومع ذلك، قد لا يكون كل شيء كما يبدو بقدر أول عرض توضيحي مثير للإعجاب من جوجل لـ Gemini.
ففي عرض الفيديو المعني، يُسمع صوت Gemini وهو يتفاعل في البداية مع شخص يسأله عما يراه مرسومًا في الوقت الفعلي عندما يتحول التمايل إلى كائن أكثر تعقيدًا.
يستمر العرض التوضيحي من خلال عدد من السيناريوهات الإضافية، كل منها أكثر إثارة للإعجاب بشكل متزايد.
وعندما تواصلت بلومبرج مع جوجل لتسأل عن كيفية إنشاء الفيديو، اعترفت جوجل بأن الفيديو تم تحريره وأن صوت Gemini لم يكن يستجيب للصور في الوقت الفعلي، ولكن كل منها كانت صورة ثابتة منفصلة.
علاوةً على ذلك، لم تتم المطالبة من قبل الشخص الذي سمع يتحدث في الفيديو باستخدام التعرف الطبيعي على الصوت، ولكن المطالبات الصوتية تم إجراؤها في الواقع من خلال إدخالات نصية. ووفقًا لشركة جوجل، تم إنشاء الفيديو فقط “لإلهام المطورين“.
في إخلاء المسؤولية المصاحب للفيديو على YouTube، تقر جوجل فقط بأنه “لأغراض العرض التوضيحي، تم تقليل زمن الوصول، وتم اختصار مخرجات Gemini للإيجاز“.
ويختلف هذا بشكل ملحوظ عن التعليق الذي قدمته جوجل إلى بلومبرج والذي ذكر أنه تم إنشاء الفيديو، “باستخدام إطارات الصور الثابتة من اللقطات، والمطالبة عبر النص“.