ظهرت مؤخرًا العديد من التقارير التي تدعي أن OpenAI استخدمت محتوى YouTube لتدريب نموذج تحويل النص إلى فيديو.
ويُقال الآن أن شركات مثل أبل و Nvidia و Anthropic وغيرها تستخدم أيضًا البيانات المتاحة للعامة التي أنشأها المستخدمون لتدريب نماذج الذكاء الاصطناعي الخاصة بهم.
وعلى ما يبدو، استخدمت شركة أبل عشرات الآلاف من مقاطع الفيديو على يوتيوب مع ترجمة لتدريب ذكاء أبل، وهو ما يتعارض مع سياسة محتوى المنصة.
ووفقًا للتحقيق، كانت شركة أبل والشركات الأخرى تستخدم مجموعة أبل تسمى YouTube Subtitles والتي تضمنت نصوصًا لـ 173,536 مقطع فيديو على YouTube من أكثر من 48,000 قناة.
تمتد مقاطع الفيديو الموجودة في مجموعة البيانات من القنوات التعليمية مثل Khan Academy وMIT إلى المواقع الإخبارية بما في ذلك The Wall Street Journal، إلى بعض أفضل المبدعين على المنصة مثل MrBeast وMarques Brownlee.
ووفقًا لماركيز براونلي، تتجنب شركة أبل من الناحية الفنية “الخطأ” لأنها تحصل على الذكاء الاصطناعي الخاص بها من الشركات التي تستخدم النصوص من مقاطع فيديو YouTube بدلاً من استخدام البيانات مباشرة.
ومع ذلك، لا تزال البيانات/النصوص تساهم في نماذج الذكاء الاصطناعي، التي استثمر فيها المبدعون وقتهم وأموالهم. واختتم براونلي بالقول إن هذه ستكون مشكلة متطورة لفترة طويلة.
أنشأت Proof News أيضًا أداة للمبدعين للبحث عن محتواهم في مجموعة البيانات. لا تتضمن مجموعة بيانات ترجمات YouTube صورًا من مقاطع الفيديو ولكنها تتضمن بعض الترجمات المترجمة باللغات.
وبحسب ما ورد، تم إنشاء مجموعة البيانات بواسطة معمل أبحاث غير ربحي يُدعى Eleuther AI، والذي يركز على تعزيز معايير العلوم المفتوحة.
لم تعلق أي من الشركات المذكورة أعلاه على الفور على هذا الأمر. وقد أوضح الرئيس التنفيذي لموقع YouTube، نيل موهان، في مقابلة بالفعل أن الشركات التي تستخدم مقاطع فيديو YouTube لتدريب نماذج الذكاء الاصطناعي الخاصة بها تعد “انتهاكًا واضحًا” لسياسات المنصة.