قال الرئيس التنفيذي لشركة ديب مايند، ديميس هاسابيس، في ظهور حديث له في بودكاست "ممكن" الذي يشارك في تقديمه المؤسس المشارك لموقع لينكدإن، ريد هوفمان، إن جوجل تخطط في النهاية لدمج نماذج الذكاء الاصطناعي "جمني" مع نماذج "فيو" الخاصة بتوليد الفيديو لتحسين قدرة "جمني" على فهم العالم الفيزيائي.
وأضاف هاسابيس: "لقد قمنا ببناء نموذج جمني، نموذجنا الأساسي، ليكون متعدد الوسائط منذ البداية"، مشيرًا إلى أن السبب وراء ذلك هو رؤية جوجل لفكرة المساعد الرقمي الشامل، وهو مساعد يمكنه مساعدتك في العالم الحقيقي.
يشهد قطاع الذكاء الاصطناعي تحركًا تدريجيًا نحو النماذج "الكونية"، التي يمكنها فهم وتوليف العديد من أشكال الوسائط. يمكن لنماذج جمني الجديدة من جوجل إنشاء الصوت والصور والنصوص، بينما يستطيع النموذج الافتراضي في ChatGPT من OpenAI إنشاء الصور أيضًا — بما في ذلك، بالطبع، الفن على طراز استوديو غيبلي. كما أعلنت أمازون عن خطط لإطلاق نموذج "من أي إلى أي" في وقت لاحق من هذا العام.
تتطلب هذه النماذج الكونية الكثير من بيانات التدريب — الصور، الفيديوهات، الصوت، والنصوص، وغيرها. وأشار هاسابيس إلى أن بيانات الفيديو الخاصة بنموذج "فيو" تأتي في الغالب من موقع يوتيوب، وهو المنصة التي تملكها جوجل.
وأوضح هاسابيس: "ببساطة، من خلال مشاهدة مقاطع الفيديو على يوتيوب — الكثير من مقاطع الفيديو — يمكن لـ (فيو 2) فهم، كما تعلم، فيزياء العالم".
في وقت سابق، أخبرت جوجل موقع "تك كرانش" أن نماذجها "قد تكون" تم تدريبها على "بعض" المحتوى من يوتيوب بما يتوافق مع اتفاقها مع منشئي المحتوى على يوتيوب. ووفقًا للتقارير، قامت جوجل بتوسيع شروط خدماتها في العام الماضي جزئيًا للسماح لها بالاستفادة من المزيد من البيانات لتدريب نماذج الذكاء الاصطناعي الخاصة بها.