كشفت Google DeepMind بهدوء عن تقدم كبير في أبحاث الذكاء الاصطناعي ( AI ) يوم الثلاثاء، حيث قدمت نموذجًا انحداريًا جديدًا يهدف إلى تحسين فهم مدخلات الفيديو الطويلة.
 |
Google DeepMind |
يُظهر النموذج الجديد، المسمى " Mirasol3B "، نهجًا رائدًا للتعلم متعدد الوسائط، ومعالجة بيانات الصوت والفيديو والنص بطريقة أكثر تكاملاً وكفاءة.
ووفقاً لإسحاق نوبل، مهندس البرمجيات في شركة جوجل للأبحاث، وأنيليا أنجيلوفا، عالمة الأبحاث في شركة جوجل ديب مايند، والتي شاركت في كتابة مقالة مطولة حول أبحاثهما، فإن التحدي المتمثل في بناء نماذج متعددة الوسائط يكمن في عدم تجانس الطرائق.
ويوضحون أن "بعض الطرائق قد تكون متزامنة بشكل جيد مع الوقت (على سبيل المثال، الصوت والفيديو) ولكنها لا تتماشى مع النص". "علاوة على ذلك، فإن الحجم الكبير من البيانات في إشارات الفيديو والصوت أكبر بكثير من ذلك الموجود في النص، لذلك عند دمجها في نماذج متعددة الوسائط، غالبًا لا يمكن استهلاك الفيديو والصوت بالكامل ويلزم ضغطهما بشكل غير متناسب. وتتفاقم هذه المشكلة عند إدخال مقاطع فيديو أطول.
جولة تأثير الذكاء الاصطناعي
تواصل مع مجتمع الذكاء الاصطناعي للمؤسسة في جولة تأثير الذكاء الاصطناعي الخاصة بـ VentureBeat القادمة إلى مدينة قريبة منك!
نهج جديد للتعلم متعدد الوسائط
استجابة لهذا التعقيد، يقوم نموذج Google Mirasol3B بفصل النمذجة متعددة الوسائط إلى نماذج انحدار ذاتي منفصلة ومركزة، ومعالجة المدخلات وفقًا لخصائص الطرائق.
"يتكون نموذجنا من مكون انحداري تلقائي للطرائق المتزامنة مع الوقت (الصوت والفيديو) ومكون انحداري منفصل للطرائق التي ليست بالضرورة محاذية للوقت ولكنها لا تزال متسلسلة، على سبيل المثال، مدخلات النص، مثل العنوان أو الوصف، "يشرح نوبل وأنجيلوفا.
جوجل ستبدأ في حذف حسابات المستخدمين غير النشطة اعتبارًا من ديسمبر 2023
ويأتي هذا الإعلان في الوقت الذي تسعى فيه صناعة التكنولوجيا جاهدة لتسخير قوة الذكاء الاصطناعي لتحليل وفهم كميات هائلة من البيانات عبر تنسيقات مختلفة. ويمثل Mirasol3B من Google خطوة هامة إلى الأمام في هذا المسعى، حيث يفتح إمكانيات جديدة لتطبيقات مثل الإجابة على أسئلة الفيديو وضمان جودة الفيديو الطويل.
التطبيقات المحتملة لليوتيوب
أحد التطبيقات المحتملة للنموذج الذي قد تستكشفه جوجل هو استخدامه على موقع يوتيوب، الذي يعد أكبر منصة للفيديو عبر الإنترنت في العالم وأحد مصادر الإيرادات الرئيسية للشركة .
يمكن استخدام النموذج نظريًا لتعزيز تجربة المستخدم ومشاركته من خلال توفير المزيد من الميزات والوظائف متعددة الوسائط، مثل إنشاء التسميات التوضيحية والملخصات لمقاطع الفيديو، والإجابة على الأسئلة وتقديم التعليقات، وإنشاء توصيات وإعلانات مخصصة، وتمكين المستخدمين من إنشاء وتحرير إعلاناتهم. مقاطع الفيديو الخاصة باستخدام المدخلات والمخرجات متعددة الوسائط.
على سبيل المثال، يمكن للنموذج إنشاء تسميات توضيحية وملخصات لمقاطع الفيديو استنادًا إلى المحتوى المرئي والصوتي، والسماح للمستخدمين بالبحث عن مقاطع الفيديو وتصفيتها حسب الكلمات الرئيسية أو المواضيع أو المشاعر. وقد يؤدي ذلك إلى تحسين إمكانية الوصول إلى مقاطع الفيديو وإمكانية اكتشافها، ومساعدة المستخدمين في العثور على المحتوى الذي يبحثون عنه بسهولة وسرعة أكبر.
يمكن أيضًا استخدام النموذج نظريًا للإجابة على الأسئلة وتقديم التعليقات للمستخدمين بناءً على محتوى الفيديو، مثل شرح معنى المصطلح، أو توفير معلومات أو موارد إضافية، أو اقتراح مقاطع فيديو أو قوائم تشغيل ذات صلة.
ردود فعل متباينة من مجتمع الذكاء الاصطناعي
وقد أثار هذا الإعلان الكثير من الاهتمام والإثارة في مجتمع الذكاء الاصطناعي، بالإضافة إلى بعض الشكوك والانتقادات. وقد أشاد بعض الخبراء بالنموذج لتعدد استخداماته وقابلية التوسع، وأعربوا عن آمالهم في تطبيقاته المحتملة في مختلف المجالات.
على سبيل المثال، غرد ليو ترونشون، مهندس أبحاث تعلم الآلة في شركة Hugging Face، قائلًا : "من المثير جدًا رؤية نماذج مثل Mirasol تتضمن المزيد من الأساليب. لا يوجد العديد من النماذج القوية في العلن والتي تستخدم الصوت والفيديو حتى الآن. سيكون من المفيد حقًا أن يكون ذلك على [عناق الوجه]."
غرد غوتام شاردا، طالب علوم الكمبيوتر في جامعة أيوا : "يبدو أنه لا يوجد كود أو أوزان نموذجية أو بيانات تدريب أو حتى واجهة برمجة التطبيقات . ولم لا؟ أود أن أراهم يطلقون فعليًا شيئًا يتجاوز مجرد ورقة بحثية؟
معلم مهم لمستقبل الذكاء الاصطناعي
ويمثل هذا الإعلان علامة فارقة هامة في مجال الذكاء الاصطناعي والتعلم الآلي، ويظهر طموح جوجل وريادتها في تطوير التقنيات المتطورة التي يمكنها تعزيز حياة البشر وتحويلها.
ومع ذلك، فإنه يشكل أيضًا تحديًا وفرصة للباحثين والمطورين والمنظمين ومستخدمي الذكاء الاصطناعي، الذين يحتاجون إلى التأكد من توافق النموذج وتطبيقاته مع القيم والمعايير الأخلاقية والاجتماعية والبيئية للمجتمع.
نظرًا لأن العالم أصبح أكثر تعدد الوسائط وترابطًا، فمن الضروري تعزيز ثقافة التعاون والابتكار والمسؤولية بين أصحاب المصلحة والجمهور، وإنشاء نظام بيئي أكثر شمولاً وتنوعًا للذكاء الاصطناعي يمكن أن يفيد الجميع.