موسيقى الراب الموناليزا؟ يقوم Microsoft AI الجديد بتحريك الوجوه من الصور

أنا ريو / مجموعة فيجوال تشاينا / جيتي إيماجيس

تظهر علامة Microsoft في المقر الرئيسي للشركة في 19 مارس 2023 في سياتل، واشنطن.


نيويورك
سي إن إن

تستطيع لوحة الموناليزا الآن أن تفعل أكثر من مجرد الابتسام، وذلك بفضل تقنية الذكاء الاصطناعي الجديدة من مايكروسوفت.

في الأسبوع الماضي، قام باحثو مايكروسوفت بتفصيل نموذج جديد للذكاء الاصطناعي قاموا بتطويره والذي يمكنه التقاط صورة ثابتة لوجه ومقطع صوتي لشخص يتحدث وإنشاء مقطع فيديو ذو مظهر واقعي تلقائيًا لذلك الشخص الذي يتحدث. تكتمل مقاطع الفيديو – التي يمكن إنشاؤها من وجوه واقعية، بالإضافة إلى الرسوم الكاريكاتورية أو الأعمال الفنية – بمزامنة الشفاه المقنعة وحركات الوجه والرأس الطبيعية.

في أحد مقاطع الفيديو التجريبية، أظهر الباحثون كيف قاموا بتحريك لوحة الموناليزا لتلاوة أغنية راب كوميدية للممثلة آن هاثاواي.

تسمى المخرجات من نموذج الذكاء الاصطناعي فاسا-1، كلاهما مسلي ومتناقض بعض الشيء في واقعهما. وقالت مايكروسوفت إن التكنولوجيا يمكن استخدامها للتعليم أو “تحسين إمكانية الوصول للأفراد الذين يعانون من تحديات التواصل”، أو ربما لإنشاء رفاق افتراضيين للبشر. ولكن من السهل أيضًا رؤية كيف يمكن إساءة استخدام الأداة واستخدامها لانتحال شخصيات أشخاص حقيقيين.

إنه مصدر قلق يتجاوز مايكروسوفت: مع ظهور المزيد من الأدوات لإنشاء صور ومقاطع فيديو ومقاطع صوتية مقنعة يتم إنشاؤها بواسطة الذكاء الاصطناعي، الخبراء يشعرون بالقلق وأن إساءة استخدامها يمكن أن تؤدي إلى أشكال جديدة من المعلومات الخاطئة. ويشعر البعض أيضًا بالقلق من أن التكنولوجيا قد تؤدي إلى مزيد من تعطيل الصناعات الإبداعية، بدءًا من الأفلام وحتى الإعلانات.

في الوقت الحالي، قالت مايكروسوفت إنها لا تخطط لإصدار نموذج VASA-1 للجمهور على الفور. تشبه هذه الخطوة الطريقة التي يتعامل بها شريك Microsoft OpenAI مع المخاوف المحيطة أداة الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي، Sora: قامت شركة OpenAI بالتشويق لـ Sora في فبراير، ولكنها حتى الآن جعلتها متاحة فقط لبعض المستخدمين المحترفين وأساتذة الأمن السيبراني لأغراض الاختبار.

READ  قد يحتوي جهاز MacBook Air المعاد تصميمه على M1 وليس M2

وقال باحثو مايكروسوفت في تدوينة: “نحن نعارض أي سلوك لإنشاء محتويات مضللة أو ضارة لأشخاص حقيقيين”. لكنهم أضافوا أن الشركة “ليس لديها أي خطط لإطلاق” المنتج علنًا “حتى نتأكد من استخدام التكنولوجيا بشكل مسؤول ووفقًا للوائح المناسبة”.

وقال الباحثون إن نموذج الذكاء الاصطناعي الجديد من مايكروسوفت تم تدريبه على العديد من مقاطع الفيديو لوجوه الأشخاص أثناء التحدث، وهو مصمم للتعرف على حركات الوجه والرأس الطبيعية، بما في ذلك “حركة الشفاه، والتعبير (غير الشفاه)، ونظرة العين، والوميض، من بين أمور أخرى”. والنتيجة هي فيديو أكثر واقعية عندما يقوم VASA-1 بتحريك صورة ثابتة.

على سبيل المثال، في أحد مقاطع الفيديو التجريبية التي تم ضبطها على مقطع يظهر فيه شخص ما يبدو مضطربًا، أثناء لعب ألعاب الفيديو على ما يبدو، كان الوجه المتكلم مقطبًا بالحواجب وزم الشفتين.

يمكن أيضًا توجيه أداة الذكاء الاصطناعي لإنتاج مقطع فيديو حيث ينظر الموضوع في اتجاه معين أو يعبر عن مشاعر معينة.

عند النظر عن كثب، لا تزال هناك علامات تشير إلى أن مقاطع الفيديو تم إنشاؤها آليًا، مثل الرمش غير المتكرر وحركات الحاجب المبالغ فيها. لكن مايكروسوفت قالت إنها تعتقد أن نموذجها “يتفوق بشكل كبير” على الأدوات المماثلة الأخرى و”يمهد الطريق للتفاعلات في الوقت الفعلي مع صور رمزية نابضة بالحياة تحاكي سلوكيات المحادثة البشرية”.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *