Meta Voicebox AI هو Dall-E لتحويل النص إلى كلام

اليوم ، نقترب خطوة واحدة من مستقبل المشاهير الخالد الذي طالما وعدنا به (منذ أبريل). كشفت Meta النقاب عن Voicebox ، نموذجها التكويني لتحويل النص إلى كلام الذي يعد بالقيام به للكلمة المنطوقة كما فعل ChatGPT و Dall-E ، باحترام ، لتوليد النص والصور.

في الأساس ، إنه منشئ تحويل النص إلى الإخراج تمامًا مثل GPT أو Dall-E – فقط بدلاً من إنشاء نثر أو صور جميلة ، فإنه يبث مقاطع صوتية. تُعرِّف Meta النظام على أنه “نموذج لمطابقة التدفق غير الانحدار التلقائي تم تدريبه لملء الكلام ، بالنظر إلى سياق الصوت والنص.” لقد تم تدريبه على أكثر من 50000 ساعة من الصوت غير المرشح. على وجه التحديد ، استخدمت Meta الكلام المسجل والنصوص من مجموعة من الكتب الصوتية ذات النطاق العام المكتوبة باللغات الإنجليزية والفرنسية والإسبانية والألمانية والبولندية والبرتغالية.

تسمح مجموعة البيانات المتنوعة هذه للنظام بإنتاج المزيد من الكلام الناطق بالمحادثة ، بغض النظر عن اللغات التي يتحدث بها كل طرف ، وفقًا للباحثين. “تُظهر نتائجنا أن نماذج التعرف على الكلام المُدرَّبة على الكلام الاصطناعي الذي تم إنشاؤه بواسطة Voicebox تعمل تقريبًا بنفس جودة أداء النماذج المُدرَّبة على الكلام الحقيقي.” علاوة على ذلك ، تم إجراء الكلام الذي تم إنشاؤه بواسطة الكمبيوتر مع انخفاض معدل الخطأ بنسبة 1 في المائة فقط ، مقارنةً بانخفاض نسبة 45 إلى 70 في المائة في نماذج تحويل النص إلى كلام الحالية.

تم تعليم النظام أولاً للتنبؤ بمقاطع الكلام بناءً على الأجزاء المحيطة بها بالإضافة إلى نص المقطع. أوضح باحثو ميتا: “بعد أن تعلمت ملء الكلام من السياق ، يمكن للنموذج تطبيق ذلك عبر مهام إنشاء الكلام ، بما في ذلك إنشاء أجزاء في منتصف التسجيل الصوتي دون الحاجة إلى إعادة إنشاء المدخلات بالكامل”.

READ  PS Plus For July تعطيك لعبة الرعب المخيفة Alan Wake

وبحسب ما ورد ، فإن Voicebox قادر أيضًا على تحرير المقاطع الصوتية بنشاط ، والقضاء على الضوضاء من الكلام وحتى استبدال الكلمات المنطوقة بشكل خاطئ. قال الباحثون: “يمكن لأي شخص تحديد أي جزء أولي من الكلام تفسد بالضوضاء (مثل نباح الكلب) ، واقتصاصه ، وإرشاد النموذج إلى إعادة تكوين هذا المقطع” ، مثل استخدام برنامج تحرير الصور لتنظيف الصور .

كانت مولدات تحويل النص إلى كلام موجودة لمدة دقيقة – إنها الطريقة التي تمكن بها والديك TomToms من إعطاء اتجاهات القيادة المراوغة بصوت Morgan Freeman. التكرارات الحديثة مثل ألقى خطابا أو برايم صوت AI من Elevenlab هم أكثر قدرة بكثير ولكنهم لا يزالون يحتاجون إلى حد كبير إلى تلال من المواد المصدر من أجل تقليد موضوعهم بشكل صحيح – ثم جبل آخر من البيانات المختلفة لكل منها. أعزب. آخر. الموضوع الذي تريد التدريب عليه.

Voicebox لا ، وذلك بفضل طريقة جديدة للتدريب على تحويل النص إلى كلام جديدة بدون لقطة. النتائج المعيارية ليست قريبة حتى حيث ورد أن الذكاء الاصطناعي في Meta قد تفوق على الحالة الحالية للفن في كل من الوضوح (معدل خطأ 1.9 بالمائة مقابل 5.9 بالمائة) و ​​”تشابه صوتي” (درجة مركبة من 0.681 إلى 0.580 في SOA) ، كل ذلك مع تشغيل أسرع 20 مرة من أفضل أنظمة تحويل النص إلى كلام اليوم.

ولكن لا تجعل ملاحي المشاهير الذين تتعامل معهم في صف حتى الآن ، فلا تطبيق Voicebox ولا رمز المصدر الخاص به يتم إطلاقهما للجمهور في هذا الوقت ، كما أكد Meta يوم الجمعة ، مشيرًا إلى “المخاطر المحتملة لسوء الاستخدام” على الرغم من “الاستخدام المثير للإعجاب” حالات لنماذج الكلام التوليفية “. بدلاً من ذلك ، أصدرت الشركة سلسلة من الأمثلة الصوتية (انظر أعلاه / أدناه) بالإضافة إلى ورقة البحث الأولية للبرنامج. يأمل فريق البحث أن تجد التكنولوجيا طريقها في المستقبل إلى الأطراف الصناعية للمرضى الذين يعانون من تلف في الأحبال الصوتية ، وأجهزة NPC داخل اللعبة والمساعدين الرقميين.

READ  تتخطى Blizzcon عام 2024 لصالح العديد من الأحداث العالمية لعرض World of Warcraft وتوسعة Diablo والمزيد

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *