المستكشف | الأخبار والدروس والمقالات في شتى مجالات التقنية   المستكشف | الأخبار والدروس والمقالات في شتى مجالات التقنية
random

آخر الأخبار

random
random
جاري التحميل ...
random

عن إنتاج صوت آلي يحبه البشر

عن إنتاج صوت آلي يحبه البشر

مامدى دقة الصوت البشري المطلوبة عندما نطور تطبيقات نطق آلي؟

كان هذا سؤالاً بحثياً واجه فريقاً مؤلفاً من  6 من خبراء لغة في IBM بالإضافة لمهندسين وخبراء تسويق في 2009 عندما كانوا يعملون على تصميم وظيفة النطق الآلي لـ واتسون Watson، نظام الذكاء الصنعي القادر على المشاركة في برنامج Jeopardy! للمسابقات.

بعد ذلك بتسعة أشهر، ظهر صوت مدروس بشكل كبير من واتسون. ليس بشرياً بالمعنى الحرفي ولايشبه صوت HAL 9000 من فيلم 2001: A Space Odyseey أيضاً. استطاع هذا الصوت عكس شخصية واتسون التي استطاعت التغلب على اثنين من أفضل لاعبي Jeopardy.

يعتبر تطوير شخصية لكمبيوتر أو برنامج تحدياً حقيقياً يواجه المزيد من مطوري البرمجيات ومصمميها، أمام تطور الحواسب لتصبح محمولة لدى مستخدمين مشغولي اليدين والأعين طوال الوقت ويميلون لاستخدام الأوامر الصوتية أكثر وأكثر.

لايقتصر الأمر عل الحواسب، بل أصبحت الآلات قادرة على الاستماع والفهم والكلام. أضيفت الأوامر الصوتية إلى مجال واسع من الأجهزة التي نستخدمها بشكل يومي من السيارات إلى الألعاب إضافة إلى الأجهزة المنزلية مثل روبوتات المنزل Pepper و Jibo ومكبر الصوت الذكي Echo عبر صوت Alexa.

يظهر علم تصميمي جديد هذه الأيام بحثاً عن حل لهذا التحدي. تحدي بناء مايسمى “أدوات المحادثة Conversational Agents”، وهي برمجيات قادرة على فهم اللغة الطبيعية والرد بنطق طبيعي على الأوامر القادمة من البشر.

لكن هذا المجال، المقاد من قبل باحثين في مجال يعرف بالتفاعل بين الإنسان والآلة لايزال يعتبر فناً أكثر منه علماً.

لايزال إنتاج صوت آلي قريب إلى الصوت البشري وتصعب تفرقته عنه مقتصراً على الجمل القصيرة كالنشرة الجوية أو إرشادات القيادة. أي طول يؤدي إلى تفرقته كصوت آلي.

يقر الكثير من مطوري البرمجيات اليوم أنهم لايزالوا أمام مفارقة الوادي الغريب Uncanny Valley والتي تعتبر فيه الأصوات الآلية القريبة جداً إلى الصوت البشري مخيفة أو تسبب الاضطراب. قدّمت هذه العبارة للمرة الأولى من قبل عالم الروبوتات الياباني ماساهيرو موري Masahiro Mori عام 1970. لاحظ موري أنه ومع وصول الحركة الروبوتية إلى مرحلة  قريبة جداً من البشرية، أصبح الأمر أغرب وأكثر إزعاجاً. كان هذا قبل مرحلة يصبح فيها تفريق هذه الحركة عن البشرية أمراً صعباً جداً.

ينطبق الأمر أيضاً على النطق الآلي.

يقول براين لانغنر Brain Langner وهو باحث نطق أول في شركة ToyTalk (مقرها سان فرانسيسكو ومتخصصة بإنتاج تقنية نطق رقمي لألعاب مثل باربي): “يمكنني وصف الأمر بالمنفّر. عندما تستطيع الآلة نطق بعض الأمور بشكل صحيح، يميل البشر إلى الاعتقاد بأن كل ماسيصدر عنها لاحقاً سيكون صحيحاً.”

التحدي الأكبر من هذا هو إمكانية إضافة القيم البشرية إلى النطق مثل المشاعر وتغيير مقام الصوت وفقاً للكلام. يسمي خبراء اللغة هذا بـ “Prosody” أو علم نظم الشعر (العروض بالعربية)، وهو القدرة على إضافة الشدة المناسبة أو العاطفة أثناء الكلام.

اليوم، ومع كل هذا التقدم، لايزال تقديم كل هذا في الكلام الآلي أمراً غير ممكن. لانزال في بدايات الحصول على نتائج الأبحاث الأولية لتوظيف خوارزميات الذكاء الصنعي وقواعد بيانات ضخمة جداً من المشاعر البشرية المضمنة في ملفات صوتية.

يتم إنتاج الكلام الآلي بعدة طرق. أكثر هذه الطرق دقة وأقرب للطبيعية هي تلك التي تبدأ ببناء قاعدة بيانات من تسجيلات بشرية محددة ومدروسة لكل مايمكن أن يتم نطقه. قد يقضي الممثل الصوتي من عشر إلى مئات الساعات أثناء عملية التسجيل وأكثر.

أحد الأمثلة الجيدة على هذا فيلم Her، فيلم الخيال العلمي من 2013 الذي يتحدث عن علاقة مابين موظّف يعيش حالة وحدة وسامانثا، شخصية ذكية إلكترونية تعيش ضمن كمبيوتر متطور. قامت الممثلة سكارليت جوهانسن بتمثيل دور هذه الشخصية الآلية بعد أن قرر المخرج سبايك جونز أن صوت الممثلة السابقة الأصلي لم يقدم عمق العلاقة الرومنسية مابين الشخصيتين.

تأتي جذور تكنولوجيا النطق الآلي الحديثة من أعمال عالم الكمبيوتر الاسكتلندي آلان بلاك Alan Black الذي يعمل حالياً كبروفيسور في معهد تكنولوجيا اللغات في جامعة كارنيغي ميلون.

يقر بلاك بأنه ومع العلم بتحقيق تقدم كبير، لم تحقق أنظمة النطق الآلي إلى الآن دقة بشرية كاملة، ويقول: “المشكلة أننا لانملك قدرة تحكم كاملة تجعلنا نخاطب هذه البرمجيات ونقول لها: قولي هذا النص بمشاعر.”

قد لاتكون الأخطاء بالنسبة للمطورين في ToyTalk (شركة الألعاب) قاتلة كون الهدف النهائي هو التسلية أو الضحك. لكن، بالنسبة لبرمجيات أخرى أكثر حساسية لايمكن اعتبار الأخطاء بهذه البساطة.

يقول مصممي هذه البرمجيات أنهم لايريدون خداع البشر بالآلات التي يتحدثون معها، بل يبحثون عن طرق تجعل العلاقة معها أكثر بشرية.

أنتجت IBM على سبيل المثال مجموعة من الإعلانات حول واتسون. يقوم خلال أحدها حوار مابين المغني الشهير بوب ديلان وواتسون، يترك فيها ديلان المسرح بعد أن يبدأ واتسون بالغناء. صوت واتسون على مايبدو ليس بهذا الجمال.

قامت IBM هنا بعمل جيد في تبيان أن هدفها الحقيقي ليس الوصول إلى شيء مطابق للبشر. أرادوا إنتاج صوت ليس بشرياً جداً وبالتالي لايسبب تلك الأحاسيس الغير مرغوبة.

الحالة التي واجهها الباحثون في IBM أثناء التحضير لبرنامج Joepardy للمسابقات كانت خاصة وأصعب من غيرها كون الإجابات في هذا البرنامج قصيرة. كان هناك الكثير من الحالات التي يمكن فيها أن يفشل النطق وبالتالي تفشل الإجابة بالكامل.

يقول آندي آرون Andy Aaron الباحث في مختبر البيئات المعرفية Cognitive Enviroments في IBM Research: “أكبر مشاكلنا كان نسبة الخطأ. نسبة الخطأ في لفظ الكلمة بالشكل الصحيح.”

قضى عدد من أعضاء الفريق أكثر من سنة بالعمل على إنتاج قاعدة بيانات ضخمة من عمليات النطق السليمة لجعل نسبة الخطأ أقرب إلى الصفر بأكبر قدر ممكن. شكّلت كلمات مثل brut Champagne و carpe diem و Sotto voce حقل ألغام من الأخطاء جاعلة متابعة مجموعة قواعد نطق أمراً مستحيلاً.

قابل الباحثون 25 ممثلاً صوتياً باحثين عن صوت محدد لبناء شخصية واتسون. قاموا بعد اختيار الصوت الأفضل إلى تعديله بطرق مختلفة. وصلوا في أحد الحالات بعد التعديل للوصول لصوت أشبه بصوت طفل.

يقول مايكل بيكني Michael Picheny المدير في Watson Multimodal Lab في IBM Research: “قوبل نوع الشخصية هذا برفض شديد من قبل الجميع. لم نرد أن يكون الصوت مفرط الحماس.

كان البحث عن صوت بطيء ومستقر وممتع (الميزة الأكثر أهمية). في النهاية، قام الباحثون بالعمل على هذا آخذين دور الفنان أكثر من المهندس. كان الصوت النهائي آلياً وصوت كمبيوتر واضح لكنه كان متفائلاً وحتى حيوياً قليلاً.

يتابع بيكني: “وسيلة الربط بين الإنسان والآلة هي عمل فني، ويجب أن نتعامل معها على هذا الأساس.”

تطور تكنولوجيا النطق الآلي سيؤدي إلى تطبيقات جديدة قد تعجبنا أو ربما تزيد من اضطرابنا.

تفكّر شركة Imperson التي تتخذ من اسرائيل مقراً لها والمتخصصة في تطوير شخصيات محادثة آلية للتسلية في الدخول إلى عالم السياسة الآن. فكرة الشركة أنه وخلال حملة سياسية معينة، سيكون السياسي قادراً على إنتاج شخصية افتراضية على الشبكات الاجتماعية يمكن أن يتخاطب مع الناخبين ويحاورهم. قد تكون شخصية آلية لـتيد كروز أو دونالد ترمب قادرة على تحديد موقف المرشح من أي قضية.

يقول إيال بفيافيل Eyal Pfeifel المؤسس المشارك ومدير التكنولوجيا في Impreson: “يريد الجمهور أن يقوموا بحوار تفاعلي مع شخصية المرشح. سيفهم الناس هذا التطور الكبير ولن نواجه مشكلة “الوادي الغريب”.

ترجمة لأحد المقالات المميزة من النيويورك تايمز Creating a Computer Voice That People Like حول صعوبات تصميم وإنتاج تطبيقات النطق الآلي والتحديات التي تواجه المهندسين والعاملين في مجال اللغويات وعلوم الكمبيوتر.

 



مدونة المستكشف - Bh4b.com

عن الكاتب

Shawqi Al-Aghbari Shawqi Al-Aghbari
مدون من دولة اليمن ، مؤسس مدونة المستكشف ، أحب مشاركة المعلومة مع المتابعين عبر هذه المدونة ، مبتدئ في برمجة المواقع ومن هواياتي المفضلة التدوين الالكتروني والإستكشاف المعلوماتي .

التعليقات

Wood Profits Banner
The 3 Week Diet | Affs Making $48,000+ Daily Updated For Summer 2016 | You Get It
Unlock Your Hip Flexors - Huge Conversion Boost For 2016


إذا أعجبك محتوى مدونتنا نتمنى البقاء على تواصل دائم ، فقط قم بإدخال بريدك الإلكتروني للإشتراك في بريد المدونة السريع ليصلك جديد المدونة أولاً بأول ، كما يمكنك إرسال رساله بالضغط على الزر المجاور ...

إتصل بنا

عن المدونة

مدونة المستكشف هي مدونة تقنية ضخمة تضم عدد كبير من المقالات والمواضيع المتلقة بالتقنية والتكنولوجيا والأمن المعلوماتي عن طريق مقالات متسلسلة ومتخصصة تتطرق فيها إلى مختلف المواضيع التقنية القريبة من الشباب العربي , ونقوم بإقتنائها من أشهر مدونات التقنية الموجوده على الساحة العربية . مدونة المستكشف تأسست سنة 2010 / 2016 ، حيث ان مقرها الرئيسي باليمن و مديرها شوقي الأغبري . @ShawqeAlaghbre

المستكشف على تويتر

زوار المستكشف

Image