كيف علمت أمازون أليكسا التحدث بلغة إيرلندية
مثل هنري هيغينز ، عازف النطق من مسرحية جورج برنارد شو “Pygmalion” ، أظهر ماريوس كوتيسكو وجورجي تينشيف مؤخرًا كيف كان طالبهم يحاول التغلب على صعوبات النطق.
كان عالما البيانات ، اللذان يعملان في أمازون في أوروبا ، يعلمان أليكسا ، المساعد الرقمي للشركة. مهمتهم: مساعدة Alexa على إتقان اللغة الإنجليزية بلكنة أيرلندية بمساعدة الذكاء الاصطناعي والتسجيلات من الناطقين بها.
خلال المظاهرة ، تحدث أليكسا عن ليلة لا تنسى. “كانت الحفلة الليلة الماضية مجنونة للغاية” ، قالت أليكسا بإسهاب مستخدمة الكلمة الأيرلندية للمتعة. “حصلنا على الآيس كريم في طريقنا إلى المنزل ، وكنا سعداء بالخروج.”
هز السيد تينشيف رأسه. قام Alexa بإسقاط حرف “r” في كلمة “party” ، مما يجعل الكلمة تبدو مسطحة ، مثل pah-tee. وخلص إلى أنه بريطاني للغاية.
يعد التقنيون جزءًا من فريق في أمازون يعمل في مجال صعب من علوم البيانات يُعرف باسم فك التشابك الصوتي. إنها مشكلة صعبة اكتسبت أهمية جديدة وسط موجة من تطورات الذكاء الاصطناعي ، حيث يعتقد الباحثون أن لغز الكلام والتكنولوجيا يمكن أن يساعد في جعل الأجهزة التي تعمل بالذكاء الاصطناعي والروبوتات ومُصنِّع الكلام أكثر قدرة على المحادثة – أي قادرة على جذب العديد من الجهات الإقليمية. لهجات.
ينطوي التعامل مع فك التشابك الصوتي على أكثر من مجرد استيعاب المفردات والنحو. غالبًا ما تعطي طبقة المتحدث والجرس واللهجة معنى دقيقًا للكلمات ووزنًا عاطفيًا. يسمي اللغويون هذه الميزة اللغوية “العرض” ، وهو شيء واجهت الآلات صعوبة في إتقانها.
فقط في السنوات الأخيرة ، بفضل التقدم في الذكاء الاصطناعي ، ورقائق الكمبيوتر والأجهزة الأخرى ، قطع الباحثون خطوات واسعة في حل مشكلة فك التشابك الصوتي ، وتحويل الكلام الناتج عن الكمبيوتر إلى شيء أكثر إرضاءً للأذن.
قال الباحثون إن مثل هذا العمل قد يتقارب في النهاية مع انفجار “الذكاء الاصطناعي التوليدي” ، وهي تقنية تمكن روبوتات المحادثة من توليد استجاباتها الخاصة. قد تعمل روبوتات الدردشة مثل ChatGPT و Bard يومًا ما بشكل كامل بناءً على أوامر المستخدمين الصوتية وتستجيب لفظيًا. في الوقت نفسه ، سيصبح المساعدون الصوتيون مثل Alexa و Apple’s Siri أكثر تخاطبًا ، مما قد يؤدي إلى إحياء اهتمام المستهلك في قطاع التكنولوجيا الذي يبدو أنه توقف ، كما قال المحللون.
كان الحصول على مساعدين صوتيين مثل Alexa و Siri و Google Assistant للتحدث بلغات متعددة عملية مكلفة وطويلة الأمد. استأجرت شركات التكنولوجيا ممثلين صوتيين لتسجيل مئات الساعات من الكلام ، مما ساعد في إنشاء أصوات اصطناعية للمساعدين الرقميين. أنظمة الذكاء الاصطناعي المتقدمة المعروفة باسم “نماذج تحويل النص إلى كلام” – لأنها تحول النص إلى كلام اصطناعي يبدو طبيعيًا – بدأت للتو في تبسيط هذه العملية.
قالت ماريون لابوري ، كبيرة المحللين الاستراتيجيين في دويتشه بنك للأبحاث ، إن التكنولوجيا “قادرة الآن على إنشاء صوت بشري وصوت اصطناعي بناءً على إدخال نصي بلغات ولهجات ولهجات مختلفة”.
تعرضت أمازون لضغوط للحاق بمنافسين مثل مايكروسوفت وجوجل في سباق الذكاء الاصطناعي. في أبريل ، أخبر آندي جاسي ، الرئيس التنفيذي لشركة أمازون ، محللي وول ستريت أن الشركة تخطط لجعل أليكسا “أكثر استباقية وتحدثًا” بمساعدة الذكاء الاصطناعي التوليدي المتطور وروهيت براساد ، كبير علماء أمازون في أليكسا ، قال لشبكة سي إن بي سي في أتمنى أنه رأى المساعد الصوتي على أنه تمكين صوتي “ذكاء اصطناعي شخصي متاح على الفور”
ظهرت أليكسا الأيرلندية لأول مرة تجاريًا في نوفمبر ، بعد تسعة أشهر من التدريب على فهم اللهجة الأيرلندية ثم التحدث بها.
“اللكنة تختلف عن اللغة” ، قال السيد براساد في مقابلة. يجب أن تتعلم تقنيات الذكاء الاصطناعي استخلاص اللهجة من أجزاء أخرى من الكلام ، مثل النغمة والتردد ، قبل أن تتمكن من تكرار خصائص اللهجات المحلية – على سبيل المثال ، ربما تكون “a” أكثر انبساطًا و “t” يتم نطقها بقوة أكبر.
وقال إن هذه الأنظمة يجب أن تكتشف هذه الأنماط “حتى تتمكن من تكوين لهجة جديدة كاملة”. “هذا صعب.”
ما زال أصعب يحاول الحصول على التكنولوجيا لتعلم لهجة جديدة بمفردها إلى حد كبير ، من نموذج كلام مختلف الصوت. هذا ما حاول فريق السيد كوتيسكو في بناء أليكسا الأيرلندية. لقد اعتمدوا بشكل كبير على نموذج الكلام الحالي للكنات البريطانية الإنجليزية بشكل أساسي – مع مجموعة أصغر بكثير من اللهجات الأمريكية والكندية والأسترالية – لتدريبها على التحدث باللغة الإنجليزية الأيرلندية.
واجه الفريق تحديات لغوية مختلفة للغة الإنجليزية الأيرلندية. يميل الأيرلنديون إلى إسقاط الحرف “h” في “th” ، على سبيل المثال ، لفظ الأحرف على أنها “t” أو “d” ، مما يجعل صوت “bath” مثل “bat” أو حتى “bad”. اللغة الإنجليزية الأيرلندية هي أيضًا rhotic ، مما يعني أن الحرف “r” يتم نطقه بشكل مفرط. هذا يعني أن الحرف “r” في “الحفلة” سيكون أكثر تميزًا مما قد تسمعه من فم أحد سكان لندن. كان على أليكسا تعلم ميزات الكلام هذه وإتقانها.
قال السيد كوتيسكو ، وهو روماني وكان الباحث الرئيسي في فريق أليكسا الأيرلندي ، إن اللغة الإنجليزية الأيرلندية “صعبة”.
لقد تطورت نماذج الكلام التي تدعم مهارات أليكسا اللفظية بشكل أكثر تقدمًا في السنوات الأخيرة. في عام 2020 ، قام باحثو أمازون بتعليم أليكسا التحدث باللغة الإسبانية بطلاقة من نموذج يتحدث اللغة الإنجليزية.
رأى السيد Cotescu والفريق أن اللهجات هي الحدود التالية لقدرات الكلام في Alexa. لقد صمموا أليكسا الأيرلندية للاعتماد على الذكاء الاصطناعي أكثر من الاعتماد على الممثلين لبناء نموذج الكلام الخاص بها. نتيجة لذلك ، تم تدريب أليكسا الأيرلندي على مجموعة صغيرة نسبيًا – حوالي 24 ساعة من التسجيلات من قبل الممثلين الصوتيين الذين تلاوا 2000 كلام باللغة الإنجليزية الأيرلندية.
في البداية ، عندما قام باحثو أمازون بتقديم التسجيلات الأيرلندية إلى أليكسا الأيرلندي الذي ما زال يتعلم ، حدثت بعض الأشياء الغريبة.
في بعض الأحيان ، تسربت الحروف والمقاطع من الرد. أحيانًا ما تكون “S” عالقة معًا. كانت كلمة أو كلمتان ، في بعض الأحيان حاسمة ، مغمغمة وغير مفهومة لسبب غير مفهوم. في حالة واحدة على الأقل ، انخفض صوت أليكسا الأنثوي بضع أوكتافات ، مما بدا أكثر ذكورية. الأسوأ من ذلك ، أن الصوت المذكر بدا بريطانيًا واضحًا ، وهو نوع من الأبله الذي قد يثير الدهشة في بعض المنازل الأيرلندية.
قال تينشيف ، وهو مواطن بلغاري كبير علماء أمازون في المشروع ، عن نماذج الكلام: “إنها صناديق سوداء كبيرة”. “يجب أن يكون لديك الكثير من التجارب لضبطها.”
هذا ما فعله التقنيون لتصحيح زلة “الحزب” في أليكسا. قاموا بفك تشابك الكلام ، كلمة بكلمة ، الصوت (أصغر قطعة مسموعة من الكلمة) بواسطة الصوت إلى النقطة التي كان أليكسا ينزلق فيها وضبطها. ثم قاموا بتغذية نموذج الكلام الأيرلندي أليكسا بمزيد من البيانات الصوتية المسجلة لتصحيح الخطأ اللفظي.
النتيجة: عادت “r” في “party”. ولكن بعد ذلك اختفت “ف”.
لذا قام علماء البيانات بنفس العملية مرة أخرى. قاموا في النهاية بالتركيز على الصوت الذي يحتوي على حرف “p” المفقود. ثم قاموا بضبط النموذج بشكل أكبر بحيث يعود الصوت “p” ولا يختفي الحرف “r”. تعلم أليكسا أخيرًا التحدث مثل دبلن.
منذ ذلك الحين ، قام اثنان من اللغويين الأيرلنديين – إيلين فوغان ، التي تدرس في جامعة ليمريك ، وكيت تالون ، طالبة الدكتوراه التي تعمل في مختبر الصوتيات والكلام في كلية ترينيتي في دبلن – بمنح درجات عالية في لهجة أليكسا الأيرلندية. قالوا إن الطريقة التي شدد بها أليكسا الأيرلندية على حرف “r” وتخفيف كلمة “t” عالقة ، وحصلت أمازون على اللهجة بشكل صحيح.
قالت السيدة تالون: “يبدو الأمر حقيقياً بالنسبة لي”.
قال باحثو أمازون إنهم سعداء بردود الفعل الإيجابية إلى حد كبير. لقد أدت نماذج خطابهم إلى فك التشابك في اللهجة الأيرلندية بهذه السرعة ، مما منحهم الأمل في إمكانية تكرار اللهجات في أماكن أخرى.
كتبوا في ورقة بحثية في يناير حول مشروع أليكسا الأيرلندي: “نخطط أيضًا لتوسيع منهجيتنا لتشمل لهجات غير اللغة الإنجليزية”.