عندما تهلوس AI Chatbots – نيويورك تايمز
متى نشرت صحيفة نيويورك تايمز أول تقرير عن “الذكاء الاصطناعي”؟
وفقًا لـ ChatGPT ، كان ذلك في 10 يوليو 1956 ، في مقال بعنوان “الآلات ستكون قادرة على التعلم ، وحل المشكلات ، ويتوقع العلماء” حول مؤتمر أساسي في كلية دارتموث. وأضاف chatbot:
كان مؤتمر عام 1956 حقيقياً. لم يكن المقال. اختلقها ChatGPT ببساطة. لا يخطئ ChatGPT فقط في بعض الأحيان ، بل يمكنه اختلاق المعلومات. الأسماء والتواريخ. تفسيرات طبية. مؤامرات الكتب. عناوين الإنترنت. حتى الأحداث التاريخية التي لم تحدث قط.
عندما سُئل موقع ChatGPT مؤخرًا عن كيفية لقاء جيمس جويس وفلاديمير لينين لأول مرة – لا يوجد دليل على وجودهما على الإطلاق – كانت هذه هي الطريقة التي استجابوا بها:
افتراءات مثل هذه شائعة. أصبح اكتشاف سبب صنع روبوتات المحادثة للأشياء وكيفية حل المشكلة من أكثر المشكلات إلحاحًا التي تواجه الباحثين في الوقت الذي تتسابق فيه صناعة التكنولوجيا نحو تطوير أنظمة ذكاء اصطناعي جديدة.
يتم استخدام روبوتات الدردشة مثل ChatGPT بواسطة مئات الملايين من الأشخاص للقيام بمجموعة واسعة بشكل متزايد من المهام ، بما في ذلك خدمات البريد الإلكتروني والمعلمين عبر الإنترنت ومحركات البحث. ويمكنهم تغيير طريقة تفاعل الناس مع المعلومات. ولكن لا توجد طريقة للتأكد من أن هذه الأنظمة تنتج معلومات دقيقة.
تعتمد هذه التقنية ، المسماة بالذكاء الاصطناعي التوليدي ، على خوارزمية معقدة تحلل الطريقة التي يضع بها البشر الكلمات معًا على الإنترنت. إنه لا يقرر ما هو حقيقي وما هو ليس كذلك. أثار عدم اليقين هذا مخاوف بشأن موثوقية هذا النوع الجديد من الذكاء الاصطناعي ويدعو للتساؤل عن مدى فائدته حتى يتم حل المشكلة أو السيطرة عليها.
غالبًا ما تشير صناعة التكنولوجيا إلى عدم الدقة على أنها “هلوسة”. لكن بالنسبة لبعض الباحثين ، فإن “الهلوسة” هي تعبير ملطف أكثر من اللازم. حتى الباحثين في شركات التكنولوجيا قلقون من أن الناس سيعتمدون بشكل كبير على هذه الأنظمة للحصول على المشورة الطبية والقانونية وغيرها من المعلومات التي يستخدمونها لاتخاذ قرارات يومية.
قال Subbarao Kambhampati ، الأستاذ والباحث في الذكاء الاصطناعي بجامعة ولاية أريزونا: “إذا كنت لا تعرف إجابة على سؤال بالفعل ، فلن أعطي السؤال لأحد هذه الأنظمة”.
لم يكن ChatGPT وحده الذي أخطأ في الإشارة الأولى إلى الذكاء الاصطناعي في صحيفة The Times. قدمت كل من برامج الدردشة الآلية من Google Bard و Bing من Microsoft إجابات غير دقيقة على السؤال نفسه بشكل متكرر. على الرغم من أن الإجابات خاطئة ، إلا أنها بدت معقولة لأنها ضبابية وخلطت بين الناس والأحداث والأفكار.
استشهد Bing من Microsoft بالنتائج التي توصلت إليها في عنوان ويب يبدو واقعيًا على موقع The Times على الويب:
وفقًا لأرشيفات The Times ، كانت جميع برامج الدردشة الآلية خاطئة. استشهدوا بمقالات لم تكن موجودة. وبينما يرجع تاريخ تغطية الأبحاث المبكرة حول آلات التفكير إلى ثلاثينيات القرن الماضي ، لم تنشر صحيفة التايمز حتى عام 1963 مقالاً يحمل عبارة “الذكاء الاصطناعي”.
وقالت جينيفر رودستروم ، المتحدثة باسم جوجل: “أصدرنا باردًا كتجربة ونريد أن نكون شفافين قدر الإمكان فيما يتعلق بالقيود الموثقة جيدًا”. “هذه هي أهم ما في أذهاننا ونحن نواصل تحسين Bard.”
مثل Google ، تقول Microsoft و OpenAI إنهما يعملان على تقليل الهلوسة.
الذكاء الاصطناعي الجديد. جاء في وثيقة داخلية لمايكروسوفت أن الأنظمة “صُممت لتكون مقنعة وليست صادقة”. هذا يعني أن النتائج يمكن أن تبدو واقعية للغاية ولكنها تتضمن عبارات غير صحيحة.
يتم تشغيل روبوتات المحادثة بواسطة تقنية تسمى نموذج اللغة الكبير ، أو LLM ، والتي تتعلم مهاراتها من خلال تحليل كميات هائلة من النصوص الرقمية المستخرجة من الإنترنت.
من خلال تحديد الأنماط في تلك البيانات ، يتعلم LLM القيام بشيء واحد على وجه الخصوص: تخمين الكلمة التالية في سلسلة من الكلمات. إنه يعمل كإصدار قوي من أداة الإكمال التلقائي. بالنظر إلى التسلسل “نيويورك تايمز هي ____ ،” قد تخمن “صحيفة”.
لأن الإنترنت مليء بمعلومات غير صحيحة ، تتعلم التكنولوجيا تكرار نفس الأكاذيب. وأحيانًا تكون روبوتات المحادثة تصنع الأشياء. إنهم ينتجون نصًا جديدًا ، يجمعون بين مليارات الأنماط بطرق غير متوقعة. هذا يعني أنه حتى لو تعلموا فقط من نص دقيق ، فقد يظلون قادرين على إنشاء شيء غير صحيح.
نظرًا لأن هذه الأنظمة تتعلم من بيانات أكثر مما يمكن للبشر تحليلها ، لا يستطيع حتى خبراء الذكاء الاصطناعي فهم سبب قيامهم بإنشاء تسلسل نصي معين في لحظة معينة. وإذا طرحت نفس السؤال مرتين ، فيمكنهما إنشاء نص مختلف.
وهذا يضاعف من تحديات التحقق من الحقائق وتحسين النتائج.
قال بارد في محادثة واحدة:
ثم قال بارد في محادثة أخرى:
طورت شركات مثل OpenAI و Google و Microsoft طرقًا لتحسين الدقة. OpenAI ، على سبيل المثال ، يحاول تحسين التكنولوجيا من خلال ردود الفعل من المختبرين البشريين.
بينما يختبر الأشخاص ChatGPT ، يقومون بتقييم ردود chatbot ، ويفصلون الإجابات المفيدة والصادقة عن تلك التي ليست كذلك. بعد ذلك ، وباستخدام تقنية تسمى التعلم المعزز ، يقضي النظام أسابيع في تحليل التصنيفات لفهم ما هي الحقيقة مقابل الخيال بشكل أفضل.
إصدار أحدث من ChatGPT يُدعى ChatGPT Plus ، والذي يتوفر مقابل اشتراك شهري قدره 20 دولارًا ، يتجنب باستمرار الإجابة على السؤال حول أول ذكر للذكاء الاصطناعي في The Times. قد يكون هذا نتيجة التعلم المعزز أو تغييرات أخرى على النظام المطبق بواسطة OpenAI.
قامت Microsoft ببناء Bing chatbot الخاص بها على رأس تقنية OpenAI الأساسية ، المسماة GPT-4 ، وطبقت طرقًا أخرى لتحسين الدقة. تستخدم الشركة GPT-4 لمقارنة استجابات chatbot بالبيانات الأساسية وتقييم كيفية أداء النموذج. بمعنى آخر ، تستخدم Microsoft الذكاء الاصطناعي لتحسين الذكاء الاصطناعي.
تحاول الشركة أيضًا تحسين استجابات chatbot بمساعدة محرك البحث التقليدي على الإنترنت. عندما تكتب استعلامًا في Bing chatbot ، تقوم Microsoft بإجراء بحث على الإنترنت حول نفس الموضوع ثم تقوم بطي النتائج في الاستعلام قبل إرسالها إلى الروبوت. من خلال تعديل الاستعلام ، قالت سارة بيرد ، إحدى الشركات الرائدة في جهود الذكاء الاصطناعي المسؤولة في Microsoft ، إن الشركة يمكنها دفع النظام لتحقيق نتائج أفضل.
تستخدم Google طرقًا مماثلة لتحسين دقة chatbot الرائع. قال إيلي كولينز ، نائب رئيس الأبحاث في Google ، إنه يستخدم ردود الفعل البشرية لصقل سلوك النظام ، و “يؤسس” النظام باستخدام المعلومات من محرك بحث الشركة.
قالت السيدة بيرد إن Microsoft لا تتحقق من استجابات الروبوت للتأكد من دقتها في الوقت الفعلي ، على الرغم من أنها تبحث في كيفية القيام بذلك. يتحقق من دقة جزء صغير من النتائج بعد الحقيقة ثم يستخدم هذا التحليل.
لكن زيادة الدقة قد يكون لها أيضًا جانب سلبي ، وفقًا لورقة بحثية حديثة من OpenAI. إذا أصبحت روبوتات المحادثة أكثر موثوقية ، فقد يصبح المستخدمون أكثر ثقة.
وقالت الصحيفة: “بشكل غير متوقع ، يمكن أن تصبح الهلوسة أكثر خطورة عندما تصبح النماذج أكثر صدقًا ، حيث يبني المستخدمون الثقة في النموذج عندما يقدم معلومات صادقة في مناطق لديهم بعض الإلمام بها”.
ستيف لوهر و نيكو جرانت ساهم في إعداد التقارير. جاك بيج و سوزان سي بيتشي ساهم في البحث.