زاد الاردن الاخباري -
أكدت نتائج دراسة جديدة نصيحة لطالما ترددت وهي أن روبوتات الدردشة المعتمدة على الذكاء الاصطناعي لا ينبغي استخدامها للحصول على حقائق، أي أنه لا يمكن الوثوق بها في هذا الأمر.
وهناك مشكلتان رئيسيتان معروفتان عند محاولة استخدام نماذج اللغة الكبيرة مثل "شات جي بي تي" كبديل لعمليات البحث على الويب، وهما أن هذه النماذج غالبًا ما تكون مخطئة، وأنها غالبًا ما تكون واثقة جدًا من معلوماتها غير الصحيحة.
دراسة جديدة
وجدت دراسة استشهدت بها مجلة "Columbia Journalism Review" أنه حتى عندما تُعطى روبوتات الدردشة اقتباسًا دقيقًا من مقالة صحفية ويُطلب منها المزيد من التفاصيل، فإن معظمها يخطئ في أغلب الأحيان، بحسب تقرير لموقع "9TO5Mac".
وأجرى مركز تو للصحافة الرقمية اختبارات على ثمانية روبوتات دردشة تعمل بالذكاء الاصطناعي تدعي إجراء عمليات بحث على الويب للحصول على الحقائق.
وهذه الربوتات هي "شات جي بي تي" و"ديب سيك" و"غروك 2" و"غروك 3" و"Gemini" و"Copilot" و" Perplexity" و" Perplexity Pro".
وقدمت الدراسة لكل نظام اقتباسًا من مقال صحفي، وطلبت منه تنفيذ مهمة بسيطة: العثور على هذا المقال عبر الإنترنت وتوفير رابط إليه، مع العنوان والناشر الأصلي وتاريخ النشر.
وتم تصنيف روبوتات الدردشة على أساس ما إذا كانت صحيحة تمامًا، أو صحيحة ولكن مع بعض المعلومات المطلوبة مفقودة، أو غير صحيحة جزئيًا، أو غير صحيحة تمامًا، أو لا يمكنها الإجابة.
كما لاحظ القائمون على الدراسة مدى ثقة روبوتات الدردشة في عرض نتائجها. على سبيل المثال، هل قدموا إجاباتهم كحقائق فقط، أم استخدموا عبارات مؤهلة مثل "يبدو" أو تضمنوا اعترافًا بأنهم لم يتمكنوا من العثور على تطابق دقيق للاقتباس.
نتائج صادمة
في المتوسط، كانت أنظمة الذكاء الاصطناعي صحيحة في أقل من 40% من الوقت، وكان الأكثر دقة هو "Perplexity" بنسبة 63%، والأسوأ كان "غروك 3" الموجود عبر منصة "إكس" بنسبة 6% فقط.
كانت روبوتات الدردشة سيئة بشكل عام في رفض الإجابة على الأسئلة التي لا يمكنها الإجابة عليها بدقة، وعرضت إجابات غير صحيحة أو تخمينية بدلًا من ذلك.
وفي حين كان أداء "Perplexity" هو الأفضل، يبدو أن هذا يرجع إلى الغش. ويمكن للقائمين على المواقع الإلكترونية استخدام ملف "robots.txt" على مواقعهم لإخبار روبوتات الدردشة ما إذا كان ينبغي لها الوصول إلى الموقع أم لا.
وقد وجد "Perplexity" بشكل صحيح جميع الاقتباسات العشر على الرغم من حقيقة أن المقالات كانت محمية بجدار دفع ولم يكن لدى الشركة اتفاقية ترخيص.
ومن بين البقية، قدم "شات جي بي تي" أفضل النتائج على هذا الصعيد، أو بشكل أكثر دقة، كان الأقل سوءًا.
وعلى الرغم من ذلك، توضح الدراسة بالتأكيد ما كنا نعرفه بالفعل: أنه ينبغي استخدام روبوتات الدردشة للإلهام والأفكار، ولكن ليس أبدًا للحصول على إجابات للأسئلة حول الحقائق.