آخر الأخبار
ضعف غير متوقع في الذكاء الاصطناعي: دراسة تكشف عن صعوبة فهم النصوص الطويلة

في ظل التطور المتسارع في مجال الذكاء الاصطناعي، تتباهى الشركات التكنولوجية بقدرة نماذج الذكاء الاصطناعي اللغوية على تحليل وفهم النصوص الطويلة بفعالية. ومع ذلك، كشفت دراسة حديثة أجراها باحثون من جامعة لودفيغ ماكسيميليان في ميونخ (LMU Munich)، ومركز ميونخ للتعلم الآلي (Munich Center for Machine Learning)، وأدوبي للأبحاث (Adobe Research) عن ضعف غير متوقع في هذه النماذج، حيث أظهرت أن أداءها يتراجع تدريجيًا مع زيادة طول النصوص، خاصة عندما لا يكون هناك تطابق حرفي بين الكلمات.
كيف تعمل نماذج الذكاء الاصطناعي مع النصوص الطويلة؟
يعتمد البشر عند قراءة مستندات طويلة على ربط الأفكار والمفاهيم عبر مختلف الأقسام لفهم السياق العام. في المقابل، تعتمد نماذج الذكاء الاصطناعي اللغوية على آلية تُعرف باسم “آلية الانتباه” (Attention Mechanism) التي تساعدها على تتبع العلاقات بين الكلمات وفهم النصوص. ولكن هذه الآلية تعمل بكفاءة عالية مع النصوص القصيرة، بينما تبدأ بفقدان فعاليتها مع المستندات الطويلة، خاصة عند عدم وجود تطابق حرفي بين الكلمات.
تقييم الضعف باستخدام معيار NOLIMA
لتقييم مدى قدرة النماذج اللغوية على فهم النصوص الطويلة دون الاعتماد على التطابق الحرفي، طوّر الباحثون معيارًا جديدًا أطلقوا عليه اسم NOLIMA (No Literal Matching). يساعد هذا المعيار في اختبار مدى قدرة الذكاء الاصطناعي على استنتاج الروابط بين المفاهيم المختلفة حتى عندما تُستخدم كلمات مختلفة للتعبير عن الفكرة ذاتها.
كشفت نتائج الاختبارات عن تراجع كبير في أداء النماذج كلما زاد طول النص، حيث أظهرت البيانات ما يلي:
- عند قراءة نصوص تتجاوز 2000 كلمة، تبدأ كفاءة النموذج في التراجع.
- عندما يصل طول النص إلى 32,000 كلمة (ما يعادل كتابًا قصيرًا)، ينخفض الأداء إلى النصف تقريبًا.
- نموذج GPT-4o حافظ على أدائه الجيد حتى 8000 رمز (أي ما يقارب 6000 كلمة)، لكن كفاءته بدأت بالانخفاض بعد هذا الحد.
- نماذج Gemini 1.5 Pro و Llama 3 70B أظهرت انخفاضًا في الأداء بعد 2000 رمز فقط، مما يشير إلى محدودية قدرتها على التعامل مع النصوص الطويلة.
ما الذي تعنيه هذه النتائج؟
أظهر اختبار NOLIMA أن نماذج الذكاء الاصطناعي اللغوية تعاني من عدة مشكلات عند التعامل مع المستندات الطويلة، أبرزها:
- صعوبة ربط المفاهيم المختلفة عندما يتم التعبير عنها بمصطلحات متنوعة.
- عدم القدرة على تنفيذ عمليات التفكير متعددة الخطوات بشكل دقيق عند قراءة نصوص طويلة.
- الوقوع في فخ التشابهات المضللة عند وجود كلمات متطابقة لكنها غير مرتبطة بالسياق الصحيح.
هذه النتائج تتعارض مع بعض الإعلانات التسويقية التي تروّج لقدرة النماذج اللغوية على التعامل مع المستندات الطويلة بكفاءة عالية، إذ يتراجع أداؤها الفعلي قبل الوصول إلى الحدود النظرية المعلن عنها.
تحديات تطبيقية في المجالات الحساسة
يؤدي هذا الضعف في فهم المستندات الطويلة إلى تحديات كبيرة في المجالات التي تتطلب تحليلًا دقيقًا للنصوص، مثل:
- المجال القانوني: قد تفشل النماذج في العثور على سوابق قانونية مهمة إذا كانت مكتوبة بصيغة مختلفة عن الاستعلام، حتى لو كانت مرتبطة جوهريًا بالقضية.
- المجال الطبي: عند تحليل السجلات الطبية، قد لا تتمكن النماذج من الربط بين الأعراض والتشخيص إذا لم يكن هناك تطابق حرفي بين الكلمات المستخدمة في التقرير الطبي وسجلات المرضى السابقة.
كيف يمكن التغلب على المشكلة؟
للتعامل مع هذا التحدي وتحسين دقة النماذج اللغوية عند تحليل النصوص الطويلة، يقترح الباحثون اتباع الاستراتيجيات التالية:
- تقسيم المستندات الطويلة إلى أجزاء صغيرة لتسهيل معالجتها من قبل النماذج اللغوية.
- كتابة استفسارات واضحة ودقيقة عند طلب المعلومات من النموذج لضمان تقديم إجابة أكثر دقة.
- مراجعة المحتوى الناتج يدويًا خاصة عند التعامل مع المعلومات الحساسة، لضمان دقة التحليل والتفسير.
تشير هذه الدراسة إلى الحاجة الملحة لتحسين آليات معالجة اللغة الطبيعية في الذكاء الاصطناعي، حيث تعتمد النماذج الحالية على تطابق الكلمات حرفيًا، مما يؤدي إلى تراجع أدائها مع النصوص الطويلة. وعلى الرغم من التطورات المستمرة في هذا المجال، فإن الإنسان يظل أكثر قدرة على فهم المعاني وربط الأفكار عند التعامل مع المستندات المعقدة.
في النهاية، يبقى استخدام الذكاء الاصطناعي في تحليل النصوص الطويلة مفيدًا، لكن يجب التعامل معه بحذر، خاصة في المجالات التي تتطلب دقة عالية، مع ضرورة استمرار الرقابة البشرية لضمان موثوقية المعلومات المستخرجة.