قد يتفوق الذكاء الاصطناعي في مهام معينة، مثل البرمجة أو إنشاء البث الصوتي، لكنه يكافح لاجتياز امتحان التاريخ رفيع المستوى، وفقًا لدراسة جديدة، حيث أنشأ فريق من الباحثين معيارًا جديدًا لاختبار 3 من أفضل نماذج اللغة الكبيرة (LLMs) - GPT-4 من OpenAI، وLlama من Meta، وGemini من Google في الأسئلة التاريخية.

يختبر المعيار Hist-LLM صحة الإجابات وفقًا لقاعدة بيانات Seshat Global History Databank، وهي قاعدة بيانات ضخمة من المعرفة التاريخية.

وكانت النتائج، التي عُرضت الشهر الماضي في مؤتمر الذكاء الاصطناعي البارز NeurIPS، مخيبة للآمال وفقًا للباحثين التابعين لمركز Complexity Science Hub (CSH)، وهو معهد بحثي مقره النمسا.


وكان أفضل برنامج LLM أداءً هو GPT-4 Turbo، لكنه حقق دقة تبلغ نحو 46% فقط، وهي ليست أعلى كثيرًا من التخمين العشوائي.

«الاستنتاج الرئيس من هذه الدراسة هو أن برامج الماجستير في القانون، على الرغم من كونها مثيرة للإعجاب، لا تزال تفتقر إلى العمق المطلوب للتاريخ المتقدم. إنها رائعة للحقائق الأساسية، ولكن عندما يتعلق الأمر بالاستفسارات التاريخية الأكثر دقة على مستوى الدكتوراه، فإنها ليست على مستوى المهمة بعد».. هذا ما قالته ماريا ديل ريو تشانونا، إحدى المؤلفين المشاركين في البحث أستاذة مشاركة في علوم الكمبيوتر في جامعة كلية لندن.

عيّنة من الأسئلة

شارك الباحثون عيّنة من الأسئلة التاريخية مع TechCrunch، التي أخطأ فيها طلاب LLM.

على سبيل المثال، سُئل GPT-4 Turbo عما إذا كان الدرع القشرية موجودًا خلال فترة زمنية محددة في مصر القديمة، فأجاب طلاب LLM: نعم، لكن التكنولوجيا لم تظهر في مصر إلا بعد 1500 عام.

والسؤال: لماذا يفشل طلاب الماجستير في القانون في الإجابة عن الأسئلة التاريخية الفنية، بينما أنهم قادرون على الإجابة عن أسئلة معقدة للغاية حول أشياء مثل البرمجة؟ قالت ديل ريو تشانونا لموقع TechCrunch: «السبب على الأرجح هو أن طلاب الماجستير في القانون يميلون إلى الاستقراء من البيانات التاريخية البارزة للغاية، مما يجعل من الصعب استرجاع المعرفة التاريخية الأكثر غموضًا».

على سبيل المثال، سأل الباحثون GPT-4 عما إذا كانت مصر القديمة تمتلك جيشًا محترفًا قائمًا خلال فترة تاريخية محددة. وبينما كانت الإجابة الصحيحة هي لا، أجاب LLM بشكل غير صحيح بأن مصر القديمة كانت تمتلك جيشًا قائمًا. ومن المرجح أن يكون هذا بسبب وجود كثير من المعلومات العامة حول وجود جيوش نظامية لإمبراطوريات قديمة أخرى، مثل بلاد فارس.

«إذا تم إخبارك بـA وB 100 مرة، وC مرة واحدة، ثم تم طرح سؤال حول C، فقد تتذكر فقط A وB، وتحاول الاستنتاج من ذلك»، كما قالت ديل ريو تشانونا.

وحدد الباحثون أيضا اتجاهات أخرى، بما في ذلك أن نماذج OpenAI وLlama كان أداؤها أسوأ في مناطق معينة، مثل أفريقيا جنوب الصحراء الكبرى، مما يشير إلى تحيزات محتملة في بيانات التدريب الخاصة بهم.

لا قدرة على استبدال البشر

تُظهر النتائج أن طلاب الماجستير في القانون لا يزالون غير قادرين على استبدال البشر عندما يتعلق الأمر بمجالات معينة، كما قال بيتر تورتشين، الذي قاد الدراسة، وهو عضو هيئة التدريس في كلية العلوم والهندسة.

لكن الباحثين ما زالوا يأملون أن تساعد برامج الماجستير بالقانون المؤرخين في المستقبل، وهم يعملون على تحسين معاييرهم من خلال تضمين مزيد من البيانات من المناطق غير الممثلة، وإضافة أسئلة أكثر تعقيدًا.

«بشكل عام، في حين تسلط نتائجنا الضوء على المجالات التي تحتاج فيها برامج الماجستير في القانون إلى التحسين، فإنها تؤكد أيضًا إمكانية هذه النماذج للمساعدة في البحث التاريخي»، كما جاء في الورقة البحثية.

* بحث يؤكد تفوق برامج الذكاء الاصطناعي في مهام معينة، مثل البرمجة أو إنشاء البث الصوتي

* تتراجع قدرة الذكاء الاصطناعي في امتحانات التاريخ رفيعة المستوى

* تعليل تواضع الذكاء الاصطناعي في امتحانات التاريخ بالميل إلى الاستقراء من البيانات التاريخية البارزة للغاية

* الاستقراء من البيانات التاريخية البارزة يُصعب استرجاع المعرفة التاريخية الأكثر غموضًا