تقدم دراسة جديدة أجراها باحثو جامعة ولاية واشنطن وجامعة كليمسون، تحلل أكثر من 10000 استجابة للذكاء الاصطناعي لأسئلة الامتحانات المالية الإجابة. وتؤكد أن الذكاء الاصطناعي يمكن أن يكون مساعدا وليس بديلا.
يقول مؤلف الدراسة دي جي فيرهيرست من كلية كارسون للأعمال في WSU «من السابق لأوانه القلق بشأن أخذ ChatGPT وظائف التمويل بالكامل».
امتحانات الترخيص المالي
يتناول البحث، الذي نشر في مجلة المحللين الماليين، قلقا كبيرا. تقدر جولدمان ساكس أن 15% إلى 35% من الوظائف المالية يمكن أن تكون مؤتمتة بواسطة الذكاء الاصطناعي، في حين تشير KPMG إلى أن الذكاء الاصطناعي التوليدي قد يحدث ثورة في كيفية عمل مديري الأصول والثروات. ومع ذلك، تعتمد هذه التوقعات على افتراض حاسم - أن أنظمة الذكاء الاصطناعي تمتلك فهما كافيا للتمويل.
يلاحظ فيرهيرست أن «اجتياز امتحانات الشهادة لا يكفي. نحن حقا بحاجة إلى التعمق أكثر للوصول إلى ما يمكن أن تفعله هذه النماذج حقا».
جمع الباحثون مجموعة بيانات شاملة من 1083 سؤالا متعدد الخيارات مأخوذة من امتحانات الترخيص المالي المختلفة، بما في ذلك امتحان أساسيات صناعة الأوراق المالية (SIE) وامتحانات السلسلة.
هذه هي نفس الاختبارات التي يجب على المهنيين الماليين البشريين اجتيازها للحصول على ترخيص.
نتائج الدراسة
كشفت النتائج عن مقايضات متميزة بين نماذج الذكاء الاصطناعي. من بين جميع النماذج التي تم اختبارها، برزت ChatGPT 4 كقائد واضح، مع معدلات دقة أعلى بنسبة 18 إلى 28 نقطة مئوية من النماذج الأخرى.
ومع ذلك، ظهر تطور مثير للاهتمام عندما قام الباحثون بضبط الإصدار المجاني السابق من ChatGPT 3.5 من خلال تزويده بأمثلة على الاستجابات والتفسيرات الصحيحة. بعد هذا الضبط، تطابقت تقريبا مع دقة ChatGPT 4 وحتى تجاوزتها في تقديم إجابات تشبه إجابات المهنيين البشريين.
لا يزال كلا النموذجين يظهران قيودا كبيرة. في حين أن أداءهم جيد في الأسئلة المتعلقة بالتداول وحسابات العملاء والأنشطة المحظورة (دقة 73.4%)، انخفض الأداء إلى 56.6% على الأسئلة المتعلقة بتقييم الملفات المالية للعملاء وأهداف الاستثمار.
أعطت النماذج إجابات أكثر دقة للحالات المتخصصة، مثل تحديد التغطية التأمينية للعملاء والوضع الضريبي.
صفقات الاندماج
لا يتوقف فريق البحث عن أسئلة الامتحان. إنهم يستكشفون الآن طرقا أخرى لاختبار قدرات ChatGPT، بما في ذلك مشروع يطلب منه تقييم صفقات الاندماج المحتملة. بالاستفادة من تاريخ انتهاء التدريب الأولي لـChatGPT في سبتمبر 2021، يقومون باختباره مقابل النتائج المعروفة للصفقات التي تمت بعد ذلك التاريخ. تشير النتائج الأولية إلى أن نموذج الذكاء الاصطناعي يكافح مع هذه المهمة الأكثر تعقيدا.
هذه القيود لها آثار مهمة على صناعة التمويل، لا سيما فيما يتعلق بالوظائف للمبتدئين.
يوضح فيرهرست: «جلب مجموعة من الأشخاص كمحللين مبتدئين، والسماح لهم بالتنافس والحفاظ على الفائزين - يصبح أكثر تكلفة بكثير، لذلك قد يعني ذلك انكماشا في هذه الأنواع من الوظائف، ولكن ليس لأن ChatGPT أفضل من المحللين، بل لأننا كنا نطلب من المحللين المبتدئين القيام بمهام أكثر تضاؤلا».
استنادا إلى هذه النتائج، يبدو أن هذه الأنظمة تظهر قدرات رائعة في تلخيص المعلومات والتعامل مع المهام التحليلية الروتينية، ومع ذلك فإن معدلات الخطأ الخاصة بها - لا سيما في المواقف المعقدة التي تواجه العملاء - تشير إلى أن الرقابة البشرية لا تزال ضرورية في صناعة يمكن أن يكون للأخطاء فيها عواقب مالية وقانونية خطيرة.
المنهجية
حلل الباحثون أكثر من 10000 رد من 4 نماذج مختلفة من الذكاء الاصطناعي (Bard وLLaMA وChatGPT 3.5 وChatGPT 4) على 1083 سؤال لامتحان الترخيص المالي. تم اختبار كل سؤال عبر نماذج وتكوينات متعددة، مما أدى إلى إنشاء مجموعة بيانات شاملة. قام الفريق بتقييم جانبين رئيسيين: ما إذا كان الذكاء الاصطناعي قد اختار الإجابة الصحيحة ومدى شرحه لمنطقه مقارنة بتفسيرات الخبراء.
النتائج الرئيسية
ظهر ChatGPT 4 كأفضل أداء، حيث أجاب بشكل صحيح على 84.5% من الأسئلة - وهو ما بين 18 و28 نقطة مئوية أفضل من النماذج المجانية. عندما قام الباحثون بضبط ChatGPT 3.5 من خلال تدريبه على محتوى مالي محدد، فإنه يتطابق تقريبا مع دقة ChatGPT 4 وحتى تجاوزه في جودة التفسير.
كان أداء الذكاء الاصطناعي أفضل في الأسئلة المتعلقة بالتداول وعمليات السوق (دقة 73.4%) ولكنه كافح مع المهام الخاصة بالعميل مثل التخطيط المالي والتحليل الضريبي (انخفاض إلى دقة 56.6%). ومن المثير للاهتمام أن كلًا من الذكاء الاصطناعي والمتقدمين للاختبار البشريين يميلون إلى النضال مع نفس الأسئلة الصعبة، مما يشير إلى قيود أساسية في التعامل مع المفاهيم المالية المعقدة.
المناقشة
يشير البحث إلى أن الذكاء الاصطناعي مناسب حاليا كمساعد أكثر من بديل للمهنيين الماليين.
وعلى الرغم من أنه يظهر وعدا في مهام مثل مراقبة السوق والتحليل الأساسي، إلا أنه لا يزال أقل موثوقية للعمل المعقد الخاص بالعميل.
تكشف الدراسة عن مقايضات مهمة بين نماذج الذكاء الاصطناعي المختلفة وطرق التنفيذ. يمكن للضبط الدقيق تحسين الأداء بشكل كبير، ولكن حتى النماذج الأكثر تقدما لا تزال ترتكب أخطاء يمكن أن تكون مكلفة في تطبيقات العالم الحقيقي.
تشير النتائج أيضا إلى تغييرات محتملة في الوظائف المالية للمبتدئين، خاصة بالنسبة للمحللين المبتدئين الذين يؤدون مهاما روتينية.
الذكاء الاصطناعي والمهنيون الماليون
ـ من السابق لأوانه القلق بشأن أخذ ChatGPT وظائف التمويل بالكامل.
ـ لا تمتلك أنظمة الذكاء الاصطناعي فهما كافيا للتمويل.
ـ الذكاء الاصطناعي جيد فيما يتعلق بالتداول وحسابات العملاء والأنشطة المحظورة.
ـ الذكاء الاصطناعي أقل فيما يتعلق بتقييم الملفات المالية للعملاء وأهداف الاستثمار.