أظهر الذكاء الاصطناعي وعدا ملحوظا في مجال الرعاية الصحية بدءًا من قراءة الأشعة السينية حتى اقتراح خطط العلاج. ولكن عندما يتعلق الأمر بالتحدث إلى المرضى وتشخيص حالتهم بدقة من خلال المحادثة، وهو حجر الزاوية في الممارسة الطبية، فإن الذكاء الاصطناعي لا يزال يعاني قيودا كبيرة، وذلك وفقًا لبحث جديد من كلية الطب بجامعتي هارفارد وستانفورد.
إطار CRAFT-MD
نُشرت الدراسة في مجلة Nature Medicine، وتقدم إطارًا مبتكرًا لاختبار يُسمى CRAFT-MD (إطار تقييم التفكير والمحادثة للاختبار في الطب)، لتقييم مدى أداء نماذج اللغة الكبيرة (LLMs) في تفاعلات المحاكاة بين الطبيب والمريض.
ومع لجوء المرضى بشكل متزايد إلى أدوات الذكاء الاصطناعي، مثل ChatGPT، لتفسير الأعراض ونتائج الاختبارات الطبية، يصبح فهم قدرات هذه الأنظمة في العالم الحقيقي أمرًا بالغ الأهمية.
مفارقة الأداء
يوضح براناف راجبوركار، المؤلف الرئيس للدراسة الأستاذ المساعد في المعلوماتية الطبية الحيوية بكلية الطب في جامعة هارفارد: «يكشف عملنا عن مفارقة مذهلة. في حين تتفوق نماذج الذكاء الاصطناعي هذه في امتحانات المجلس الطبي، فإنها تكافح مع التبادل الأساسي لزيارة الطبيب».
ويضيف: «الطبيعة الديناميكية للمحادثات الطبية - الحاجة إلى طرح الأسئلة الصحيحة في الوقت المناسب، وتجميع المعلومات المتناثرة، والتفكير من خلال الأعراض - تشكل تحديات فريدة تتجاوز بكثير الإجابة عن أسئلة الاختيار من متعدد».
تقييم الأداء
قيّم فريق البحث، بقيادة المؤلفين الرئيسيين راجبوركار وروكسانا دانيشجو من جامعة ستانفورد، 4 نماذج بارزة للذكاء الاصطناعي عبر 2000 حالة طبية تغطي 12 تخصصًا. تعتمد طرق التقييم الحالية عادةً على أسئلة الاختبار الطبي المتعددة الخيارات، التي تقدم المعلومات بتنسيق منظم. مع ذلك، تشير المؤلفة المشاركة في الدراسة شريا جوهري إلى أن «هذه العملية في العالم الحقيقي أكثر فوضوية».
نتائج الاختبارات
كشفت الاختبارات التي أجريت من خلال CRAFT-MD عن اختلافات صارخة في الأداء بين التقييمات التقليدية والسيناريوهات الأكثر واقعية. ففي أسئلة الاختيار من متعدد (MCQs) المكونة من 4 خيارات، انخفضت دقة التشخيص في GPT-4 من 82% عند قراءة ملخصات الحالات المعدة إلى 63% عند جمع المعلومات من خلال الحوار.
ةأصبح هذا الانخفاض أكثر وضوحًا في السيناريوهات المفتوحة دون خيارات الاختيار من متعدد، حيث انخفضت الدقة إلى 49% مع الملخصات المكتوبة و26% خلال المقابلات المحاكاة للمرضى.
صعوبات جمع المعلومات
أظهرت نماذج الذكاء الاصطناعي صعوبة خاصة في تجميع المعلومات من تبادلات المحادثات المتعددة. وشملت المشاكل الشائعة فقدان التفاصيل المهمة في أثناء أخذ تاريخ المريض، والفشل في طرح أسئلة المتابعة المناسبة، والنضال من أجل دمج أنواع مختلفة من المعلومات، مثل الجمع بين البيانات المرئية من الصور الطبية والأعراض التي يبلغ عنها المريض.
كفاءة CRAFT-MD
تسلط كفاءة CRAFT-MD الضوء على ميزة أخرى للإطار، فهو قادر على معالجة 10 آلاف محادثة في غضون 48 - 72 ساعة، بالإضافة إلى 15 - 16 ساعة من التقييم من قِبل الخبراء، بينما تتطلب التقييمات التقليدية القائمة على البشر توظيفًا مكثفًا ونحو 500 ساعة لمحاكاة المرضى و650 ساعة للتقييمات من قِبل الخبراء.
توصيات الباحثين
يقول دانشجو، الأستاذ المساعد في علوم البيانات الطبية الحيوية والأمراض الجلدية بجامعة ستانفورد: «بصفتي عالمًا طبيًا، فأنا مهتم بنماذج الذكاء الاصطناعي التي يمكنها تعزيز الممارسة السريرية بشكل فعال وأخلاقي».
ويضيف: «يخلق CRAFT-MD إطارًا يعكس بشكل أوثق التفاعلات في العالم الحقيقي، وبالتالي يساعد في دفع المجال إلى الأمام عندما يتعلق الأمر باختبار أداء نموذج الذكاء الاصطناعي في الرعاية الصحية».
توصيات للتطوير
بناءً على هذه النتائج، قدم الباحثون توصيات شاملة لتطوير الذكاء الاصطناعي وتنظيمه. وتشمل هذه التوصيات إنشاء نماذج قادرة على التعامل مع المحادثات غير المنظمة، وتحسين تكامل أنواع البيانات المختلفة (النصوص والصور والقياسات السريرية)، والقدرة على تفسير إشارات الاتصال غير اللفظية.
كما أكدوا أهمية الجمع بين التقييم القائم على الذكاء الاصطناعي وتقييم الخبراء البشريين، لضمان الاختبار الشامل، مع تجنب التعرض المبكر للمرضى الحقيقيين لأنظمة غير موثوقة.
وتوضح الدراسة أنه في حين أن الذكاء الاصطناعي واعد في مجال الرعاية الصحية، فإن الأنظمة الحالية تتطلب تقدما كبيرا قبل أن تتمكن من الانخراط بشكل موثوق في الطبيعة المعقدة والديناميكية للتفاعلات الحقيقية بين الطبيب والمريض.
وفي الوقت الحالي، قد تكون هذه الأدوات بمثابة مكملات للخبرة الطبية البشرية، وليست بدائل لها.
المنهجية
ابتكر الباحثون نظام اختبار متطورًا، حيث عمل أحد نماذج الذكاء الاصطناعي كمريض (يقدم معلومات بناءً على حالات طبية حقيقية)، بينما لعب نموذج آخر من الذكاء الاصطناعي دور الطبيب (يطرح الأسئلة ويقوم بالتشخيص).
وقد راجع الخبراء الطبيون هذه التفاعلات، لضمان الجودة والدقة.
شملت الدراسة 2000 حالة من مختلف التخصصات الطبية، واختبرت تنسيقات متعددة: ملخصات الحالات المكتوبة التقليدية، والمحادثات ذهابًا وإيابًا، وتشخيصات بسؤال واحد، ومحادثات موجزة. كما اختبروا سيناريوهات مع خيارات متعددة للتشخيص ودونها.
نتائج
كانت النتيجة الرئيسة هي أن أداء الذكاء الاصطناعي انخفض بشكل ملحوظ عند الانتقال من الملخصات المكتوبة إلى التشخيص بالمحادثة. ومع خيارات الاختيار من متعدد، انخفضت الدقة من 82% إلى 63% في GPT-4. ودون خيارات الاختيار من متعدد، انخفضت الدقة بشكل أكثر دراماتيكية إلى 26% للتشخيص بالمحادثة. كما عانى الذكاء الاصطناعي عند تلخيص المعلومات من تبادلات متعددة ومعرفة متى يتوقف عن جمع المعلومات.
القيود
استخدمت الدراسة في المقام الأول تفاعلات المرضى المحاكاة بدلا من المرضى الحقيقيين، وهو ما قد لا يعكس تمامًا تعقيد اللقاءات السريرية الفعلية. كما ركز البحث بشكل أساسي على دقة التشخيص بدلا من الجوانب المهمة الأخرى للرعاية الطبية، مثل طريقة التعامل مع المريض أو الدعم العاطفي. بالإضافة إلى ذلك، استخدمت الدراسة الذكاء الاصطناعي لمحاكاة استجابات المرضى، وهو ما قد لا يعكس تمامًا كيفية تواصل المرضى الحقيقيين.
الخلاصة
ـ نماذج الذكاء الاصطناعي الحالية ليست جاهزة بعد للتفاعل المستقل مع المرضى
ـ الذكاء الاصطناعي قد يكون أكثر فعالية في استخدامه كأداة داعمة للأطباء البشريين وليس كبديل
ـ من المهم تطوير أنظمة الذكاء الاصطناعي القادرة على التعامل بشكل أفضل مع المحادثات الديناميكية وتوليف المعلومات
إطار CRAFT-MD
نُشرت الدراسة في مجلة Nature Medicine، وتقدم إطارًا مبتكرًا لاختبار يُسمى CRAFT-MD (إطار تقييم التفكير والمحادثة للاختبار في الطب)، لتقييم مدى أداء نماذج اللغة الكبيرة (LLMs) في تفاعلات المحاكاة بين الطبيب والمريض.
ومع لجوء المرضى بشكل متزايد إلى أدوات الذكاء الاصطناعي، مثل ChatGPT، لتفسير الأعراض ونتائج الاختبارات الطبية، يصبح فهم قدرات هذه الأنظمة في العالم الحقيقي أمرًا بالغ الأهمية.
مفارقة الأداء
يوضح براناف راجبوركار، المؤلف الرئيس للدراسة الأستاذ المساعد في المعلوماتية الطبية الحيوية بكلية الطب في جامعة هارفارد: «يكشف عملنا عن مفارقة مذهلة. في حين تتفوق نماذج الذكاء الاصطناعي هذه في امتحانات المجلس الطبي، فإنها تكافح مع التبادل الأساسي لزيارة الطبيب».
ويضيف: «الطبيعة الديناميكية للمحادثات الطبية - الحاجة إلى طرح الأسئلة الصحيحة في الوقت المناسب، وتجميع المعلومات المتناثرة، والتفكير من خلال الأعراض - تشكل تحديات فريدة تتجاوز بكثير الإجابة عن أسئلة الاختيار من متعدد».
تقييم الأداء
قيّم فريق البحث، بقيادة المؤلفين الرئيسيين راجبوركار وروكسانا دانيشجو من جامعة ستانفورد، 4 نماذج بارزة للذكاء الاصطناعي عبر 2000 حالة طبية تغطي 12 تخصصًا. تعتمد طرق التقييم الحالية عادةً على أسئلة الاختبار الطبي المتعددة الخيارات، التي تقدم المعلومات بتنسيق منظم. مع ذلك، تشير المؤلفة المشاركة في الدراسة شريا جوهري إلى أن «هذه العملية في العالم الحقيقي أكثر فوضوية».
نتائج الاختبارات
كشفت الاختبارات التي أجريت من خلال CRAFT-MD عن اختلافات صارخة في الأداء بين التقييمات التقليدية والسيناريوهات الأكثر واقعية. ففي أسئلة الاختيار من متعدد (MCQs) المكونة من 4 خيارات، انخفضت دقة التشخيص في GPT-4 من 82% عند قراءة ملخصات الحالات المعدة إلى 63% عند جمع المعلومات من خلال الحوار.
ةأصبح هذا الانخفاض أكثر وضوحًا في السيناريوهات المفتوحة دون خيارات الاختيار من متعدد، حيث انخفضت الدقة إلى 49% مع الملخصات المكتوبة و26% خلال المقابلات المحاكاة للمرضى.
صعوبات جمع المعلومات
أظهرت نماذج الذكاء الاصطناعي صعوبة خاصة في تجميع المعلومات من تبادلات المحادثات المتعددة. وشملت المشاكل الشائعة فقدان التفاصيل المهمة في أثناء أخذ تاريخ المريض، والفشل في طرح أسئلة المتابعة المناسبة، والنضال من أجل دمج أنواع مختلفة من المعلومات، مثل الجمع بين البيانات المرئية من الصور الطبية والأعراض التي يبلغ عنها المريض.
كفاءة CRAFT-MD
تسلط كفاءة CRAFT-MD الضوء على ميزة أخرى للإطار، فهو قادر على معالجة 10 آلاف محادثة في غضون 48 - 72 ساعة، بالإضافة إلى 15 - 16 ساعة من التقييم من قِبل الخبراء، بينما تتطلب التقييمات التقليدية القائمة على البشر توظيفًا مكثفًا ونحو 500 ساعة لمحاكاة المرضى و650 ساعة للتقييمات من قِبل الخبراء.
توصيات الباحثين
يقول دانشجو، الأستاذ المساعد في علوم البيانات الطبية الحيوية والأمراض الجلدية بجامعة ستانفورد: «بصفتي عالمًا طبيًا، فأنا مهتم بنماذج الذكاء الاصطناعي التي يمكنها تعزيز الممارسة السريرية بشكل فعال وأخلاقي».
ويضيف: «يخلق CRAFT-MD إطارًا يعكس بشكل أوثق التفاعلات في العالم الحقيقي، وبالتالي يساعد في دفع المجال إلى الأمام عندما يتعلق الأمر باختبار أداء نموذج الذكاء الاصطناعي في الرعاية الصحية».
توصيات للتطوير
بناءً على هذه النتائج، قدم الباحثون توصيات شاملة لتطوير الذكاء الاصطناعي وتنظيمه. وتشمل هذه التوصيات إنشاء نماذج قادرة على التعامل مع المحادثات غير المنظمة، وتحسين تكامل أنواع البيانات المختلفة (النصوص والصور والقياسات السريرية)، والقدرة على تفسير إشارات الاتصال غير اللفظية.
كما أكدوا أهمية الجمع بين التقييم القائم على الذكاء الاصطناعي وتقييم الخبراء البشريين، لضمان الاختبار الشامل، مع تجنب التعرض المبكر للمرضى الحقيقيين لأنظمة غير موثوقة.
وتوضح الدراسة أنه في حين أن الذكاء الاصطناعي واعد في مجال الرعاية الصحية، فإن الأنظمة الحالية تتطلب تقدما كبيرا قبل أن تتمكن من الانخراط بشكل موثوق في الطبيعة المعقدة والديناميكية للتفاعلات الحقيقية بين الطبيب والمريض.
وفي الوقت الحالي، قد تكون هذه الأدوات بمثابة مكملات للخبرة الطبية البشرية، وليست بدائل لها.
المنهجية
ابتكر الباحثون نظام اختبار متطورًا، حيث عمل أحد نماذج الذكاء الاصطناعي كمريض (يقدم معلومات بناءً على حالات طبية حقيقية)، بينما لعب نموذج آخر من الذكاء الاصطناعي دور الطبيب (يطرح الأسئلة ويقوم بالتشخيص).
وقد راجع الخبراء الطبيون هذه التفاعلات، لضمان الجودة والدقة.
شملت الدراسة 2000 حالة من مختلف التخصصات الطبية، واختبرت تنسيقات متعددة: ملخصات الحالات المكتوبة التقليدية، والمحادثات ذهابًا وإيابًا، وتشخيصات بسؤال واحد، ومحادثات موجزة. كما اختبروا سيناريوهات مع خيارات متعددة للتشخيص ودونها.
نتائج
كانت النتيجة الرئيسة هي أن أداء الذكاء الاصطناعي انخفض بشكل ملحوظ عند الانتقال من الملخصات المكتوبة إلى التشخيص بالمحادثة. ومع خيارات الاختيار من متعدد، انخفضت الدقة من 82% إلى 63% في GPT-4. ودون خيارات الاختيار من متعدد، انخفضت الدقة بشكل أكثر دراماتيكية إلى 26% للتشخيص بالمحادثة. كما عانى الذكاء الاصطناعي عند تلخيص المعلومات من تبادلات متعددة ومعرفة متى يتوقف عن جمع المعلومات.
القيود
استخدمت الدراسة في المقام الأول تفاعلات المرضى المحاكاة بدلا من المرضى الحقيقيين، وهو ما قد لا يعكس تمامًا تعقيد اللقاءات السريرية الفعلية. كما ركز البحث بشكل أساسي على دقة التشخيص بدلا من الجوانب المهمة الأخرى للرعاية الطبية، مثل طريقة التعامل مع المريض أو الدعم العاطفي. بالإضافة إلى ذلك، استخدمت الدراسة الذكاء الاصطناعي لمحاكاة استجابات المرضى، وهو ما قد لا يعكس تمامًا كيفية تواصل المرضى الحقيقيين.
الخلاصة
ـ نماذج الذكاء الاصطناعي الحالية ليست جاهزة بعد للتفاعل المستقل مع المرضى
ـ الذكاء الاصطناعي قد يكون أكثر فعالية في استخدامه كأداة داعمة للأطباء البشريين وليس كبديل
ـ من المهم تطوير أنظمة الذكاء الاصطناعي القادرة على التعامل بشكل أفضل مع المحادثات الديناميكية وتوليف المعلومات