أظهر أحدث نموذج تجريبي للتفكير من OpenAI أداءً استثنائيًا في الأولمبياد الدولي للرياضيات (IMO)، حيث تمكن من حل 5 من أصل 6 مسائل، محققًا إنجازًا بمجموع نقاط 35. يُعتبر هذا الاختراق علامة بارزة في قدرات الذكاء الاصطناعي على التفكير العام، على الرغم من أن الخبراء قد أثاروا تساؤلات حول شروط التقييم، مشيرين إلى وجود اختلافات ملحوظة قد تؤثر على مقارنة الأداء مع مشاركة البشر.
تُعتبر أولمبياد الرياضيات الدولي واحدة من أرقى المنافسات الرياضية في العالم، ومنذ عام 1959، أصبحت معيارًا لقياس قدرات طلاب المدارس الثانوية في الرياضيات. يُقام الحدث على مدار يومين، حيث يتعين على المشاركين حل ثلاث مسائل رياضية صعبة خلال 4.5 ساعة كل يوم. يُسمح للمتسابقين باستخدام الورق والقلم فقط، ويُحظر عليهم أي شكل من أشكال التواصل.
تم تقييم نماذج OpenAI وفقًا لقواعد المسابقة، حيث تضمّنت العملية جلستين اختباريتين لمدة 4.5 ساعة، خلالهما لم يتم استخدام أي أدوات خارجية، حيث تم كتابة الأدلة باللغة الطبيعية استنادًا إلى النصوص الرسمية للأسئلة. وقام بإجراء التقييم ثلاثة فائزين بميداليات IMO، وتم تحديد الدرجات النهائية بشكل مستقل.
واي يشير إلى أن هذا النموذج يُظهر القدرة على توليد براهين رياضية معقدة ودقيقة، ويُبرز أن هذا الإنجاز لا يعتمد على طريقة تركيز ضيقة على المهام، بل هو نتيجة للتقدم الملحوظ في التعلم المعزز العام والتوسع الحسابي.
صرح سام ألتمان، الرئيس التنفيذي لشركة OpenAI، أن هذا الإنجاز يمثل تقدم الذكاء الاصطناعي خلال السنوات العشر الماضية، وكشف أن هذا النموذج لن يتاح للجمهور في المستقبل القريب، واصفاً إياه بأنه كان رؤيةٌ عند تأسيس OpenAI.
ومع ذلك، في ظل التحسن السريع في قدرات الرياضيات لدى الذكاء الاصطناعي، يطرح الخبراء تساؤلات حول طرق تقييمه. على الرغم من أن ناقد الذكاء الاصطناعي، ماركوس، يعتبر أن أداء النماذج مثير للإعجاب، إلا أنه يشكك أيضًا في مدى منطقية أساليب التدريب والقيمة العملية لها بالنسبة للجمهور. بالإضافة إلى ذلك، أشار بعض الرياضيين إلى أنه إذا كان لدى المشاركين موارد أكثر، ستزداد فرص النجاح بشكل كبير.
أظهرت نتائج اختبار حديث من جهة التقييم المستقلة MathArena أن النماذج اللغوية الرئيسية، بما في ذلك GPT-4، كانت أداؤها غير كافٍ في مسابقة IMO، حيث كانت مليئة بالأخطاء المنطقية والبرهانات غير المكتملة. وهذا يجعل إعلان OpenAI بارزًا بشكل خاص، لكن القيم الحقيقية لهذه النماذج لا تزال بحاجة إلى التحقق المستقل والتطبيق العملي لإثبات جدواها.



