نموذج OpenAI o3 يحقق أداءً أقل في الاختبارات القياسية مما أشارت إليه الشركة

تناقض في النتائج يثير الشكوك

كشف تقييم مستقل أجرته مؤسسة Epoch AI أن نموذج o3 من OpenAI حقق نتائج أقل بكثير في اختبارات FrontierMath مقارنة بما صرحت به الشركة عند إطلاقه في ديسمبر الماضي. هذا التباين بين الادعاءات الأولية ونتائج الاختبارات المستقلة يطرح تساؤلات حول ممارسات الشفافية في تقييم نماذج AI.

عندما كشفت OpenAI عن نموذج o3، ادعت الشركة أنه يستطيع الإجابة على أكثر من 25% من مسائل FrontierMath، وهي مجموعة صعبة من المسائل الرياضية. كانت هذه النتيجة متفوقة بشكل كبير على المنافسين، حيث لم يتمكن أفضل نموذج منافس من الإجابة بشكل صحيح سوى على حوالي 2% من مسائل FrontierMath.

الحقيقة تظهر في الاختبارات المستقلة

نشرت Epoch AI، المؤسسة البحثية المسؤولة عن تطوير FrontierMath، نتائج اختباراتها المستقلة لنموذج o3 يوم الجمعة الماضي. وجدت المؤسسة أن النموذج سجل حوالي 10% فقط، وهو أقل بكثير من أعلى نتيجة ادعتها OpenAI.

لا يعني هذا بالضرورة أن OpenAI قدمت معلومات خاطئة. فنتائج الاختبارات التي نشرتها الشركة في ديسمبر تظهر حدًا أدنى للنتائج يتطابق مع ما لاحظته Epoch. كما أشارت المؤسسة البحثية إلى أن إعدادات الاختبار الخاصة بها تختلف على الأرجح عن إعدادات OpenAI، وأنها استخدمت إصدارًا محدثًا من FrontierMath لتقييماتها.

نماذج مختلفة للاستخدامات المختلفة

وفقًا لمنشور على منصة X من مؤسسة ARC Prize، وهي منظمة اختبرت إصدارًا ما قبل الإطلاق من o3، فإن “النموذج العام من o3 هو نموذج مختلف تم تحسينه للمحادثة والاستخدام كمنتج”، مما يؤكد ما توصلت إليه Epoch.

صرح وندا تشو، عضو الفريق التقني في OpenAI، خلال بث مباشر الأسبوع الماضي بأن إصدار o3 المتاح للاستخدام العام “مُحسن بشكل أكبر لحالات الاستخدام في العالم الواقعي” والسرعة مقارنة بالإصدار الذي تم عرضه في ديسمبر. ونتيجة لذلك، قد يُظهر “تفاوتات” في نتائج الاختبارات.

ظاهرة متكررة في صناعة AI

تعتبر مسألة تفاوت أداء نموذج o3 العام مقارنة بوعود اختبارات OpenAI نقطة جدلية، خصوصًا مع تفوق نموذجي o3-mini-high وo4-mini من الشركة نفسها على o3 في اختبارات FrontierMath. وتخطط OpenAI لإطلاق إصدار أكثر قوة من o3، وهو o3-pro، في الأسابيع المقبلة.

هذه الحالة تعد تذكيرًا آخر بأن نتائج اختبارات AI يجب ألا تؤخذ بمعناها الظاهري - خاصة عندما يكون مصدرها شركة لديها خدمات للبيع.

أصبحت “الجدالات” حول الاختبارات القياسية ظاهرة شائعة في صناعة AI مع تسابق الشركات لتصدر العناوين والاستحواذ على حصة السوق بنماذج جديدة. في يناير، تعرضت Epoch للانتقاد لتأخرها في الكشف عن تلقيها تمويلًا من OpenAI حتى بعد إعلان الشركة عن o3. واتُهمت شركة xAI التابعة لإيلون ماسك مؤخرًا بنشر رسوم بيانية مضللة لاختبارات نموذج AI الأحدث Grok 3. كما اعترفت Meta هذا الشهر بالترويج لنتائج اختبارات لإصدار من نموذج يختلف عن الإصدار الذي أتاحته للمطورين.

تؤكد هذه الممارسات الحاجة الملحة لمعايير موحدة وشفافة لتقييم نماذج AI، وتسلط الضوء على أهمية التحقق المستقل من ادعاءات شركات التكنولوجيا فيما يتعلق بقدرات منتجاتها.

AIToolQaima

نموذج OpenAI o3 يحقق أداءً أقل في الاختبارات القياسية مما أشارت إليه الشركة

تناقض في النتائج يثير الشكوك

الحقيقة تظهر في الاختبارات المستقلة

نماذج مختلفة للاستخدامات المختلفة

ظاهرة متكررة في صناعة AI

أخبار ذات صلة

Apple تتبنى البيانات الاصطناعية لتطوير ذكائها الاصطناعي مع الحفاظ على الخصوصية

Meta تعلن عن خطط لتدريب نماذج الذكاء الاصطناعي باستخدام بيانات مستخدمي الاتحاد الأوروبي

تقرير Google لنموذج الذكاء الاصطناعي الأحدث يفتقر إلى تفاصيل السلامة الرئيسية