Table of Contents
كشفت نتائج اختبار GDPval الجديد، الذي أطلقته OpenAI لتقييم قدرات الذكاء الاصطناعي في أداء مهام مهنية حقيقية عبر 44 تخصصًا، عن مفاجأة كبرى. فقد تصدر نموذج Claude Opus 4.1 من شركة Anthropic الترتيب، متفوقًا على أحدث إصدارات OpenAI، بما في ذلك ChatGPT-5 عالي الأداء، إضافة إلى Gemini 2.5 Pro و Grok 4.
نتائج اختبار GDPval
- Claude Opus 4.1: حقق معدل فوز (Win Rate) قدره 47.6٪، مهيمنًا على ثمانية من أصل تسعة مجالات، مثل الإدارة الحكومية والطب والخدمات الاجتماعية. ويعود تفوقه أيضًا إلى إنتاجه لمخرجات عالية الجودة من الناحية الجمالية، كتنسيق المستندات وتصميم العروض التقديمية.
- ChatGPT-5 (High): جاء ثانيًا بنسبة 38.8٪، مبرزًا دقة مذهلة في التعامل مع المعلومات المتخصصة والمهام التحليلية المعقدة.
- نماذج أخرى: حلّ كل من ChatGPT-o3 (34.1٪) و ChatGPT-4o (12.4٪) خلفهما، ما يعكس الفجوة بين الأجيال الجديدة من النماذج وسابقاتها.
تفاصيل حول اختبار GDPval
تمثل نسخة GDPval-v0 الأولى من الاختبار معيارًا جديدًا في تقييم الذكاء الاصطناعي، حيث ركز على جودة النتائج لا مجرد صحتها النظرية. وشملت المهام:
- الرد على شكاوى العملاء غير الراضين.
- تحسين تخطيطات تنظيمية مثل تصميم معرض تجاري.
- تدقيق المستندات لاكتشاف الأخطاء، بما في ذلك فروقات الأسعار.
ولضمان الموضوعية، قارن خبراء بشريون بين النتائج دون معرفة مصدرها (بشري أم آلي). كما استعانت OpenAI بأداة AutoGrader المدعومة بالذكاء الاصطناعي للتنبؤ بتقييمات البشر، ما زاد من دقة الحكم على أداء النماذج.
دلالات النتائج
تؤكد هذه النتائج أن نماذج الذكاء الاصطناعي تتطور بسرعة لتنافس خبراء بشريين في مهام عملية ومعقدة. كما أن التفوق الجمالي والوظيفي لـ Claude Opus 4.1 قد يفتح آفاقًا جديدة لاستخدام الذكاء الاصطناعي في الإدارة، التعليم، والرعاية الصحية.