Claude Opus 4.1 يتفوق على ChatGPT-5 في اختبار الكفاءة المهنية GDPval

كتبه سبتمبر 29, 2025

كتبه سبتمبر 29, 2025 0 تعليقات 153 مشاهدات

Claude Opus 4.1 يتصدر اختبار GDPval متفوقًا على ChatGPT-5 ونماذج الذكاء الاصطناعي الأخرى

Table of Contents

كشفت نتائج اختبار GDPval الجديد، الذي أطلقته OpenAI لتقييم قدرات الذكاء الاصطناعي في أداء مهام مهنية حقيقية عبر 44 تخصصًا، عن مفاجأة كبرى. فقد تصدر نموذج Claude Opus 4.1 من شركة Anthropic الترتيب، متفوقًا على أحدث إصدارات OpenAI، بما في ذلك ChatGPT-5 عالي الأداء، إضافة إلى Gemini 2.5 Pro و Grok 4.

نتائج اختبار GDPval

Claude Opus 4.1: حقق معدل فوز (Win Rate) قدره 47.6٪، مهيمنًا على ثمانية من أصل تسعة مجالات، مثل الإدارة الحكومية والطب والخدمات الاجتماعية. ويعود تفوقه أيضًا إلى إنتاجه لمخرجات عالية الجودة من الناحية الجمالية، كتنسيق المستندات وتصميم العروض التقديمية.
ChatGPT-5 (High): جاء ثانيًا بنسبة 38.8٪، مبرزًا دقة مذهلة في التعامل مع المعلومات المتخصصة والمهام التحليلية المعقدة.
نماذج أخرى: حلّ كل من ChatGPT-o3 (34.1٪) و ChatGPT-4o (12.4٪) خلفهما، ما يعكس الفجوة بين الأجيال الجديدة من النماذج وسابقاتها.

تفاصيل حول اختبار GDPval

تمثل نسخة GDPval-v0 الأولى من الاختبار معيارًا جديدًا في تقييم الذكاء الاصطناعي، حيث ركز على جودة النتائج لا مجرد صحتها النظرية. وشملت المهام:

الرد على شكاوى العملاء غير الراضين.
تحسين تخطيطات تنظيمية مثل تصميم معرض تجاري.
تدقيق المستندات لاكتشاف الأخطاء، بما في ذلك فروقات الأسعار.

ولضمان الموضوعية، قارن خبراء بشريون بين النتائج دون معرفة مصدرها (بشري أم آلي). كما استعانت OpenAI بأداة AutoGrader المدعومة بالذكاء الاصطناعي للتنبؤ بتقييمات البشر، ما زاد من دقة الحكم على أداء النماذج.

دلالات النتائج

تؤكد هذه النتائج أن نماذج الذكاء الاصطناعي تتطور بسرعة لتنافس خبراء بشريين في مهام عملية ومعقدة. كما أن التفوق الجمالي والوظيفي لـ Claude Opus 4.1 قد يفتح آفاقًا جديدة لاستخدام الذكاء الاصطناعي في الإدارة، التعليم، والرعاية الصحية.

قد تعجبك أيضاً

المقالة السابقة

الركراكي يعلن قائمة الأسود لمباريات أكتوبر هذا الخميس

المقالة التالية

اختيار المحرر

أحدث الأخبار

اخبار شعبية