
مع استمرار تطور الذكاء الاصطناعي التوليدي، يبحث المطورون عن طرق جديدة وأكثر ابتكارًا لاختبار قدراته وتقييم أدائه. وبينما أثبتت الطرق التقليدية لقياس أداء الذكاء الاصطناعي محدوديتها، لجأ فريق من المطورين إلى لعبة Minecraft، واحدة من أكثر الألعاب شهرة في العالم، لتكون مقياسًا جديدًا لقدرات الذكاء الاصطناعي في الإبداع وحل المشكلات.

ذكاء اصطناعي.jpg2
المشروع الجديد، الذي يحمل اسم Minecraft Benchmark (MC-Bench)، هو منصة تم تطويرها لمقارنة أداء نماذج الذكاء الاصطناعي من خلال تحديات بناء داخل Minecraft، حيث يُطلب من النماذج إنشاء تصاميم استجابةً لمطالب محددة، مثل بناء “رجل ثلج Frosty” أو “كوخ استوائي ساحر على شاطئ رملي نقي”. بعد ذلك، يمكن للمستخدمين التصويت على أفضل تصميم قبل الكشف عن النموذج الذي قام بإنشائه.
طالب ثانوي يقود المشروع
تم تطوير MC-Bench بواسطة مجموعة من المبرمجين، ويعود الفضل في إطلاقه إلى الطالب في الصف الثاني عشر أدي سينغ، الذي رأى في Minecraft فرصة فريدة لتقييم تطور الذكاء الاصطناعي.
يقول سينغ في مقابلة مع TechCrunch: “القيمة الحقيقية لـ Minecraft ليست في اللعبة نفسها، ولكن في مدى معرفة الناس بها. الجميع تقريبًا يمكنه تقييم أي بناء يبدو أكثر واقعية، حتى لو لم يكن قد لعب Minecraft من قبل.”

حاليًا، يعمل على المشروع فريق مكون من ثمانية متطوعين، بينما تدعم شركات كبرى مثل Anthropic وGoogle وOpenAI وAlibaba تشغيل المنصة عبر توفير تقنيات الذكاء الاصطناعي الخاصة بها للاختبار. ومع ذلك، لا تُعتبر هذه الشركات شريكة رسمية في المشروع.
لماذا تعتبر الألعاب مقياسًا فعالًا لتقييم الذكاء الاصطناعي؟
يُعرف اختبار أداء الذكاء الاصطناعي بأنه تحدٍ معقد، حيث غالبًا ما تُظهر النماذج تفوقًا في الاختبارات النصية التقليدية، لكنها تفشل في مهام أخرى أكثر عملية.
فعلى سبيل المثال، يستطيع GPT-4 تحقيق 88% في اختبار LSAT (اختبار القبول في كليات الحقوق)، لكنه قد يعجز عن تحديد عدد أحرف “strawberry” بشكل صحيح.
كما أن نموذج Claude 3.7 Sonnet من Anthropic حقق دقة 62.3% في اختبارات برمجة، لكنه يفشل في لعب Pokémon بمستوى طفل عمره خمس سنوات.
لذلك، يرى سينغ أن الألعاب تقدم بيئة اختبار أكثر واقعية وشفافية، حيث يمكن للجميع تقييم نتائج الذكاء الاصطناعي بسهولة، كما أنها توفر وسيلة أكثر أمانًا لاختبار قدرات الذكاء الاصطناعي مقارنةً بالتطبيقات في العالم الحقيقي.
هل يمكن أن يصبح MC-Bench معيارًا معتمدًا في مجال الذكاء الاصطناعي؟
يعتقد سينغ أن MC-Bench قد يصبح أداةً مفيدةً لشركات الذكاء الاصطناعي لتحديد مدى تقدم تقنياتها، “النتائج التي تظهر على لوحة المتصدرين تتوافق إلى حد كبير مع تجربتي الشخصية عند استخدام هذه النماذج، وهو أمر لا تجده عادة في اختبارات النصوص التقليدية.”
على الرغم من أن أهمية هذه المقارنات في تقييم الاستخدام العملي للذكاء الاصطناعي لا تزال موضع نقاش، إلا أن المشروع يثبت أن الابتكار في اختبار الذكاء الاصطناعي يمكن أن يكون ممتعًا وفعالًا في آنٍ واحد.