تعمل شركة جوجل على تدريب روبوتاتها باستخدام الذكاء الاصطناعي Gemini AI حتى تتمكن من تحسين قدراتها على التنقل وإكمال المهام، وقد أوضح فريق الروبوتات في شركة DeepMind في ورقة بحثية جديدة كيف أن استخدام نافذة السياق الطويلة في Gemini 1.5 Pro والتي تحدد مقدار المعلومات التي يمكن لنموذج الذكاء الاصطناعي معالجتها ، ويسمح للمستخدمين بالتفاعل بسهولة أكبر مع روبوتات RT-2 باستخدام تعليمات اللغة الطبيعية.
وتعمل هذه التقنية عن طريق تصوير جولة فيديو لمنطقة محددة، مثل المنزل أو مساحة المكتب، حيث يستخدم الباحثون برنامج Gemini 1.5 Pro لجعل الروبوت "يشاهد" الفيديو للتعرف على البيئة.
ويمكن للروبوت بعد ذلك تنفيذ الأوامر بناءً على ما لاحظه باستخدام مخرجات لفظية أو صورية مثل توجيه المستخدمين إلى منفذ طاقة بعد عرض هاتف عليه وسؤاله "أين يمكنني شحنه؟"
وتقول شركة DeepMind إن روبوتها الذي يعمل بنظام Gemini حقق معدل نجاح بنسبة 90 % عبر أكثر من 50 من التعليمات للمستخدم تم إعطاؤها في منطقة تشغيل تزيد مساحتها عن 9000 قدم مربع.
كما وجد الباحثون "أدلة أولية" على أن برنامج Gemini 1.5 Pro مكّن الروبوتات من التخطيط لكيفية تنفيذ التعليمات بما يتجاوز مجرد التوجيه، على سبيل المثال، عندما يسأل مستخدم لديه الكثير من علب الكوكاكولا على مكتبه الروبوت عما إذا كان مشروبه المفضل متاحًا، قال الفريق إن برنامج Gemini "يعرف أن الروبوت يجب أن يتنقل إلى الثلاجة، ويفحص ما إذا كانت هناك علب كوكاكولا، ثم يعود إلى المستخدم لإبلاغه بالنتيجة". وتقول شركة DeepMind إنها تخطط للتحقيق في هذه النتائج بشكل أكبر.
كما إن العروض التوضيحية بالفيديو التي تقدمها جوجل مثيرة للإعجاب، على الرغم من أن المقاطع الواضحة بعد إقرار الروبوت بكل طلب تخفي أن الأمر يستغرق ما بين 10 إلى 30 ثانية لمعالجة هذه التعليمات، وفقًا لورقة البحث ، قد يستغرق الأمر بعض الوقت قبل أن نشارك منازلنا مع روبوتات رسم خرائط بيئية أكثر تقدمًا ، ولكن على الأقل قد تكون هذه الروبوتات قادرة على العثور على مفاتيحنا أو محافظنا المفقودة.