نوشته و ویرایش شده توسط مجله ی اسکوار
محققان «دانشگاه توکیو» و استارتاپ Alternative Machine یک ربات انساننما را گسترش دادهاند که میتواند دستورات زبان طبیعی را به طور مستقیم به کارکرد تبدیل کند. این ربات که Alter3 نام دارد به طوری طراحی شده که بتواند از دانش گسترده مدلهای زبانی بزرگ (LLM) همانند GPT-4 برای انجام کارهای پیچیده همانند گرفتن عکس سلفی منفعت گیری کند.
Alter3 از GPT-4 حمایتمیکند و با این وجود، میتواند به دستورات زبان طبیعی که یک عمل یا موقعیت را توصیف میکنند جواب دهد. مدل زبانی بزرگ این ربات از یک فریمورک برای برنامهریزی مجموعهای از عمل های منفعت گیری میکند که Alter3 برای رسیدن به مقصد خود باید آنها را انجام دهد.
قابلیتهای ربات انساننما Alter3
در ویدیو زیر این ربات عملیات گرفتن سلفی با آیفون را همانندسازی میکند:
در مرحله اول، مدل بهگفتن یک برنامهریز عمل میکند و باید مرحله های مورد نیاز برای انجام یک عمل مورد نظر را تعیین کند.
در مرحله سپس دستورات موردنیاز ربات برای انجام هر یک از کارهای تشکیل میبشود. سپس مدل هر یک از مرحله های را به یک یا چند دستور API تبدیل میکند که برای ربات ارسال خواهد شد.
ویدیو زیر نیز عملیات پرتاب توپ توسط ربات را مشخص می کند:
محققان Alter3 را با چندین ماموریت گوناگون از جمله کارهای روزمره همانند گرفتن عکس سلفی، نوشیدن چای و پیروی برخی رفتارها آزمایش کردهاند. آنها این چنین در آزمایشهای خود روی توانایی مدل برای پاسخگویی به سناریوهایی که نیاز به برنامهریزی دقیق دارند نیز تمرکز کردهاند.
دانش گسترده مدل GP-4 در عرصه رفتارها و اعمال انسان، علتشده تا در چند سال قبل رباتهای انساننما بسیاری همانند Alter3 گسترش اشکار کنند که میتوانند برنامههای خود را به روشای واقعی انجام بدهند. آزمایش محققان این چنین مشخص می کند که آنها میتوانند احساساتی همانند خجالت و نشاط را پیروی کنند.
دسته بندی مطالب