اخبار اخبار تکنولوژی

تحول زبانی شدن ربات ها در کمک کردن

تبلیغات بنری


مدل های زبان بزرگ به کمک روبات ها می آیند

به گزارش مجله توژال؛ یک روز، ممکن است بخواهید ربات خانگی تان لباس های کثیف شما را به طبقه پایین برده و در ماشین لباسشویی بگذارد. ربات باید دستورالعمل های شما را با بازخورد بصری خود ترکیب کند تا مراحل لازم برای تکمیل کار را مشخص کند.

شاید یک روش جدید بتواند مسیری را برای یک ربات با استفاده از ورودی های مبتنی بر زبان برنامه ریزی کند. اگرچه این روش نمی تواند بهتر از روش های مبتنی بر بینایی کامپیوتری عمل کند، اما می تواند در تنظیماتی که فاقد داده های بصری برای آموزش ربات هستند، مفید باشد.

برای یک عامل هوش مصنوعی، گفتن این کار آسان تر از انجام آن است. رویکردهای موجود اغلب از چندین مدل یادگیری ماشین برای رسیدگی به بخش‌های مختلف کار استفاده می‌کنند که به تلاش و تخصص انسانی زیادی نیاز دارد. این رویکردها که از نمایش های بصری برای تصمیم گیری مستقیم در مسیریابی استفاده می کنند، به مقادیر زیادی داده بصری برای آموزش نیاز دارند که اغلب به دست آوردن آن دشوار است.

برای غلبه بر این چالش ها، محققان MIT، آزمایشگاه هوش مصنوعی واتسون MIT و IBM یک روش ناوبری ایجاد کرده اند که بازنمایی های بصری را به بخش های زبانی تبدیل می کند. سپس این بخش ها به یک مدل زبان بزرگ وارد می شوند که تمام بخش های وظیفه ناوبری چند مرحله ای را اجرا می کند.

روش آنها به جای رمزگذاری ویژگی های بصری، از تصاویر محیط اطراف ربات به عنوان نمایش های بصری استفاده می کند که از نظر محاسباتی فشرده است و زیرنویس های متنی را ارائه می دهد که دیدگاه ربات را توصیف می کند. مدل زبان بزرگ از این توضیحات برای پیش بینی اقداماتی که ربات باید برای اجرای دستورالعمل ها بر اساس زبان کاربر انجام دهد، استفاده می کند.

از آنجایی که روش این گروه تحقیقاتی از بازنمایی های صرفاً مبتنی بر زبان استفاده می کند، آنها می توانند از یک مدل زبان بزرگ برای تولید موثر مقادیر زیادی از داده های آموزشی مصنوعی استفاده کنند.

اگرچه عملکرد این روش بهتر از روش هایی نیست که از ویژگی های بصری استفاده می کنند، اما در شرایطی که داده های بصری کافی برای آموزش وجود ندارد، عملکرد خوبی دارد. محققان دریافتند که ترکیب ورودی های مبتنی بر زبان با نشانه های بصری عملکرد ناوبری را بهبود می بخشد.

Bowen Pan، محقق ارشد این پروژه گفت: “روش ما با استفاده از زبان به عنوان یک بازنمایی شناختی ساده تر کار می کند.” از آنجایی که همه ورودی ها را می توان در زبان رمزگذاری کرد، می توانیم مسیری را ایجاد کنیم که یک انسان بتواند آن را درک کند.

تبلیغات بنری

khabarfarsi به نقل از توژال