ربات ارزانی که از طریق یادگیری تقویتی میآموزد
به گزارش قائم آنلاین، به نقل از آی ای، محققان دانشگاه “آلتو”(Aalto) و شرکت “OTE Robotics” ربات کم هزینهای را تولید کردهاند که میتواند برای آزمایش الگوریتمهای “یادگیری تقویتی”(RL) مورد استفاده قرار گیرد. این ربات که “RealAnt” نامیده میشود تنها با قیمت ۸۹۹ یورو(۱۰۹۰ دلار آمریکا) کاملا مقرون به صرفه است. یادگیری تقویتی یکی از گرایشهای یادگیری
به گزارش قائم آنلاین، به نقل از آی ای، محققان دانشگاه “آلتو”(Aalto) و شرکت “OTE Robotics” ربات کم هزینهای را تولید کردهاند که میتواند برای آزمایش الگوریتمهای “یادگیری تقویتی”(RL) مورد استفاده قرار گیرد.
این ربات که “RealAnt” نامیده میشود تنها با قیمت ۸۹۹ یورو(۱۰۹۰ دلار آمریکا) کاملا مقرون به صرفه است.
یادگیری تقویتی یکی از گرایشهای یادگیری ماشینی است که از روانشناسی رفتارگرایی الهام میگیرد. این روش بر رفتارهایی تمرکز دارد که ماشین باید برای بیشینه کردن پاداشش انجام دهد. این مسئله با توجه به گستردگیاش در زمینههای گوناگونی مانند نظریه بازیها، نظریه کنترل، تحقیق در عملیات، نظریه اطلاعات، سامانه چندعامله، هوش ازدحامی، آمار، الگوریتم ژنتیک، بهینهسازی بر مبنای شبیهسازی بررسی میشود.
در مبحث تحقیق در عملیات و در ادبیات کنترل، حوزهای که در آن روش یادگیری تقویتی مطالعه میشود “برنامهنویسی تخمینی پویا”(approximate dynamic programming) خوانده میشود. این مسئله در تئوری کنترل بهینه نیز مطالعه شده است. البته دغدغه اصلی بیشتر مطالعات در این زمینه، اثبات وجود پاسخ بهینه و یافتن ویژگیهای آن است و به دنبال جزئیات یادگیری یا تخمین نیست. یادگیری تقویتی در اقتصاد و نظریه بازیها بیشتر به بررسی تعادلهای ایجاد شده تحت عقلانیت محدود میپردازد.
در یادگیری ماشینی با توجه به این که بسیاری از الگوریتمهای یادگیری تقویتی از تکنیکهای برنامهنویسی پویا استفاده میکنند. تفاوت اصلی بین روشهای سنتی و الگوریتمهای یادگیری تقویتی این است که در یادگیری تقویتی نیازی به داشتن اطلاعات راجع به فرآیند تصمیمگیری نیست.
یادگیری تقویتی با یادگیری با نظارت معمول دو تفاوت عمده دارد، نخست اینکه در آن زوجهای صحیح ورودی و خروجی در کار نیست و رفتارهای ناکارآمد نیز از بیرون اصلاح نمیشوند و دیگر آنکه تمرکز زیادی روی کارایی زنده وجود دارد که نیازمند پیدا کردن یک تعادل مناسب بین اکتشاف چیزهای جدید و بهرهبرداری از دانش اندوخته شده دارد.
“جوسی ساینیو” یکی از بنیانگذاران شرکت “Ote Robotics” میگوید: الهامات اولیه برای کار ما مطالعات یادگیری تقویتی(RL) بود که با موفقیت، یادگیری راه رفتن از ابتدا از روی شبیهسازیهای رباتهای چهارپا و شبه انسان را نشان داد.
وی افزود: پیش فرض اساسی در مورد الگوریتمهای یادگیری تقویتی این است که برنامه نویسی یک ربات برای انجام کارها با آن بسیار آسانتر و طبیعیتر میشود و تنها به تعریف اندازهگیری های حسگر موجود، اقدامات حرکتی و سپس تعیین یک هدف و اتصال همه آنها به یک الگوریتم یادگیری تقویتی است که بقیه کارها را این الگوریتم انجام میدهد.
“یادگیری تقویتی”(RL) قبلاً به هزاران ساعت آموزش شبیهسازی ربات نیاز داشت. با این حال، اخیراً محققان موفق شدهاند با دادههای آموزشی بسیار کم، راه رفتن را به این رباتها آموزش دهند. این بدان معناست که رباتها اکنون میتوانند بدون استفاده از آموزش طولانی مدت مبتنی بر شبیه سازی، در محیطهای واقعی آموزش ببینند.
“ساینیو” توضیح داد: ما متوجه شدیم که رباتهای متحرک مانند “RealAnt” به ویژه برای یادگیری تقویتی به راحتی و با قیمت مناسب در دسترس نیستند و این موضوع میتواند به رباتها آسیب برساند.
وی افزود: در مقایسه با محیط شبیهسازی شده، هیچ پشتوانه ترکیبی نرم افزاری و سخت افزاری کاملی وجود ندارد که بتوان با آن یادگیری تقویتی را در دنیای واقعی شروع کرد. بنابراین من شروع به ساخت نمونههای اولیه نرم افزار ربات و رابط خودم کردم.
در نهایت “ساینیو” موفق به ساخت نمونههای اولیه قابل توجهی شد.
بنا به اعلام وبسایت “Ote robotics”، پلتفرم ربات “RealAnt” برای تحقیق و توسعه یادگیری تقویتی در دنیای واقعی طراحی شده است.
برچسب ها :ربات، نرم افزار،ساینیو
- نظرات ارسال شده توسط شما، پس از تایید توسط مدیران سایت منتشر خواهد شد.
- نظراتی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
- نظراتی که به غیر از زبان فارسی یا غیر مرتبط با خبر باشد منتشر نخواهد شد.
ارسال نظر شما
مجموع نظرات : 0 در انتظار بررسی : 0 انتشار یافته : 0