روباتی که با یادگیری تقویتی آموزش می بیند

به گزارش مجله وبلاگ فروش، یک روبات ارزان قیمت و منبع باز می تواند بدون احتیاج به آموزش طولانی مدت مبتنی بر شبیه سازی و با تکیه بر فناوری یادگیری تقویتی آموزش ببیند.

روباتی که با یادگیری تقویتی آموزش می بیند

محققان دانشگاه آلتو(Aalto) و شرکت OTE Robotics روبات کم هزینه ای را فراوری نموده اند که می تواند برای آزمایش الگوریتم های یادگیری تقویتی(RL) مورد استفاده قرار گیرد.

این روبات که RealAnt نامیده می گردد تنها با قیمت 899 یورو(1090 دلار آمریکا) کاملا مقرون به صرفه است.

یادگیری تقویتی یکی از گرایش های یادگیری ماشینی است که از روانشناسی رفتارگرایی الهام می گیرد. این روش بر رفتارهایی تمرکز دارد که ماشین باید برای بیشینه کردن پاداشش انجام دهد. این مسئله با توجه به گستردگی اش در زمینه های گوناگونی مانند نظریه بازی ها، نظریه کنترل، تحقیق در عملیات، نظریه اطلاعات، سامانه چندعامله، هوش ازدحامی، آمار، الگوریتم ژنتیک، بهینه سازی بر مبنای شبیه سازی آنالیز می گردد.

در مبحث تحقیق در عملیات و در ادبیات کنترل، حوزه ای که در آن روش یادگیری تقویتی مطالعه می گردد برنامه نویسی تقریبی پویا(approximate dynamic programming) خوانده می گردد. این مسئله در تئوری کنترل بهینه نیز مطالعه شده است. البته دغدغه اصلی بیشتر مطالعات در این زمینه، اثبات وجود پاسخ بهینه و یافتن ویژگی های آن است و به دنبال جزئیات یادگیری یا تخمین نیست. یادگیری تقویتی در اقتصاد و نظریه بازی ها بیشتر به آنالیز تعادل های ایجاد شده تحت عقلانیت محدود می پردازد.

در یادگیری ماشینی با توجه به این که بسیاری از الگوریتم های یادگیری تقویتی از تکنیک های برنامه نویسی پویا استفاده می نمایند. تفاوت اصلی بین روش های سنتی و الگوریتم های یادگیری تقویتی این است که در یادگیری تقویتی احتیاجی به داشتن اطلاعات راجع به فرآیند تصمیم گیری نیست.

یادگیری تقویتی با یادگیری با نظارت معمول دو تفاوت عمده دارد، نخست اینکه در آن زوج های صحیح ورودی و خروجی در کار نیست و رفتارهای ناکارآمد نیز از بیرون اصلاح نمی شوند و دیگر آنکه تمرکز زیادی روی کارایی زنده وجود دارد که احتیاجمند پیدا کردن یک تعادل مناسب بین اکتشاف چیزهای جدید و بهره برداری از دانش اندوخته شده دارد.

جوسی ساینیو یکی از بنیانگذاران شرکت Ote Robotics می گوید: الهامات اولیه برای کار ما مطالعات یادگیری تقویتی(RL) بود که با پیروزیت، یادگیری راه رفتن از ابتدا از روی شبیه سازی های ربات های چهارپا و شبه انسان را نشان داد.

وی اضافه نمود: پیش فرض اساسی در خصوص الگوریتم های یادگیری تقویتی این است که برنامه نویسی یک روبات برای انجام کارها با آن بسیار آسان تر و طبیعی تر می گردد و تنها به تعریف اندازه گیری های حسگر موجود، اقدامات حرکتی و سپس معین یک هدف و اتصال همه آنها به یک الگوریتم یادگیری تقویتی است که بقیه کارها را این الگوریتم انجام می دهد.

یادگیری تقویتی(RL) قبلاً به هزاران ساعت آموزش شبیه سازی روبات احتیاج داشت. با این حال، اخیراً محققان پیروز شده اند با داده های آموزشی بسیار کم، راه رفتن را به این ربات ها آموزش دهند. این بدان معناست که ربات ها اکنون می توانند بدون استفاده از آموزش طولانی مدت مبتنی بر شبیه سازی، در محیط های واقعی آموزش ببینند.

ساینیو شرح داد: ما متوجه شدیم که روبات های متحرک مانند RealAnt به ویژه برای یادگیری تقویتی به راحتی و با قیمت مناسب در دسترس نیستند و این موضوع می تواند به روبات ها آسیب برساند.

وی اضافه نمود: در مقایسه با محیط شبیه سازی شده، هیچ پشتوانه ترکیبی نرم افزاری و سخت افزاری کاملی وجود ندارد که بتوان با آن یادگیری تقویتی را در دنیای واقعی آغاز کرد. بنابراین من آغاز به ساخت نمونه های اولیه نرم افزار روبات و رابط خودم کردم.

در نهایت ساینیو پیروز به ساخت نمونه های اولیه قابل توجهی شد.

بنا به اعلام وبسایت Ote robotics، پلتفرم روبات RealAnt برای تحقیق و توسعه یادگیری تقویتی در دنیای واقعی طراحی شده است.،ایسنا

وبلاگ راضانی: وبلاگ راضانی، یک ورزشکار که به دنبال رستگاری است

کیوسک خبری آشنا: کیوسک خبری آشنا | مجله اخبار روز جهان

منبع: ایران آنلاین
انتشار: 24 مرداد 1400 بروزرسانی: 24 مرداد 1400 گردآورنده: sale-blog.ir شناسه مطلب: 8806

به "روباتی که با یادگیری تقویتی آموزش می بیند" امتیاز دهید

امتیاز دهید:

دیدگاه های مرتبط با "روباتی که با یادگیری تقویتی آموزش می بیند"

* نظرتان را در مورد این مقاله با ما درمیان بگذارید