یادگیری تقویتی | Omid Sadeghnezhad

یکی از شاخه‌های هوش مصنوعی یادگیری تقویتی هست. اساس این یادگیری بر تعریف پاداش و جزا هست. مدل یاد میگیره با انجام دادن یکسری از کارها پاداش بگیره و با انجام دادن برخی تنبیه میشه. با توجه به تابع هدفی که براش نوشته شده، مدل به سمت پاداش گرفتن بیشتر حرکت میکنه. حالا این روند آموزش به این صورت هست که ابتدای امر مدل هیچ شناختی از شرایط و محیط نداره و اجازه میدیم بهش به صورت تصادفی عمل کنه تا بتونه با محیط آشنا بشه. پس از مدت زمانی بهش میگیم خب تو تا الان داشتی تصادفی کار میکردی، الان که با محیط کمی آشنا شدی بیا یکم هم از دانش خودت استفاده کن و حرکت کن. ینی بیا ۹۰ درصد تصادفی باش ۱۰ درصد با دانش خودت باش. به مرور که پیش میریم از اون ۹۰ درصد کم میشه و به ۱۰ درصد اضافه میشه. به طوری که در آخر میشه ۱۰ درصد تصادفی و ۹۰ درصد از دانش خودش (حالا این درصد با توجه الگوریتم فرق داره) و از اونجا به بعد با همین فرمون ادامه میده.

حالا دقت که میکنی، این روند خیلی شبیه موجودات زنده هست. وقتی به دنیا میاد اون اوایل تصادفی رفتار میکنه و وقتی که آزمون و خطاهاش رو انجام داد یادگیره که از مغزش هم استفاده کنه. ولی حرف من اینجاست که توی اون مدل هوش مصنوعی میزان عملکرد تصادفی به صفر نمیرسه (شاید هم برسه، ولی من ندیدم تاحالا) به این علت که همیشه ممکن هست با چیز جدید روبرو بشه و نیاز باشه باهاش تصادفی رفتار کنه. یا اصلا به واسطه ی این تصادفی بودن بتونه چیزهای جدیدی رو کشف کنه. (اصلا تو تاریخ اکتشافات هم بسیاری از چیزهایی که کشف شد تصادفی بود) این عملکرد تصادفی به انسان هم فرصت یادگیری میده. حالا حرفم چیه . . .؟

یک پدیده‌ی رایج هست که وقتی سن میره بالا افراد به ثبات میرسن. عقایدشون شکل میگیره و به دلایل مختلف تغییر نمیکنن. خب این میتونه با توجه به دیدگاه‌های مختلف مثبت باشه یا منفی. مثلا یه سیستم نظامی شاید دوست نداشته باشه که افراد خیلی تغییر کنن تا از کنترلشون خارج بشن. میخوان همه چیز رو توی یک نظمی نگه دارن. از طرف دیگه یک شرکت نوآور ترجیح میده افرادش تفکرات منعطف و متغیری داشته باشن تا بتونن مسائل جدید رو حل کنن. چیزی که من خودم ترجیح میدم این هست که یک درجه‌ای از این تصادفات رو دروازش رو به روی خودم باز بذارم. دنیای الان به شدت در حال رشد هست. تغییرات بی‌نهایت هست. اگر ثبات حداکثری رو انتخاب کنم از خیلی از اتفاقات و مواجه‌شدن ها خودم رو محروم کردم. این تصادفات رو میشه با مطالعه کردن، سفر کردن، ارتباط گرفتن، مباحثه کردن، نظرخواهی و این چنین کارهایی بوجود آورد.

قدم اول برای مواجه شدن با این تصادف این هست که حداقل این اجازه رو بهشون بدیم که خودشون رو ابراز کنن. به بیان دیگه، بخشی از اون میزان درصد تصادفات به این هست که شما این اجازه رو بدی به خودت که به فرآیند‌های اطرافت فرصت ظهور و ابراز شدن بدی. اگر یک موزیک جدید میشنوی سریع ردش نکنی. اگر یه فیلم به سبک جدید میبینی سریع تلوزیون رو خاموش نکنی. اگر یه حرف از کسی که خوشت نمیاد میشنوی سریع خفش نکنی. و به طور کلی اجازه دادن به کلیه‌ی موضوعات که شاید ازشون خوشت نمیاد. که این خوش نیومدن با افزایش سن بیشتر و بیشتر میشه و اگر جلوش گرفته نشه. میشه همون پیر خرفتی که وقتی بچه بودی به بعضی از بزرگتر‌ها میگفتی.