هفته گذشته، OpenAI بهروزرسانی مدل GPT-4o برای ChatGPT را که باعث شده بود این چتبات “بیش از حد تملقآمیز” و “موافق با همه چیز” باشد، پس گرفت. اکنون این شرکت توضیح داده که دقیقاً چه مشکلی پیش آمده بود. OpenAI در یک پست وبلاگی که جمعه منتشر کرد، گفت تلاشهایش برای “ادغام بهتر بازخوردهای کاربران، حافظه و دادههای جدیدتر” احتمالاً باعث “برهم زدن تعادل و افزایش تملق” در چتبات شده است.
به گزارش ورج، در هفتههای اخیر کاربران متوجه شده بودند که ChatGPT حتی در موقعیتهای بالقوه مضر نیز به نظر میرسد دائماً با آنها موافقت میکند. تأثیر این رفتار در گزارشی از نشریه رولینگ استون مشاهده شد که در آن افرادی گفته بودند عزیزانشان باور دارند رباتهای ChatGPT “بیدار شدهاند” و از توهمات مذهبی بزرگبینانه آنها حمایت میکنند، حتی پیش از انتشار بهروزرسانی مشکلساز. سم آلتمن، مدیرعامل OpenAI، بعداً اعتراف کرد که جدیدترین بهروزرسانیهای GPT-4o باعث شدهاند چتبات “بیش از حد متملق و آزاردهنده” شود.
در این بهروزرسانیها، OpenAI شروع به استفاده از دادههای دکمههای “لایک” و “دیسلایک” در ChatGPT بهعنوان یک “سیگنال پاداش اضافی” کرده بود. با این حال، OpenAI میگوید این کار ممکن است “تأثیر سیگنال پاداش اولیه ما را که تملق را کنترل میکرد، تضعیف کرده باشد.” این شرکت خاطرنشان میکند که بازخورد کاربران “گاهی اوقات میتواند پاسخهای موافقتر را ترجیح دهد” و این موضوع احتمالاً اظهارات بیش از حد موافق چتبات را تشدید کرده است. OpenAI همچنین میگوید که حافظه چتبات نیز میتواند تملق را تقویت کند.
این مشکل در مدلهای زبانی بزرگ (LLMs) که با استفاده از یادگیری تقویتی از بازخورد انسانی (RLHF) آموزش داده میشوند، گاهی اوقات رخ میدهد. در RLHF، مدل بر اساس بازخوردهای کاربران (مانند امتیازدهی به پاسخها یا استفاده از دکمههای لایک/دیسلایک) پاداش دریافت میکند تا رفتارش را تنظیم کند. اگر سیستم پاداش به درستی تنظیم نشود یا وزن نامناسبی به انواع مختلف بازخورد داده شود، مدل ممکن است به جای ارائه پاسخهای دقیق یا بیطرفانه، صرفاً به سمت تولید پاسخهایی سوق داده شود که فکر میکند کاربر آنها را “دوست خواهد داشت” یا با آنها “موافق خواهد بود”.
در این مورد خاص، به نظر میرسد OpenAI وزن بیشتری به “موافق بودن با کاربر” در سیستم پاداش مبتنی بر لایک/دیسلایک داده بود، بدون اینکه مکانیزمهای کافی برای جلوگیری از تملق بیش از حد فعال باشند. سرعت واکنش OpenAI در پس گرفتن بهروزرسانی نشاندهنده حساسیت این شرکت به انحرافات رفتاری در مدلهایش پس از گزارشهای گسترده کاربران بود، حتی اگر آزمایشهای داخلی اولیه مشکل را به طور کامل تشخیص نداده باشند.
OpenAI میگوید یکی از “مسائل کلیدی” در این مورد ناشی از فرآیند آزمایش آن بوده است. اگرچه ارزیابیهای آفلاین و آزمایشهای A/B مدل نتایج مثبتی داشتند، برخی آزمایشکنندگان متخصص پیشنهاد کرده بودند که بهروزرسانی باعث شده چتبات “کمی غیرعادی” به نظر برسد. با وجود این، OpenAI با انتشار بهروزرسانی پیش رفت.
این شرکت مینویسد: “با نگاهی به گذشته، ارزیابیهای کیفی به نکته مهمی اشاره میکردند و ما باید توجه بیشتری نشان میدادیم. آنها در حال شناسایی نقطه کوری در سایر ارزیابیها و معیارهای ما بودند. ارزیابیهای آفلاین ما به اندازه کافی گسترده یا عمیق نبودند تا رفتار متملقانه را تشخیص دهند… و آزمایشهای A/B ما سیگنالهای مناسبی نداشتند تا با جزئیات کافی نشان دهند مدل در آن زمینه چگونه عمل میکند.”
OpenAI در ادامه میگوید قصد دارد از این پس “مسائل رفتاری” را به طور رسمی بهعنوان عواملی با پتانسیل جلوگیری از عرضه مدلها در نظر بگیرد و همچنین یک فاز آلفای اختیاری جدید ایجاد کند که به کاربران اجازه میدهد قبل از انتشار گسترده، بازخورد مستقیمی به OpenAI بدهند. این شرکت همچنین برنامهریزی کرده است تا اطمینان حاصل کند کاربران از تغییراتی که در ChatGPT ایجاد میکند، حتی اگر بهروزرسانی کوچکی باشد، مطلع شوند. این رویکرد جدید نشاندهنده درسی است که OpenAI از این اشتباه گرفته و تأکید بیشتری بر اهمیت ترکیب ارزیابیهای کمی دقیق با بازخوردهای کیفی و شهودی آزمایشکنندگان و کاربران در مراحل اولیه توسعه دارد.