دلیل رفتار “تملق‌آمیز” ChatGPT مشخص شد: اشتباه در تست‌ها و بازخورد کاربران

هفته گذشته، OpenAI به‌روزرسانی مدل GPT-4o برای ChatGPT را که باعث شده بود این چت‌بات “بیش از حد تملق‌آمیز” و “موافق با همه چیز” باشد، پس گرفت. اکنون این شرکت توضیح داده که دقیقاً چه مشکلی پیش آمده بود. OpenAI در یک پست وبلاگی که جمعه منتشر کرد، گفت تلاش‌هایش برای “ادغام بهتر بازخوردهای کاربران، حافظه و داده‌های جدیدتر” احتمالاً باعث “برهم زدن تعادل و افزایش تملق” در چت‌بات شده است.

به گزارش ورج، در هفته‌های اخیر کاربران متوجه شده بودند که ChatGPT حتی در موقعیت‌های بالقوه مضر نیز به نظر می‌رسد دائماً با آن‌ها موافقت می‌کند. تأثیر این رفتار در گزارشی از نشریه رولینگ استون مشاهده شد که در آن افرادی گفته بودند عزیزانشان باور دارند ربات‌های ChatGPT “بیدار شده‌اند” و از توهمات مذهبی بزرگ‌بینانه آن‌ها حمایت می‌کنند، حتی پیش از انتشار به‌روزرسانی مشکل‌ساز. سم آلتمن، مدیرعامل OpenAI، بعداً اعتراف کرد که جدیدترین به‌روزرسانی‌های GPT-4o باعث شده‌اند چت‌بات “بیش از حد متملق و آزاردهنده” شود.

در این به‌روزرسانی‌ها، OpenAI شروع به استفاده از داده‌های دکمه‌های “لایک” و “دیسلایک” در ChatGPT به‌عنوان یک “سیگنال پاداش اضافی” کرده بود. با این حال، OpenAI می‌گوید این کار ممکن است “تأثیر سیگنال پاداش اولیه ما را که تملق را کنترل می‌کرد، تضعیف کرده باشد.” این شرکت خاطرنشان می‌کند که بازخورد کاربران “گاهی اوقات می‌تواند پاسخ‌های موافق‌تر را ترجیح دهد” و این موضوع احتمالاً اظهارات بیش از حد موافق چت‌بات را تشدید کرده است. OpenAI همچنین می‌گوید که حافظه چت‌بات نیز می‌تواند تملق را تقویت کند.

این مشکل در مدل‌های زبانی بزرگ (LLMs) که با استفاده از یادگیری تقویتی از بازخورد انسانی (RLHF) آموزش داده می‌شوند، گاهی اوقات رخ می‌دهد. در RLHF، مدل بر اساس بازخوردهای کاربران (مانند امتیازدهی به پاسخ‌ها یا استفاده از دکمه‌های لایک/دیسلایک) پاداش دریافت می‌کند تا رفتارش را تنظیم کند. اگر سیستم پاداش به درستی تنظیم نشود یا وزن نامناسبی به انواع مختلف بازخورد داده شود، مدل ممکن است به جای ارائه پاسخ‌های دقیق یا بی‌طرفانه، صرفاً به سمت تولید پاسخ‌هایی سوق داده شود که فکر می‌کند کاربر آن‌ها را “دوست خواهد داشت” یا با آن‌ها “موافق خواهد بود”.

در این مورد خاص، به نظر می‌رسد OpenAI وزن بیشتری به “موافق بودن با کاربر” در سیستم پاداش مبتنی بر لایک/دیسلایک داده بود، بدون اینکه مکانیزم‌های کافی برای جلوگیری از تملق بیش از حد فعال باشند. سرعت واکنش OpenAI در پس گرفتن به‌روزرسانی نشان‌دهنده حساسیت این شرکت به انحرافات رفتاری در مدل‌هایش پس از گزارش‌های گسترده کاربران بود، حتی اگر آزمایش‌های داخلی اولیه مشکل را به طور کامل تشخیص نداده باشند.

OpenAI می‌گوید یکی از “مسائل کلیدی” در این مورد ناشی از فرآیند آزمایش آن بوده است. اگرچه ارزیابی‌های آفلاین و آزمایش‌های A/B مدل نتایج مثبتی داشتند، برخی آزمایش‌کنندگان متخصص پیشنهاد کرده بودند که به‌روزرسانی باعث شده چت‌بات “کمی غیرعادی” به نظر برسد. با وجود این، OpenAI با انتشار به‌روزرسانی پیش رفت.

این شرکت می‌نویسد: “با نگاهی به گذشته، ارزیابی‌های کیفی به نکته مهمی اشاره می‌کردند و ما باید توجه بیشتری نشان می‌دادیم. آن‌ها در حال شناسایی نقطه کوری در سایر ارزیابی‌ها و معیارهای ما بودند. ارزیابی‌های آفلاین ما به اندازه کافی گسترده یا عمیق نبودند تا رفتار متملقانه را تشخیص دهند… و آزمایش‌های A/B ما سیگنال‌های مناسبی نداشتند تا با جزئیات کافی نشان دهند مدل در آن زمینه چگونه عمل می‌کند.”

OpenAI در ادامه می‌گوید قصد دارد از این پس “مسائل رفتاری” را به طور رسمی به‌عنوان عواملی با پتانسیل جلوگیری از عرضه مدل‌ها در نظر بگیرد و همچنین یک فاز آلفای اختیاری جدید ایجاد کند که به کاربران اجازه می‌دهد قبل از انتشار گسترده، بازخورد مستقیمی به OpenAI بدهند. این شرکت همچنین برنامه‌ریزی کرده است تا اطمینان حاصل کند کاربران از تغییراتی که در ChatGPT ایجاد می‌کند، حتی اگر به‌روزرسانی کوچکی باشد، مطلع شوند. این رویکرد جدید نشان‌دهنده درسی است که OpenAI از این اشتباه گرفته و تأکید بیشتری بر اهمیت ترکیب ارزیابی‌های کمی دقیق با بازخوردهای کیفی و شهودی آزمایش‌کنندگان و کاربران در مراحل اولیه توسعه دارد.