افزایش نرخ "توهم" در مدل‌های هوش مصنوعی استدلالی جدید OpenAI

افزایش نرخ “توهم” در مدل‌های هوش مصنوعی استدلالی جدید OpenAI

مدل‌های هوش مصنوعی جدید OpenAI با نام‌های o3 و o4-mini، که اخیراً معرفی شده‌اند و در بسیاری جهات پیشرفته محسوب می‌شوند، پدیده‌ی “توهم” (Hallucination) یا تولید اطلاعات نادرست و ساختگی را بیشتر از برخی مدل‌های قدیمی‌تر این شرکت از خود نشان می‌دهند. این موضوع یکی از بزرگترین و دشوارترین چالش‌ها در حوزه هوش مصنوعی باقی مانده و حتی بر روی پیشرفته‌ترین سیستم‌های امروزی نیز تأثیر می‌گذارد.

به‌طور سنتی، هر مدل جدید هوش مصنوعی بهبودهایی در زمینه کاهش توهم نسبت به نسخه‌های قبلی خود داشته است. اما به نظر نمی‌رسد این روند در مورد مدل‌های o3 و o4-mini صادق باشد. طبق تست‌های داخلی OpenAI، این مدل‌ها که به عنوان مدل‌های “استدلالی” (reasoning models) شناخته می‌شوند، بیشتر از مدل‌های استدلالی قبلی شرکت – o1، o1-mini و o3-mini – و همچنین مدل‌های سنتی و “غیر استدلالی” OpenAI مانند GPT-4o دچار توهم می‌شوند.

نگران‌کننده‌تر اینکه، خالق ChatGPT دقیقاً علت این پدیده را نمی‌داند. OpenAI در گزارش فنی مدل‌های o3 و o4-mini اشاره کرده است که “تحقیقات بیشتری مورد نیاز است” تا دلیل بدتر شدن پدیده توهم با افزایش مقیاس مدل‌های استدلالی مشخص شود. هرچند مدل‌های o3 و o4-mini در برخی زمینه‌ها از جمله وظایف مرتبط با کدنویسی و ریاضی عملکرد بهتری دارند، اما طبق گزارش، چون “به‌طور کلی ادعاهای بیشتری مطرح می‌کنند”، اغلب هم به سمت طرح “ادعاهای دقیق‌تر و هم ادعاهای نادرست‌تر/توهمی‌تر” سوق داده می‌شوند.

به گزارش تک‌کرانچ OpenAI دریافت که مدل o3 در پاسخ به 33 درصد از سوالات در PersonQA دچار توهم شده است. PersonQA یک معیار داخلی OpenAI برای اندازه‌گیری دقت دانش یک مدل در مورد افراد است. این نرخ تقریباً دو برابر نرخ توهم در مدل‌های استدلالی قبلی OpenAI، یعنی o1 و o3-mini، است که به ترتیب نرخ‌های 16% و 14.8% را ثبت کرده بودند. عملکرد o4-mini در PersonQA حتی بدتر بوده و در 48% مواقع دچار توهم شده است.

آزمایش‌های مستقل انجام شده توسط Transluce، یک آزمایشگاه تحقیقاتی غیرانتفاعی هوش مصنوعی، نیز شواهدی مبنی بر تمایل o3 به ساختگی نشان دادن اقدامات انجام شده در فرآیند رسیدن به پاسخ‌ها یافته است. در یک مثال، Transluce مشاهده کرد که o3 ادعا کرده است کد را در یک MacBook Pro مدل 2021 “خارج از ChatGPT” اجرا کرده و سپس اعداد را در پاسخ خود کپی کرده است. در حالی که o3 به برخی ابزارها دسترسی دارد، قادر به انجام چنین کاری نیست.

نیل چودوری (Neil Chowdhury)، محقق Transluce و کارمند سابق OpenAI، در ایمیلی به TechCrunch اظهار داشت: “فرضیه ما این است که نوع یادگیری تقویتی مورد استفاده برای مدل‌های سری o ممکن است مسائلی را تشدید کند که معمولاً توسط پایپ‌لاین‌های استاندارد پس از آموزش کاهش می‌یابند (اما به‌طور کامل از بین نمی‌روند).”

سارا شوتمان (Sarah Schwettmann)، هم‌بنیان‌گذار Transluce، افزود که نرخ توهم o3 ممکن است کاربردپذیری آن را نسبت به آنچه در غیر این صورت می‌توانست باشد، کاهش دهد.

کیان کتانفروش (Kian Katanforoosh)، استادیار دانشگاه استنفورد و مدیرعامل استارتاپ توسعه مهارت Workera، به TechCrunch گفت که تیم او در حال حاضر در حال آزمایش o3 در گردش کارهای کدنویسی خود هستند و دریافته‌اند که این مدل یک گام بالاتر از رقبا است. با این حال، کتانفروش می‌گوید که o3 تمایل به توهم در مورد لینک‌های وب‌سایت خراب دارد؛ مدل لینکی را ارائه می‌دهد که پس از کلیک، کار نمی‌کند.

پدیده توهم ممکن است به مدل‌ها کمک کند تا به ایده‌های جالب برسند و در “تفکر” خود خلاق باشند، اما در عین حال باعث می‌شود برخی مدل‌ها برای کسب‌وکارها در بازارهایی که دقت در آن‌ها اهمیت بالایی دارد، جذابیت کمتری داشته باشند. به عنوان مثال، یک شرکت حقوقی احتمالاً از مدلی که خطاهای واقعی زیادی را در قراردادهای مشتریان وارد می‌کند، راضی نخواهد بود.

یک رویکرد امیدوارکننده برای افزایش دقت مدل‌ها، اعطای قابلیت جستجو در وب به آن‌ها است. مدل GPT-4o اوپن‌ای‌آی با قابلیت جستجو در وب به دقت 90% در SimpleQA دست یافته است. SimpleQA یکی دیگر از معیارهای دقت اوپن‌ای‌آی است که برای ارزیابی توانایی مدل‌ها در پاسخگویی به سوالات کوتاه و مبتنی بر واقعیت طراحی شده است. به‌طور بالقوه، جستجو می‌تواند نرخ توهم مدل‌های استدلالی را نیز بهبود بخشد، حداقل در مواردی که کاربران مایلند درخواست‌های خود را در معرض یک ارائه‌دهنده جستجوی شخص ثالث قرار دهند.

اگر افزایش مقیاس مدل‌های استدلالی واقعاً به بدتر شدن پدیده توهم ادامه دهد، جستجو برای یافتن راه‌حل را بیش از پیش ضروری خواهد کرد.

نیکو فلیکس (Niko Felix)، سخنگوی OpenAI، در ایمیلی گفت: “رسیدگی به توهم در تمام مدل‌های ما یک حوزه تحقیقاتی مداوم است و ما به‌طور پیوسته برای بهبود دقت و قابلیت اطمینان آن‌ها تلاش می‌کنیم.”

در سال گذشته، صنعت گسترده‌تر هوش مصنوعی به سمت تمرکز بر مدل‌های استدلالی سوق پیدا کرده است، پس از اینکه تکنیک‌های بهبود مدل‌های هوش مصنوعی سنتی شروع به نشان دادن بازدهی کاهشی کردند. استدلال عملکرد مدل را در انواع وظایف بهبود می‌بخشد بدون اینکه نیاز به حجم عظیمی از محاسبات و داده در طول آموزش داشته باشد. با این حال، به نظر می‌رسد استدلال ممکن است منجر به توهم بیشتر نیز شود که یک چالش جدید را مطرح می‌کند.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا