مدلهای هوش مصنوعی جدید OpenAI با نامهای o3 و o4-mini، که اخیراً معرفی شدهاند و در بسیاری جهات پیشرفته محسوب میشوند، پدیدهی “توهم” (Hallucination) یا تولید اطلاعات نادرست و ساختگی را بیشتر از برخی مدلهای قدیمیتر این شرکت از خود نشان میدهند. این موضوع یکی از بزرگترین و دشوارترین چالشها در حوزه هوش مصنوعی باقی مانده و حتی بر روی پیشرفتهترین سیستمهای امروزی نیز تأثیر میگذارد.
بهطور سنتی، هر مدل جدید هوش مصنوعی بهبودهایی در زمینه کاهش توهم نسبت به نسخههای قبلی خود داشته است. اما به نظر نمیرسد این روند در مورد مدلهای o3 و o4-mini صادق باشد. طبق تستهای داخلی OpenAI، این مدلها که به عنوان مدلهای “استدلالی” (reasoning models) شناخته میشوند، بیشتر از مدلهای استدلالی قبلی شرکت – o1، o1-mini و o3-mini – و همچنین مدلهای سنتی و “غیر استدلالی” OpenAI مانند GPT-4o دچار توهم میشوند.
نگرانکنندهتر اینکه، خالق ChatGPT دقیقاً علت این پدیده را نمیداند. OpenAI در گزارش فنی مدلهای o3 و o4-mini اشاره کرده است که “تحقیقات بیشتری مورد نیاز است” تا دلیل بدتر شدن پدیده توهم با افزایش مقیاس مدلهای استدلالی مشخص شود. هرچند مدلهای o3 و o4-mini در برخی زمینهها از جمله وظایف مرتبط با کدنویسی و ریاضی عملکرد بهتری دارند، اما طبق گزارش، چون “بهطور کلی ادعاهای بیشتری مطرح میکنند”، اغلب هم به سمت طرح “ادعاهای دقیقتر و هم ادعاهای نادرستتر/توهمیتر” سوق داده میشوند.
به گزارش تککرانچ OpenAI دریافت که مدل o3 در پاسخ به 33 درصد از سوالات در PersonQA دچار توهم شده است. PersonQA یک معیار داخلی OpenAI برای اندازهگیری دقت دانش یک مدل در مورد افراد است. این نرخ تقریباً دو برابر نرخ توهم در مدلهای استدلالی قبلی OpenAI، یعنی o1 و o3-mini، است که به ترتیب نرخهای 16% و 14.8% را ثبت کرده بودند. عملکرد o4-mini در PersonQA حتی بدتر بوده و در 48% مواقع دچار توهم شده است.
آزمایشهای مستقل انجام شده توسط Transluce، یک آزمایشگاه تحقیقاتی غیرانتفاعی هوش مصنوعی، نیز شواهدی مبنی بر تمایل o3 به ساختگی نشان دادن اقدامات انجام شده در فرآیند رسیدن به پاسخها یافته است. در یک مثال، Transluce مشاهده کرد که o3 ادعا کرده است کد را در یک MacBook Pro مدل 2021 “خارج از ChatGPT” اجرا کرده و سپس اعداد را در پاسخ خود کپی کرده است. در حالی که o3 به برخی ابزارها دسترسی دارد، قادر به انجام چنین کاری نیست.
نیل چودوری (Neil Chowdhury)، محقق Transluce و کارمند سابق OpenAI، در ایمیلی به TechCrunch اظهار داشت: “فرضیه ما این است که نوع یادگیری تقویتی مورد استفاده برای مدلهای سری o ممکن است مسائلی را تشدید کند که معمولاً توسط پایپلاینهای استاندارد پس از آموزش کاهش مییابند (اما بهطور کامل از بین نمیروند).”
سارا شوتمان (Sarah Schwettmann)، همبنیانگذار Transluce، افزود که نرخ توهم o3 ممکن است کاربردپذیری آن را نسبت به آنچه در غیر این صورت میتوانست باشد، کاهش دهد.
کیان کتانفروش (Kian Katanforoosh)، استادیار دانشگاه استنفورد و مدیرعامل استارتاپ توسعه مهارت Workera، به TechCrunch گفت که تیم او در حال حاضر در حال آزمایش o3 در گردش کارهای کدنویسی خود هستند و دریافتهاند که این مدل یک گام بالاتر از رقبا است. با این حال، کتانفروش میگوید که o3 تمایل به توهم در مورد لینکهای وبسایت خراب دارد؛ مدل لینکی را ارائه میدهد که پس از کلیک، کار نمیکند.
پدیده توهم ممکن است به مدلها کمک کند تا به ایدههای جالب برسند و در “تفکر” خود خلاق باشند، اما در عین حال باعث میشود برخی مدلها برای کسبوکارها در بازارهایی که دقت در آنها اهمیت بالایی دارد، جذابیت کمتری داشته باشند. به عنوان مثال، یک شرکت حقوقی احتمالاً از مدلی که خطاهای واقعی زیادی را در قراردادهای مشتریان وارد میکند، راضی نخواهد بود.
یک رویکرد امیدوارکننده برای افزایش دقت مدلها، اعطای قابلیت جستجو در وب به آنها است. مدل GPT-4o اوپنایآی با قابلیت جستجو در وب به دقت 90% در SimpleQA دست یافته است. SimpleQA یکی دیگر از معیارهای دقت اوپنایآی است که برای ارزیابی توانایی مدلها در پاسخگویی به سوالات کوتاه و مبتنی بر واقعیت طراحی شده است. بهطور بالقوه، جستجو میتواند نرخ توهم مدلهای استدلالی را نیز بهبود بخشد، حداقل در مواردی که کاربران مایلند درخواستهای خود را در معرض یک ارائهدهنده جستجوی شخص ثالث قرار دهند.
اگر افزایش مقیاس مدلهای استدلالی واقعاً به بدتر شدن پدیده توهم ادامه دهد، جستجو برای یافتن راهحل را بیش از پیش ضروری خواهد کرد.
نیکو فلیکس (Niko Felix)، سخنگوی OpenAI، در ایمیلی گفت: “رسیدگی به توهم در تمام مدلهای ما یک حوزه تحقیقاتی مداوم است و ما بهطور پیوسته برای بهبود دقت و قابلیت اطمینان آنها تلاش میکنیم.”
در سال گذشته، صنعت گستردهتر هوش مصنوعی به سمت تمرکز بر مدلهای استدلالی سوق پیدا کرده است، پس از اینکه تکنیکهای بهبود مدلهای هوش مصنوعی سنتی شروع به نشان دادن بازدهی کاهشی کردند. استدلال عملکرد مدل را در انواع وظایف بهبود میبخشد بدون اینکه نیاز به حجم عظیمی از محاسبات و داده در طول آموزش داشته باشد. با این حال، به نظر میرسد استدلال ممکن است منجر به توهم بیشتر نیز شود که یک چالش جدید را مطرح میکند.