شرکت OpenAI روز دوشنبه از خانواده جدیدی از مدلهای هوش مصنوعی به نام GPT-4.1 رونمایی کرد. بله، درست شنیدید، “4.1” – گویی نامگذاریهای این شرکت به اندازه کافی گیجکننده نبودهاند.
به گزارش تککرانچ این خانواده شامل مدلهای GPT-4.1، GPT-4.1 mini و GPT-4.1 nano میشود که به گفته OpenAI ، همگی در کدنویسی و پیروی از دستورالعملها “عالی” عمل میکنند. این مدلهای چندوجهی که از طریق API OpenAI در دسترس هستند اما در ChatGPT ارائه نشدهاند، دارای یک پنجره متنی با ظرفیت 1 میلیون توکن هستند؛ به این معنی که میتوانند تقریباً 750 هزار کلمه را به صورت یکجا پردازش کنند (حتی طولانیتر از رمان “جنگ و صلح”).
عرضه GPT-4.1 در حالی صورت میگیرد که رقبای OpenAI مانند گوگل و آنتروپیک تلاشهای خود را برای ساخت مدلهای برنامهنویسی پیشرفته افزایش دادهاند. گوگل اخیراً مدل Gemini 2.5 Pro را منتشر کرده که آن هم دارای پنجره متنی 1 میلیون توکنی است و در بنچمارکهای محبوب کدنویسی رتبه بالایی کسب کرده است. مدلهای Claude 3.7 Sonnet از آنتروپیک و V3 ارتقا یافته از استارتاپ هوش مصنوعی چینی DeepSeek نیز عملکرد مشابهی دارند.
هدف بسیاری از غولهای فناوری، از جمله OpenAI ، آموزش مدلهای هوش مصنوعی کدنویسی است که قادر به انجام وظایف پیچیده مهندسی نرمافزار باشند. سارا فرایر، مدیر ارشد مالی اوپنایآی، در یک اجلاس فناوری در لندن در ماه گذشته، آرزوی بزرگ این شرکت را ایجاد یک “مهندس نرمافزار عامل” توصیف کرد. این شرکت ادعا میکند که مدلهای آیندهاش قادر خواهند بود کل برنامهها را به صورت سرتاسری برنامهنویسی کنند و جنبههایی مانند تضمین کیفیت، تست اشکالات و نوشتن مستندات را نیز بر عهده بگیرند.
سخنگوی OpenAI در ایمیلی به تککرانچ گفت: “ما GPT-4.1 را بر اساس بازخورد مستقیم برای استفاده در دنیای واقعی بهینه کردهایم تا در زمینههایی که برای توسعهدهندگان از اهمیت بالایی برخوردار است، بهبود یابد: کدنویسی فرانتاند، ایجاد ویرایشهای غیرضروری کمتر، پیروی قابل اعتماد از قالبها، رعایت ساختار و ترتیب پاسخ، استفاده مداوم از ابزارها و موارد دیگر. این بهبودها به توسعهدهندگان امکان میدهد تا عاملهایی بسازند که به طور قابل توجهی در انجام وظایف مهندسی نرمافزار در دنیای واقعی بهتر عمل کنند.”
OpenAI ادعا میکند که مدل کامل GPT-4.1 در بنچمارکهای کدنویسی، از جمله SWE-bench، از مدلهای GPT-4o و GPT-4o mini عملکرد بهتری دارد. گفته میشود که مدلهای GPT-4.1 mini و nano با کاهش اندکی در دقت، کارآمدتر و سریعتر هستند و OpenAI میگوید که GPT-4.1 nano سریعترین و ارزانترین مدل این شرکت تا به امروز است.
هزینه استفاده از GPT-4.1 برای هر یک میلیون توکن ورودی 2 دلار و برای هر یک میلیون توکن خروجی 8 دلار است. GPT-4.1 mini به ازای هر میلیون توکن ورودی 0.40 دلار و به ازای هر میلیون توکن خروجی 1.60 دلار قیمت دارد، در حالی که GPT-4.1 nano با قیمت 0.10 دلار برای هر میلیون توکن ورودی و 0.40 دلار برای هر میلیون توکن خروجی عرضه میشود.
بر اساس آزمایشهای داخلی OpenAI ، GPT-4.1 که میتواند تعداد توکنهای بیشتری را به طور همزمان نسبت به GPT-4o (32,768 در مقابل 16,384) تولید کند، در SWE-bench Verified، زیرمجموعهای از SWE-bench که توسط انسان تأیید شده است، بین 52 تا 54.6 درصد امتیاز کسب کرده است. (اوپنایآی در یک پست وبلاگی اشاره کرد که برخی از راهحلهای مسائل SWE-bench Verified روی زیرساخت این شرکت قابل اجرا نبودند، از این رو دامنه امتیازات متفاوت است.) این ارقام کمی پایینتر از امتیازات گزارش شده توسط گوگل و آنتروپیک برای Gemini 2.5 Pro (63.8%) و Claude 3.7 Sonnet (62.3%) در همین بنچمارک است.
در یک ارزیابی جداگانه، اوپنایآی عملکرد GPT-4.1 را با استفاده از Video-MME بررسی کرد که برای اندازهگیری توانایی یک مدل در “درک” محتوای ویدیوها طراحی شده است. OpenAI ادعا میکند که GPT-4.1 در دسته ویدیویی “طولانی، بدون زیرنویس” به دقت 72 درصدی دست یافته است که بالاترین امتیاز در این دسته محسوب میشود.
در حالی که GPT-4.1 در بنچمارکها عملکرد نسبتاً خوبی دارد و دارای “تاریخ آگاهی” جدیدتری است که به آن دیدگاه بهتری نسبت به رویدادهای جاری (تا ژوئن 2024) میدهد، مهم است که به خاطر داشته باشیم که حتی برخی از بهترین مدلهای امروزی نیز با وظایفی دست و پنجه نرم میکنند که برای متخصصان مشکلی ایجاد نمیکند. برای مثال، بسیاری از مطالعات نشان دادهاند که مدلهای تولیدکننده کد اغلب در رفع و حتی ایجاد آسیبپذیریها و اشکالات امنیتی با شکست مواجه میشوند.
OpenAI همچنین اذعان دارد که با افزایش تعداد توکنهای ورودی، قابلیت اطمینان GPT-4.1 کاهش مییابد (یعنی احتمال اشتباه کردن آن بیشتر میشود). در یکی از تستهای داخلی این شرکت به نام OpenAI-MRCR، دقت این مدل از حدود 84 درصد با 8000 توکن به 50 درصد با 1 میلیون توکن کاهش یافت. به گفته این شرکت، GPT-4.1 همچنین نسبت به GPT-4o “تحتاللفظیتر” عمل میکند و گاهی اوقات نیاز به درخواستهای خاصتر و صریحتری دارد.
علاوه بر موارد ذکر شده، لازم به یادآوری است که رقابت در حوزه مدلهای هوش مصنوعی پیشرفته بسیار داغ است. شرکتهای دیگری مانند مایکروسافت نیز با مدلهای خود مانند سری Phi در تلاش برای ارائه راهکارهای قدرتمند در زمینه کدنویسی و سایر وظایف هستند. همچنین، جامعه متنباز نیز در حال توسعه مدلهای هوش مصنوعی قدرتمند است که میتوانند با مدلهای تجاری رقابت کنند.
معرفی مدلهای GPT-4.1 با پنجره متنی 1 میلیون توکنی، نشاندهنده پیشرفت چشمگیر در توانایی این مدلها برای پردازش حجم وسیعی از اطلاعات است. این قابلیت میتواند در سناریوهای مختلفی مانند خلاصه سازی اسناد طولانی، تحلیل دادههای حجیم و حتی تولید کد پیچیده بسیار مفید باشد. با این حال، همانطور که اوپنایآی اشاره کرده است، هنوز چالشهایی در زمینه دقت و قابلیت اطمینان این مدلها، به ویژه در مواجهه با حجم زیاد دادهها، وجود دارد که نیازمند تحقیقات و توسعه بیشتر است.
تمرکز اوپنایآی بر کدنویسی با معرفی این مدلها، نشان از اهمیت روزافزون هوش مصنوعی در فرآیند توسعه نرمافزار دارد. انتظار میرود که در آینده، مدلهای هوش مصنوعی نقش پررنگتری در خودکارسازی وظایف کدنویسی، بهبود کیفیت کد و افزایش سرعت توسعه ایفا کنند.