مدل‌های جدید GPT-4.1 با تمرکز بر کدنویسی معرفی شدند

مدل‌های جدید GPT-4.1 با تمرکز بر کدنویسی معرفی شدند

شرکت OpenAI روز دوشنبه از خانواده جدیدی از مدل‌های هوش مصنوعی به نام GPT-4.1 رونمایی کرد. بله، درست شنیدید، “4.1” – گویی نامگذاری‌های این شرکت به اندازه کافی گیج‌کننده نبوده‌اند.

به گزارش تک‌کرانچ این خانواده شامل مدل‌های GPT-4.1، GPT-4.1 mini و GPT-4.1 nano می‌شود که به گفته OpenAI ، همگی در کدنویسی و پیروی از دستورالعمل‌ها “عالی” عمل می‌کنند. این مدل‌های چندوجهی که از طریق API OpenAI در دسترس هستند اما در ChatGPT ارائه نشده‌اند، دارای یک پنجره متنی با ظرفیت 1 میلیون توکن هستند؛ به این معنی که می‌توانند تقریباً 750 هزار کلمه را به صورت یکجا پردازش کنند (حتی طولانی‌تر از رمان “جنگ و صلح”).

عرضه GPT-4.1 در حالی صورت می‌گیرد که رقبای OpenAI مانند گوگل و آنتروپیک تلاش‌های خود را برای ساخت مدل‌های برنامه‌نویسی پیشرفته افزایش داده‌اند. گوگل اخیراً مدل Gemini 2.5 Pro را منتشر کرده که آن هم دارای پنجره متنی 1 میلیون توکنی است و در بنچمارک‌های محبوب کدنویسی رتبه بالایی کسب کرده است. مدل‌های Claude 3.7 Sonnet از آنتروپیک و V3 ارتقا یافته از استارتاپ هوش مصنوعی چینی DeepSeek نیز عملکرد مشابهی دارند.

هدف بسیاری از غول‌های فناوری، از جمله OpenAI ، آموزش مدل‌های هوش مصنوعی کدنویسی است که قادر به انجام وظایف پیچیده مهندسی نرم‌افزار باشند. سارا فرایر، مدیر ارشد مالی اوپن‌ای‌آی، در یک اجلاس فناوری در لندن در ماه گذشته، آرزوی بزرگ این شرکت را ایجاد یک “مهندس نرم‌افزار عامل” توصیف کرد. این شرکت ادعا می‌کند که مدل‌های آینده‌اش قادر خواهند بود کل برنامه‌ها را به صورت سرتاسری برنامه‌نویسی کنند و جنبه‌هایی مانند تضمین کیفیت، تست اشکالات و نوشتن مستندات را نیز بر عهده بگیرند.

سخنگوی OpenAI در ایمیلی به تک‌کرانچ گفت: “ما GPT-4.1 را بر اساس بازخورد مستقیم برای استفاده در دنیای واقعی بهینه کرده‌ایم تا در زمینه‌هایی که برای توسعه‌دهندگان از اهمیت بالایی برخوردار است، بهبود یابد: کدنویسی فرانت‌اند، ایجاد ویرایش‌های غیرضروری کمتر، پیروی قابل اعتماد از قالب‌ها، رعایت ساختار و ترتیب پاسخ، استفاده مداوم از ابزارها و موارد دیگر. این بهبودها به توسعه‌دهندگان امکان می‌دهد تا عامل‌هایی بسازند که به طور قابل توجهی در انجام وظایف مهندسی نرم‌افزار در دنیای واقعی بهتر عمل کنند.”

OpenAI ادعا می‌کند که مدل کامل GPT-4.1 در بنچمارک‌های کدنویسی، از جمله SWE-bench، از مدل‌های GPT-4o و GPT-4o mini عملکرد بهتری دارد. گفته می‌شود که مدل‌های GPT-4.1 mini و nano با کاهش اندکی در دقت، کارآمدتر و سریع‌تر هستند و OpenAI می‌گوید که GPT-4.1 nano سریع‌ترین و ارزان‌ترین مدل این شرکت تا به امروز است.

هزینه استفاده از GPT-4.1 برای هر یک میلیون توکن ورودی 2 دلار و برای هر یک میلیون توکن خروجی 8 دلار است. GPT-4.1 mini به ازای هر میلیون توکن ورودی 0.40 دلار و به ازای هر میلیون توکن خروجی 1.60 دلار قیمت دارد، در حالی که GPT-4.1 nano با قیمت 0.10 دلار برای هر میلیون توکن ورودی و 0.40 دلار برای هر میلیون توکن خروجی عرضه می‌شود.

بر اساس آزمایش‌های داخلی OpenAI ، GPT-4.1 که می‌تواند تعداد توکن‌های بیشتری را به طور همزمان نسبت به GPT-4o (32,768 در مقابل 16,384) تولید کند، در SWE-bench Verified، زیرمجموعه‌ای از SWE-bench که توسط انسان تأیید شده است، بین 52 تا 54.6 درصد امتیاز کسب کرده است. (اوپن‌ای‌آی در یک پست وبلاگی اشاره کرد که برخی از راه‌حل‌های مسائل SWE-bench Verified روی زیرساخت این شرکت قابل اجرا نبودند، از این رو دامنه امتیازات متفاوت است.) این ارقام کمی پایین‌تر از امتیازات گزارش شده توسط گوگل و آنتروپیک برای Gemini 2.5 Pro (63.8%) و Claude 3.7 Sonnet (62.3%) در همین بنچمارک است.

در یک ارزیابی جداگانه، اوپن‌ای‌آی عملکرد GPT-4.1 را با استفاده از Video-MME بررسی کرد که برای اندازه‌گیری توانایی یک مدل در “درک” محتوای ویدیوها طراحی شده است. OpenAI ادعا می‌کند که GPT-4.1 در دسته ویدیویی “طولانی، بدون زیرنویس” به دقت 72 درصدی دست یافته است که بالاترین امتیاز در این دسته محسوب می‌شود.

در حالی که GPT-4.1 در بنچمارک‌ها عملکرد نسبتاً خوبی دارد و دارای “تاریخ آگاهی” جدیدتری است که به آن دیدگاه بهتری نسبت به رویدادهای جاری (تا ژوئن 2024) می‌دهد، مهم است که به خاطر داشته باشیم که حتی برخی از بهترین مدل‌های امروزی نیز با وظایفی دست و پنجه نرم می‌کنند که برای متخصصان مشکلی ایجاد نمی‌کند. برای مثال، بسیاری از مطالعات نشان داده‌اند که مدل‌های تولیدکننده کد اغلب در رفع و حتی ایجاد آسیب‌پذیری‌ها و اشکالات امنیتی با شکست مواجه می‌شوند.

OpenAI همچنین اذعان دارد که با افزایش تعداد توکن‌های ورودی، قابلیت اطمینان GPT-4.1 کاهش می‌یابد (یعنی احتمال اشتباه کردن آن بیشتر می‌شود). در یکی از تست‌های داخلی این شرکت به نام OpenAI-MRCR، دقت این مدل از حدود 84 درصد با 8000 توکن به 50 درصد با 1 میلیون توکن کاهش یافت. به گفته این شرکت، GPT-4.1 همچنین نسبت به GPT-4o “تحت‌اللفظی‌تر” عمل می‌کند و گاهی اوقات نیاز به درخواست‌های خاص‌تر و صریح‌تری دارد.

علاوه بر موارد ذکر شده، لازم به یادآوری است که رقابت در حوزه مدل‌های هوش مصنوعی پیشرفته بسیار داغ است. شرکت‌های دیگری مانند مایکروسافت نیز با مدل‌های خود مانند سری Phi در تلاش برای ارائه راهکارهای قدرتمند در زمینه کدنویسی و سایر وظایف هستند. همچنین، جامعه متن‌باز نیز در حال توسعه مدل‌های هوش مصنوعی قدرتمند است که می‌توانند با مدل‌های تجاری رقابت کنند.

معرفی مدل‌های GPT-4.1 با پنجره متنی 1 میلیون توکنی، نشان‌دهنده پیشرفت چشمگیر در توانایی این مدل‌ها برای پردازش حجم وسیعی از اطلاعات است. این قابلیت می‌تواند در سناریوهای مختلفی مانند خلاصه سازی اسناد طولانی، تحلیل داده‌های حجیم و حتی تولید کد پیچیده بسیار مفید باشد. با این حال، همانطور که اوپن‌ای‌آی اشاره کرده است، هنوز چالش‌هایی در زمینه دقت و قابلیت اطمینان این مدل‌ها، به ویژه در مواجهه با حجم زیاد داده‌ها، وجود دارد که نیازمند تحقیقات و توسعه بیشتر است.

تمرکز اوپن‌ای‌آی بر کدنویسی با معرفی این مدل‌ها، نشان از اهمیت روزافزون هوش مصنوعی در فرآیند توسعه نرم‌افزار دارد. انتظار می‌رود که در آینده، مدل‌های هوش مصنوعی نقش پررنگ‌تری در خودکارسازی وظایف کدنویسی، بهبود کیفیت کد و افزایش سرعت توسعه ایفا کنند.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا