گوگل روز سهشنبه (تاریخ انتشار خبر اصلی) از عرضه نسخه پیشنمایش هوش مصنوعی Gemini 2.5 Pro (با نام I/O edition) خبر داد. این مدل، نسخه بهروز شده مدل پرچمدار هوش مصنوعی گوگل، Gemini 2.5 Pro، است که به گفته این شرکت در تعدادی از معیارهای متداول، عملکردی بهمراتب بهتر از قبل از خود نشان میدهد. عرضه این نسخه جدید پیش از برگزاری کنفرانس سالانه توسعهدهندگان گوگل، Google I/O، صورت گرفته است.
به گزارش ورج، مدل جدید Gemini 2.5 Pro Preview (I/O edition) هماکنون از طریق API جمینای و همچنین پلتفرمهای Vertex AI و AI Studio گوگل در دسترس توسعهدهندگان قرار گرفته است. نکته مهم اینجاست که قیمتگذاری آن مشابه با نسخه قبلی Gemini 2.5 Pro است که عملاً جایگزین آن میشود. علاوه بر این، کاربران عادی نیز میتوانند بهبودهای این مدل را در اپلیکیشن چتبات جمینای گوگل، هم در نسخه وب و هم در دستگاههای موبایل تجربه کنند.
عرضه این مدل پیش از کنفرانس I/O گوگل (که دلیل نامگذاری “I/O edition” نیز همین است) انجام شده است. انتظار میرود گوگل در این کنفرانس مجموعهای از مدلهای جدید، ابزارها و پلتفرمهای مبتنی بر هوش مصنوعی را معرفی کند. گوگل در رقابت شدید و بیرحمانه حوزه هوش مصنوعی، برای جلب توجه و سهم بازار با رقبای قدرتمندی نظیر OpenAI و xAI که در آستانه عرضه مدلهای بسیار توانمند هستند، به سختی در حال رقابت است و این بهروزرسانی را میتوان گامی در جهت تقویت موقعیت آن دانست.
یکی از تمرکزهای اصلی گوگل در این نسخه جدید، بهبود قابلیتهای مدل برای توسعهدهندگان بوده است. Gemini 2.5 Pro I/O edition در وظایف مرتبط با کدنویسی و ساخت اپلیکیشنهای تعاملی وب “بهطور قابل توجهی” بهبود یافته است. گوگل اعلام کرده است که این مدل در کارهایی مانند تغییر و تحول کد (Code Transformation) – یعنی اصلاح بخشی از کد برای دستیابی به هدفی خاص – و همچنین ویرایش کد، عملکرد بهتری دارد. این پیشرفتها به خصوص برای توسعهدهندگانی که از مدلهای هوش مصنوعی برای تسریع فرآیندهای توسعه نرمافزار استفاده میکنند، بسیار حیاتی است.
گوگل در پست وبلاگی خود اشاره کرده است که Gemini 2.5 Pro Preview (I/O edition) در جدول ردهبندی WebDev Arena، که معیاری برای سنجش توانایی مدل در ایجاد اپلیکیشنهای وب از نظر زیباییشناسی و عملکردی است، پیشتاز است. علاوه بر این، این مدل در زمینه فهم ویدئو (Video Understanding) نیز به عملکردی در سطح پیشرفته دست یافته و در یکی از بنچمارکهای محبوب، VideoMME، امتیاز ۸۴.۸٪ را کسب کرده است که نشاندهنده توانایی چشمگیر آن در تحلیل و درک محتوای بصری متحرک است. این قابلیت فهم پیشرفته ویدئو میتواند در کاربردهای متنوعی از تحلیل دادههای ویدئویی گرفته تا تولید خودکار زیرنویس و خلاصهسازی محتوای ویدئویی مورد استفاده قرار گیرد و پتانسیلهای جدیدی را برای توسعهدهندگان فراهم میآورد.
گوگل در ادامه توضیح میدهد: “برای توسعهدهندگانی که از قبل از Gemini 2.5 Pro استفاده میکردند، این نسخه جدید نه تنها عملکرد کدنویسی را بهبود میبخشد، بلکه به بازخوردهای کلیدی توسعهدهندگان از جمله کاهش خطاها در فراخوانی توابع (Function Calling) و بهبود نرخ فعالسازی توابع پاسخ میدهد.” قابلیت Function Calling به مدلهای هوش مصنوعی اجازه میدهد تا با ابزارها و سرویسهای خارجی تعامل داشته باشند و اقدامات مشخصی را بر اساس دستورات کاربر انجام دهند، که بهبود دقت و قابلیت اطمینان آن برای ساختن اپلیکیشنهای پیچیدهتر مبتنی بر هوش مصنوعی ضروری است. به گفته گوگل، مدل جدید “بهطور پیشفرض سلیقه واقعی برای توسعه وب زیباییشناختی دارد در حالی که قابلیت هدایتپذیری آن حفظ شده است.”