گوگل روز دوشنبه از سه بهروزرسانی مهم برای محصولات مبتنی بر هوش مصنوعی خود رونمایی کرد که مهمترین آنها، افزودن قابلیت پردازش فایلهای صوتی به اپلیکیشن جمینای (Gemini) است. علاوه بر این، هوش مصنوعی در جستجوی گوگل اکنون از پنج زبان جدید پشتیبانی میکند و ابزار NotebookLM نیز میتواند گزارشهایی در قالبهای متنوع مانند پست وبلاگ، راهنمای مطالعه و آزمون تولید کند.
جاش وودوارد، معاون ارشد آزمایشگاههای گوگل و جمینای، در پستی در شبکه اجتماعی ایکس (توییتر سابق) اعلام کرد که سازگاری با فایلهای صوتی، «درخواست شماره یک» کاربران از اپلیکیشن جمینای بوده است. اکنون کاربران میتوانند فایلهای صوتی خود را مستقیماً در این اپلیکیشن بارگذاری کرده و از جمینای بخواهند آنها را خلاصه، تحلیل یا اطلاعات خاصی را از آنها استخراج کند.
جزئیات این قابلیت برای سطوح مختلف کاربری به شرح زیر است:
- کاربران رایگان: میتوانند فایلهای صوتی با حداکثر طول ۱۰ دقیقه را آپلود کنند و روزانه ۵ پرامپت رایگان برای پردازش آنها در اختیار دارند.
- مشترکین AI Pro یا AI Ultra: میتوانند فایلهای صوتی با طول حداکثر ۳ ساعت را بارگذاری کنند.
در تمامی نسخهها، هر پرامپت میتواند تا ۱۰ فایل با فرمتهای مختلف (حتی در قالب یک فایل ZIP) را شامل شود.
افزوده شدن قابلیت تحلیل صوت، جمینای را به ابزاری بسیار قدرتمندتر برای دانشجویان، محققان، روزنامهنگاران و تولیدکنندگان محتوا تبدیل میکند. برای مثال، یک دانشجو میتواند صدای ضبطشده یک سخنرانی طولانی را آپلود کرده و خلاصهای از نکات کلیدی آن را دریافت کند. یک روزنامهنگار میتواند مصاحبهای را بارگذاری و از جمینای بخواهد آن را به متن تبدیل کرده و نقلقولهای مهم را استخراج کند. این ویژگی همچنین جمینای را در رقابت مستقیم با رقبایی مانند ChatGPT-4o از OpenAI و Claude 3 از Anthropic قرار میدهد که پیش از این قابلیتهای پیشرفتهای در زمینه پردازش فایلهای چندرسانهای ارائه کرده بودند. این اقدام گوگل نشاندهنده استراتژی این شرکت برای تبدیل جمینای به یک دستیار هوش مصنوعی جامع است که میتواند با انواع مختلف دادهها کار کند و صرفاً یک چتبات متنی نباشد.
گسترش زبانها در جستجوی گوگل و تحول NotebookLM
در کنار این قابلیت، «حالت هوش مصنوعی» در جستجوی گوگل (Google Search AI Mode) با پشتیبانی از پنج زبان جدید گسترش یافته است: هندی، اندونزیایی، ژاپنی، کرهای و پرتغالی برزیلی. به گفته گوگل، این پیشرفت به لطف ادغام مدل زبانی پیشرفته Gemini 2.5 با موتور جستجو ممکن شده است و به کاربران بیشتری اجازه میدهد تا سوالات پیچیده خود را به زبان مادری خود بپرسند و وب را عمیقتر کاوش کنند.
ابزار دیگر گوگل، NotebookLM که یک دستیار تحقیق مبتنی بر هوش مصنوعی است، نیز یک بهروزرسانی مهم دریافت کرده است. این ابزار اکنون میتواند بر اساس اسناد، فایلها و سایر رسانههای بارگذاریشده توسط کاربر، گزارشهایی با سبکهای جدید در بیش از ۸۰ زبان تولید کند. جالب است که NotebookLM پیش از این نیز قابلیت پردازش صوت را داشت، اما اکنون تمرکز بر روی فرمتهای خروجی است.
فرمتهای استاندارد گزارش شامل راهنمای مطالعه، اسناد توجیهی و پستهای وبلاگ میشود. همچنین قابلیت ایجاد فلشکارت و آزمون (کوئیز) نیز به این ابزار اضافه شده است. کاربران میتوانند ساختار، لحن و سبک گزارش تولیدی را مطابق با نیاز خود شخصیسازی کنند. طبق اعلام گوگل، این ویژگی «باید تا پایان هفته جاری بهطور کامل» در دسترس تمام کاربران قرار گیرد.
این موج از بهروزرسانیها، بخشی از استراتژی تهاجمی گوگل در ماههای اخیر برای تزریق هوش مصنوعی به تمام محصولاتش است. در ماه آگوست، جمینای قابلیت بهخاطر سپردن جزئیات و ترجیحات کاربر از مکالمات قبلی را دریافت کرد و کاربران رایگان به ابزار تولید ویدیوی Vids در Workspace دسترسی پیدا کردند. در ماه سپتامبر نیز، اپلیکیشن Photos با ارتقا به مدل Veo 3، به کاربران رایگان اجازه داد تا از تصاویر ثابت خود ویدیوهای ۴ ثانیهای بیصدا بسازند.