امکان بارگذاری فایل صوتی در هوش مصنوعی گوگل فراهم شد

گوگل روز دوشنبه از سه به‌روزرسانی مهم برای محصولات مبتنی بر هوش مصنوعی خود رونمایی کرد که مهم‌ترین آن‌ها، افزودن قابلیت پردازش فایل‌های صوتی به اپلیکیشن جمینای (Gemini) است. علاوه‌ بر این، هوش مصنوعی در جستجوی گوگل اکنون از پنج زبان جدید پشتیبانی می‌کند و ابزار NotebookLM نیز می‌تواند گزارش‌هایی در قالب‌های متنوع مانند پست وبلاگ، راهنمای مطالعه و آزمون تولید کند.

جاش وودوارد، معاون ارشد آزمایشگاه‌های گوگل و جمینای، در پستی در شبکه اجتماعی ایکس (توییتر سابق) اعلام کرد که سازگاری با فایل‌های صوتی، «درخواست شماره یک» کاربران از اپلیکیشن جمینای بوده است. اکنون کاربران می‌توانند فایل‌های صوتی خود را مستقیماً در این اپلیکیشن بارگذاری کرده و از جمینای بخواهند آن‌ها را خلاصه، تحلیل یا اطلاعات خاصی را از آن‌ها استخراج کند.

جزئیات این قابلیت برای سطوح مختلف کاربری به شرح زیر است:

کاربران رایگان: می‌توانند فایل‌های صوتی با حداکثر طول ۱۰ دقیقه را آپلود کنند و روزانه ۵ پرامپت رایگان برای پردازش آن‌ها در اختیار دارند.
مشترکین AI Pro یا AI Ultra: می‌توانند فایل‌های صوتی با طول حداکثر ۳ ساعت را بارگذاری کنند.

در تمامی نسخه‌ها، هر پرامپت می‌تواند تا ۱۰ فایل با فرمت‌های مختلف (حتی در قالب یک فایل ZIP) را شامل شود.

افزوده شدن قابلیت تحلیل صوت، جمینای را به ابزاری بسیار قدرتمندتر برای دانشجویان، محققان، روزنامه‌نگاران و تولیدکنندگان محتوا تبدیل می‌کند. برای مثال، یک دانشجو می‌تواند صدای ضبط‌شده یک سخنرانی طولانی را آپلود کرده و خلاصه‌ای از نکات کلیدی آن را دریافت کند. یک روزنامه‌نگار می‌تواند مصاحبه‌ای را بارگذاری و از جمینای بخواهد آن را به متن تبدیل کرده و نقل‌قول‌های مهم را استخراج کند. این ویژگی همچنین جمینای را در رقابت مستقیم با رقبایی مانند ChatGPT-4o از OpenAI و Claude 3 از Anthropic قرار می‌دهد که پیش از این قابلیت‌های پیشرفته‌ای در زمینه پردازش فایل‌های چندرسانه‌ای ارائه کرده بودند. این اقدام گوگل نشان‌دهنده استراتژی این شرکت برای تبدیل جمینای به یک دستیار هوش مصنوعی جامع است که می‌تواند با انواع مختلف داده‌ها کار کند و صرفاً یک چت‌بات متنی نباشد.

گسترش زبان‌ها در جستجوی گوگل و تحول NotebookLM

در کنار این قابلیت، «حالت هوش مصنوعی» در جستجوی گوگل (Google Search AI Mode) با پشتیبانی از پنج زبان جدید گسترش یافته است: هندی، اندونزیایی، ژاپنی، کره‌ای و پرتغالی برزیلی. به گفته گوگل، این پیشرفت به لطف ادغام مدل زبانی پیشرفته Gemini 2.5 با موتور جستجو ممکن شده است و به کاربران بیشتری اجازه می‌دهد تا سوالات پیچیده خود را به زبان مادری خود بپرسند و وب را عمیق‌تر کاوش کنند.

ابزار دیگر گوگل، NotebookLM که یک دستیار تحقیق مبتنی بر هوش مصنوعی است، نیز یک به‌روزرسانی مهم دریافت کرده است. این ابزار اکنون می‌تواند بر اساس اسناد، فایل‌ها و سایر رسانه‌های بارگذاری‌شده توسط کاربر، گزارش‌هایی با سبک‌های جدید در بیش از ۸۰ زبان تولید کند. جالب است که NotebookLM پیش از این نیز قابلیت پردازش صوت را داشت، اما اکنون تمرکز بر روی فرمت‌های خروجی است.

فرمت‌های استاندارد گزارش شامل راهنمای مطالعه، اسناد توجیهی و پست‌های وبلاگ می‌شود. همچنین قابلیت ایجاد فلش‌کارت و آزمون (کوئیز) نیز به این ابزار اضافه شده است. کاربران می‌توانند ساختار، لحن و سبک گزارش تولیدی را مطابق با نیاز خود شخصی‌سازی کنند. طبق اعلام گوگل، این ویژگی «باید تا پایان هفته جاری به‌طور کامل» در دسترس تمام کاربران قرار گیرد.

این موج از به‌روزرسانی‌ها، بخشی از استراتژی تهاجمی گوگل در ماه‌های اخیر برای تزریق هوش مصنوعی به تمام محصولاتش است. در ماه آگوست، جمینای قابلیت به‌خاطر سپردن جزئیات و ترجیحات کاربر از مکالمات قبلی را دریافت کرد و کاربران رایگان به ابزار تولید ویدیوی Vids در Workspace دسترسی پیدا کردند. در ماه سپتامبر نیز، اپلیکیشن Photos با ارتقا به مدل Veo 3، به کاربران رایگان اجازه داد تا از تصاویر ثابت خود ویدیوهای ۴ ثانیه‌ای بی‌صدا بسازند.