دستیار صوتی هوش مصنوعی Bard (با نام انحصاری Assistant with Bard) دقیقاً همان چیزی است که منتظرش بودیم و با معرفی آن، فصل جدیدی در این حوزه فناوری در شرف آغاز است.
بر اساس مقالهای از AndroidPolice، همانطور که مرز میان فناوری و زندگی ما روز به روز در حال محو شدن است، دستیارهای دیجیتالی نقش مهمی در روزمرههای ما ایفا میکنند. برای بسیاری، گفتن یک «Hey Google» ساده، دستیاری را فعال میکند که آلارمها را تنظیم میکند، تماس برقرار میکند یا تغییرات آب و هوایی را ارائه میکند. در هفت سال گذشته، Google Assistant به بخش جدایی ناپذیری از زندگی روزمره افراد بیشماری تبدیل شده است و به شکل یک مکالمه انسانگونه به آنها در انجام وظایف مختلف کمک میکند.
ما در دورهای زندگی میکنیم که پیشرفت هوش مصنوعی تنها با گذر روزها و ماهها اندازه گیری نمیشود؛ بلکه رشد آن در سالهای اخیر از بسیاری از دهههای گذشته فراتر رفته است. در خط مقدم این انقلاب هوش مصنوعی، ChatGPT OpenAI و Bard گوگل، دو فناوری هوش مصنوعی قدرتمند هستند که آینده تعاملات انسان و ماشین را بازتعریف میکنند.
تاریخ 4 اکتبر نقطه عطف مهمی در این مسیر بود. روزی که در رویداد Made by Google مفهوم جدیدی از دستیارهای دیجیتالی رونمایی شد و آن “دستیار همراه با Bard” بود. این نوآوری جدید قدرت Google Assistant را در کنار ویژگیهای نوین هوش مصنوعی Bard میآورد و هدف آن کنار هم قرار دادن دستیار دیجیتالی و ابزار هوش مصنوعی است. این سیستم برای درک، انطباق، و رسیدگی به وظایف شخصی طراحی شده است، چه برنامهریزی برای سفر باشد، چه غربال کردن ایمیلها، یا تهیه پیشنویس فهرست مواد غذای و تقلید از مهارت یک دستیار انسانی واقعی.
دیگر این ابزار فقط یک دستیار دیجیتالی به معنای سنتی خودش نیست. Assistant with Bard قرار است تجربهای را ارائه دهد که فراتر از صوت باشد. کاربران قادر خواهند بود از طریق متن، صدا و حتی تصاویر تعامل داشته باشند و آنچه که در مورد دستیار همراه Bard پیشگام است، توانایی آن برای اِعمال دستورات کاربر بوده و از این طریق تجربه دیجیتالی را بیشتر میکند. در جریان رونمایی از Google Pixel 8 و Pixel 8 Pro، ادغام Bard Google در اکوسیستم Assistant تأیید شد که البته نشاندهنده یک جهش انقلابی برای دستیارهای صوتی خواهد بود.
Assistant with Bard همچنین به طور یکپارچه با سرویسهای اصلی Google مانند Gmail و Docs ادغام میشود و با کمک به کاربران در مدیریت مؤثرتر وظایفشان، بهرهوری را افزایش میدهد. به عنوان مثال، یکی از ویژگیهای برجسته آن، کاربر را قادر میسازد تا در مورد خلاصهای از ایمیلهای خوانده نشده در صندوق ورودی جیمیلشان بپرسند. میتواند به این ایمیلها دسترسی داشته باشد و آنها را تجزیه و تحلیل کند و خلاصههای مختصر و مرتبط را ارائه کند. میتواند به ایمیلها دسترسی داشته باشد و آنها را تجزیه و تحلیل کند و خلاصههایی مختصر و مرتبط را ارائه کند. فراتر از دادههای متنی، توانایی تفسیر محتوای بصری مانند عکسها را نیز دارد. کاربران میتوانند برای تصاویر رسانههای اجتماعی خود زیرنویسهایی داشته باشند یا از سایر پرسشهای دیجیتالی کمک بگیرند. نمونهای از این مهارت، ویژگی نوآورانه همپوشانی مکالمهای (اجرای همزمان با سایر برنامهها) در دستگاههای اندرویدی است. پس از گرفتن عکس، کاربران میتوانند با استفاده از تصویر بهعنوان نقطهی مرجع، Assistant with Bard را اجرا کرده و از آن درخواست کنند تا آن را در شبکههای اجتماعی پست کرده و برای آن کپشن درست کند.
در بسیاری از سناریوهای تجاری، کاربران به بازیابی اطلاعاتی خاص از بانک گسترده اسناد نیاز دارند، خواه فایلهای PDF، پستهای وبلاگ یا سایر پلتفرمها مانند Notion باشد. با وجود اینکه این به جستجوها به طور سنتی زمانبر خواهد بود و به بررسی تک به تک مطالب نیاز دارد، پیشرفتها در LLM یک راهحل کارآمد را ارائه میدهد. کاربران اکنون میتوانند به سادگی سوالات مربوط به محتوای اسناد را مطرح کنند و انتظار پاسخهای دقیقی را نیز داشته باشند. مثالها عبارتند از پرسوجو از دادههای ساختاریافته (مانند پایگاههای داده SQL) و حتی جستجو در کد (مثلاً پایتون) برای استخراج بینشها و مواردی خاص.
در میان دیگر پیشگامان هوش مصنوعی، Snowflake، با Document AI خود وارد این حوزه شده است، و یک LLM از پیش آموزش دیده را ارائه میدهد که حتی قادر است محتوای دستنویس در PDFها را نیز تجزیه و تحلیل کند و به کاربران این امکان را میدهد که با استفاده از زبان گفتاری آنها را جستجو کنند. چیزی که Document AI را متمایز میکند، قابلیت آن در اجرای دستورات است بدون آنکه کاربر حتی تخصصی در هوش مصنوعی یا ML داشته باشد؛ البته ادغام آن با اکوسیستم Snowflake نیز بسیار شبیه به نسخه گوگل است. کاربران میتوانند چکیدهها را جمعآوری کنند، درباره محتوای سند سؤال بپرسند (مانند جزئیات بازرسی)، و حتی خودشان این مدل زبانی را بر اساس بازخوردهایشان برای ارائه نتایج دقیقتر، آموزش دهند. این سیستم با سازوکارهای مختلف ادغام میشود و فرآیندهایی مثل بررسی و ارائه چکیده از فایلهای جدید را به سرانجام میرساند.
اما آنچه که بالواقع پیشگام و متحیرکننده است، حرکت از جستجو واژگانی که بر رابطه میان کلمات کلیدی رایج تأکید دارد، به رویکردی عصبیتر است. جستجوهای سنتی ممکن است ارتباط معنایی بین عباراتی مانند “USA” و “United States” را از دست بدهند. در عین حال، با ظهور جستجوهای عصبی که بر پیشرفتهای NLP و مدلهایی مانند GPT-3 تکیه دارد، این پیچیدگیهای معنایی بهتر از پیش و از طریق جاسازی جملات به تصویر کشیده میشوند. این جاگذاریها و نمایشهای بردار مانند اختصاری متنها، میتوانند برای محاسبه معیارهای شباهت استفاده شوند و کارایی جستجو را افزایش دهند.
پایگاههای اطلاعاتی برداری و جاسازیها بهعنوان یک تغییر مهم دیگر در استفاده از هوش مصنوعی برای مدیریت دادهها و جستجوی معنایی مشخص شدهاند. این سبک جستجو در هسته خود، شامل نمایش دادههای پیچیده و با ابعاد بالا مانند متن در فضایی با ابعاد پایینتر، قابل مدیریتتر و از طریق جاسازیها خواهد بود. LLMها این تبدیلات را تسهیل میکنند و ذخیره و بازیابی کارآمد این نمایشهای برداری را ممکن میسازند.
پیشرفتهای هوش مصنوعی و NLP در این چند سال اخیر، فرصتهای زیادی را برای دستیاران چت باز کرده است. یکی از مؤلفههای مهم و حیاتی که این پیشرفتها را ممکن میکند، قدرت جستجو است. همانطور که به پیچیدگیهای مربوط به سیستمهای چت هوش مصنوعی و کاربری آنها میپردازیم، آشکار میشود که قابلیت جستجوی کارآمد و دقیق ضروری است. ترکیب ChatGPT OpenAI با Elasticsearch میتواند یک مثال بسیار عالی باشد.
ChatGPT از شرکت OpenAI، مدلی مبتنی بر معماری پیشرو و متحولکننده GPT است که در تولید پاسخهای انسانمانند برتری دارد. با وجود آنکه ChatGPT در طراحی خود انقلابی است اما اثربخشی این مدل در دنیای واقعی هنگامی که با Elasticsearch ترکیب میشود، حتی بزرگتر و هیجانانگیزتر خواهد بود. این موتور جستجوی قدرتمند تضمین می کند که کاربران به اطلاعات مورد نیاز خود به سرعت و با دقت دسترسی دارند. همانطور که در این مقاله هم نشان داده شد، همکاری بین ChatGPT و Elasticsearch یک رابط پایتون را قادر میسازد تا پرس و جوهای کاربر، بازیابی دقیق اسناد و ظرافت مدل زبانی ChatGPT را در یک تجربه یکپارچه با هم ترکیب کند.
این ترکیب و ادغام بر این نکته تأکید دارد که کارایی دستیار چت هوش مصنوعی نه تنها با قابلیتهای تولید زبان بلکه به همان اندازه با دقت جستجوی آن تعیین میشود. توانایی غربال کردن مخزنهای اطلاعاتی گسترده و مشخص کردن دقیق دادهها یا اسناد مورد نظر، به طور قابل توجهی دقت و ارتباط پاسخهای هوش مصنوعی را افزایش میدهد.
تخصص بیبدیل گوگل در جستجو و حدس زدن قصد و نیت کاربر، آن را به عنوان یک مهره قدرتمند در تکامل دستیاران چت هوش مصنوعی برجسته میکند. میراث آنها به اصلاح الگوریتمهای جستجو محدود نمیشود، بلکه نفوذ قابل توجهی به سیستمهای چت هوش مصنوعی با پلتفرمهایی مانند Dialogflow داشته است. برای مثال، نسخه CX Dialogflow از عوامل هوش مصنوعی مولد استفاده میکند و به کسبوکارها اجازه میدهد تا محتوای خود را برای پاسخهای غنی از متن تلفیق کنند. ویژگیهای آن، از سازندگان جریان بصری گرفته تا پیادهسازیهای همهکانالی(omnichannel)، تعهد Google را به ایجاد دستیاران چت شهودیتر و گفتگو-محورتر نشان میدهد. بنابراین، با توجه به اهمیت اساسی جستجو در اکوسیستمهای چت هوش مصنوعی و سابقه اثبات شده گوگل با Dialogflow، میتوان با اطمینان نتیجه گرفت که گوگل در آیندهای قابل پیشبینی آماده ساخت پیشرفتهترین دستیار چت است.
با اندکی تأمل در مدلهای زبانی خانواده BERT گوگل و نیز ارتباط آن با راهاندازی هوش مصنوعی Bard، میتوان بینشهایی درباره پتانسیل گوگل در تولید و توسعه این دستیاران چت بهدست آورد. طراحی BERT که در درک متنی-زمینهای عالی است، درک عمیق گوگل از پویایی جستجو را شکل میدهد. با تجزیه و تحلیل کلمات در جملات از هر دو سمت چپ و راست، BERT میتواند هدف دقیق کاربر را رمزگشایی کند. این درک دقیق، زمانی که در یک سیستم چت هوش مصنوعی ادغام میشود، میتواند به معنای پاسخهایی باشد که نه تنها دقیقاند، بلکه عمیقاً با هدف کاربر همسو هستند و نشانهای از جستجوی برتر و گفتگوی دقیق را نشان خواهند داد.
با تکامل دنیای چت مبتنی بر هوش مصنوعی، همگرایی مدلهای پیشرفته NLP و جستجوی دقیق به طور فزایندهای حیاتی میشود. مشارکت OpenAI ChatGPT و Elasticsearch به زیبایی این همافزایی را به شیوهای فنی و دسترسی آسان به نمایش میگذارد. با این حال، همانطور که ما به پیشرو مینگریم، جهان نیز با نفسهای بند آمده منتظر است تا شاهد پتانسیل کامل یک دستیار چت با برتری جستجوی گوگل باشد. در صورت خلق چنین سیستمی، به خوبی درک ما از تعاملات مبتنی بر هوش مصنوعی را بازتعریف خواهد کرد.