در این مقاله Grok، هوش مصنوعی آزمایشگاه xAI ایلان ماسک، را با ChatGPT شرکت OpenAI را با یکدیگر مقایسه کردیم و میخواهیم به سؤال پاسخ دهیم که کدامیک بهتر از دیگری عمل میکند. با ما همراه باشید.
Grok در مدت زمان بسیار کوتاهی راه درازی را پیموده است و از یک قابلیت «دم دستی» در پلتفرم رسانههای اجتماعی ایکس به چیزی شبیه به ChatGPT، کلود و جمنای گوگل تبدیل شده است.
Grok که توسط xAI، آزمایشگاه هوش مصنوعی متعلق به ایلان ماسک ساخته شده است، کم کم از محدودیتهای پلتفرم رسانه اجتماعی X در حال خارج شدن است و این شرکت یک برنامه و وبسایت مستقل برای آن راهاندازی کرده است. با توجه به اهمیت و قابلیت روزافزون هوش مصنوعی و Grok، تصمیم گرفتیم که مقایسهای میان آن و ChatGPT انجام دهیم.
این آخرین مورد از یک سری چالشهای رودررو بین مدلهای پیشرو هوش مصنوعی است که ChatGPT تاکنون برنده همه آنها شده است.
ایجاد دستورات و فرمانها
هدف این آزمون مقایسه مستقیم و مدل به مدل است. Grok و ChatGPT هر دو به دادههای زنده دسترسی دارند اما برای این کار، من همه چیز را در مورد قابلیتهای مدل AI اصلی، تولید تصویر با هوش مصنوعی و قابلیتهای بصری AI محدود نگه داشتهام.
دستورات نیز شامل کدنویسی، نوشتن خلاقانه، حل مسئله و برنامهریزی پیشرفته هستند. از آنجایی که هر دو به تولید تصویر دسترسی دارند، به جای اینکه برای تست تولید تصویر از آنها بخواهم، درخواستی برای Midjourney، Ideogram یا موارد مشابه ارائه کنند، از یک دستور مستقیم استفاده میکنم.
1. تولید تصویر
ابتدا، من از هر یک از مدلهای Grok و ChatGPT خواستم که تصویری از یک دفتر خانگی ایجاد کنند اما عناصر خاصی را در دستوری که باید شامل شود اضافه کردهام. هرچه به عناصر درخواستی و موقعیتیابی نزدیکتر شویم، عملکرد بهتری را شاهد خواهیم بود.
دستور از این قرار بود: [به انگلیسی] “تصویری از یک چیدمان مینیمالیستی دفتر کار خانگی با این عناصر خاص ایجاد کنید: یک مانیتور ۳۴ اینچی فوق عریض نصب شده بر روی یک دیوار سفید، یک صندلی ارگونومیک به رنگ سبز مریم گلی، یک میز ایستاده بلوط روشن، سه گیاه گلدانی آویزان و یک مک بوک پرو به رنگ خاکستری، فضای اتاق باید پنجرههای بزرگی داشته باشد که نور طبیعی را وارد اتاق کند، از سمت چپ، با پرده های سفید شفاف، با حضور یک گربه ایرانی خاکستری است که روی یک کوسن گرد زیر میز میخوابد.”
در حالی که هر دو تصویر خوب به نظر میرسند و Grok بیشتر شبیه یک عکس واقعی است (مثلاً با نشان دادن کابلها)، تصویر ChatGPT بهتر با درخواست مطابقت دارد.
من چندان طرفدار تصاویر تولید شده با مدل DALL-E 3 نیستم که توسط ChatGPT استفاده میشود؛ زیرا این مدل چیزها را بیش از حد صیقلی و آشکارا مصنوعی میسازد. اما این در مورد Grok صدق نمیکند و تصاویر آن بسیار طبیعیتر است. هر چند شاید نتوانست دقیقاً از دستور پیروی کند اما حداقل تصاویر بسیار واقعگرایانه شده است.
- برنده: ChatGPT برای تطبیق بهتر درخواست
2. تجزیه و تحلیل تصویر
من یک تصویر شگفتانگیز از مأموریت آپولو ۱۵ در وبسایت ناسا پیدا کردم و آن را همراه با دستور زیر به هر دو مدل دادم تا نحوه عملکرد بصری این دو هوش مصنوعی را آزمایش کنم.
آن مدلی که بیشترین جزئیات را بیان کند، تجهیزات را بدون فرضیات و تخیل توصیف کند و مقیاس و چشم اندازها را به دقت تشخیص دهد، برنده نهایی خواهد بود.
دستور به این صورت بود: [به انگلیسی] “این عکس را با دقت مشاهده کن. آنچه را که میتوانی ببینی با جزئیات، با توجه ویژه به تجهیزات، محیط و عناصر انسانی توصیف کن. در مورد هدف دنبال شده در این تصویر و شرایطی که این عکس در آن گرفته شده است، چه چیزی میتوانی استنتاج کنی؟”
هر دو مدل در این بخش کار خود را به خوبی به انجام رساندند، اگرچه هیچ کدام از آنها حتی با وجود نشانههایی در سوال بعدی که از آنها پرسیده شد، باز هم نتوانستند مأموریت آپولو را شناسایی کنند. با این حال، Grok با مشاهدات خاصتر در مورد تجهیزات و فعالیتهای فضانورد، تجزیه و تحلیل جامع و دقیقتری از تصویر ارائه داد.
Grok همچنین درک بهتری از جنبههای فنی اکتشاف فضا، مانند استفاده از عایق حرارتی نشان داد.
- برنده: Grok برای تجزیه و تحلیل جامعتر تصویر
3. چالش کدنویسی
ChatGPT به عنوان یک مدل کدنویسی خوب تثبیت شده است، Grok هنوز باید خود را ثابت کند. در این بخش من به دنبال یک برنامه مفید Pomodoro هستم که یک تایمر بهرهوری ساده است و قضاوت اصلی من بر اساس طراحی رابط، استفاده از کتابخانهها و نظرات خواهد بود.
دستور: [به انگلیسی] “یک تایمر Python Pomodoro با رابط کاربری گرافیکی ایجاد کن که شامل: تایمر ۲۵ دقیقهای کاری، تایمر ۵ دقیقهای استراحت، رابط مدرن تمیز با دکمههای شروع/مکث/تنظیم مجدد، شمارش معکوس بصری دایرهای، و اعلانها و ناتیفیکیشنهای سیستمی است. فقط از پایتون استاندارد استفاده کنید. کد باید بدون تغییر و اصلاحیه خاصی اجرا شود.”
رابط کاربری برنامه ChatGPT تقریباً به خوبی رابط کاربری Grok نبود، بدون رنگ بوده و از عناصر اولیه استفاده میکرد. همچنین برای نمایش کلمات روی دکمهها مشکل داشت اما بسیار کامل بود. به راحتی میتوانم تایمر را شروع، مکث و ریست کنم.
برنامه Grok رابط کاربری بهتری داشت اما یک دکمه داشت. Grok تعامل بهتری داشت و به همین دلیل کار با آن راحت بود اما از آنجایی که عملکرد کاملی را ارائه نمیداد، نمیتوانم آن را به عنوان برنده انتخاب کنم.
- برنده: ChatGPT برای یک برنامه کاملتر
4. نوشتن خلاقانه
توانایی نوشتن خلاقانه متن یک مهارت ضروری برای یک چتبات است. به هر حال باید دلیلی باشد که اخیراً تعداد زیادی از دانشآموزان دبیرستانی در انشا نمره بالا میگیرند! در اینجا، ما به دنبال توسعه شخصیت، نوشتن دیالوگ، ساختار و عناصر خاصی هستیم که در پرسش از مدل هوش مصنوعی مشخص شده است. همچنین باید نوشته آنها کمتر از ۵۰۰ کلمه داشته باشد.
درخواست: [به انگلیسی] “داستانی دلچسب درباره دو نفر بنویسید که در صف انتظار عرضه یک محصول جدید یکدیگر را ملاقات میکنند. داستان باید شامل موارد زیر باشد: جزئیات خاصی در مورد محصولی که منتظر آن هستند، حداقل سه تعامل بین آنها قبل از باز شدن در فروشگاه، ارتباط شگفتانگیزی که آنها کشف کردند و حرکت سریع به یک سال بعد این واقعه. کل نوشته را زیر ۵۰۰ کلمه نگه دارید.”
در حالی که هر دو مدل داستان خوبی ساختند، من متوجه شدم که نسخه ChatGPT در مقایسه با Grok، بهتر میان تمام عناصر مورد نیاز ذکر شده در درخواست مورد نظر تعادل برقرار کرده است. این کار را در حالی انجام میدهد که روایتی با طنین عاطفیتر با رشد شخصیت قویتر و دیالوگ طبیعیتر ایجاد میکند.
- برنده: ChatGPT برای یک داستان متعادلتر
5. حل مسئله
برای چالش بعدی، من Grok و ChatGPT را بر روی مهارتهای تفکر منطقی، دانش فنی و توانایی توضیح ساده مسائل پیچیده مقایسه کردم. برنده پاسخی ساختار یافته و توضیحات واضح خواهد داشت و در عین حال سطح تخصص علمی کاربر را نیز در نظر میگیرد.
درخواست: [به انگلیسی] “سیستم هوشمند خانه یک خانواده در طول یک مهمانی مهم شام خراب میشود. چراغها مدام رنگ عوض میکنند، ترموستات در نوسان است و بلندگوهای هوشمند موسیقی تصادفی شروع به پخش میکنند. یک راهنمای عیب یابی سیستماتیک ایجاد کنید که علل و راه حلهای احتمالی را با در نظر گرفتن کاربر فنیکار و غیر فنی مشخص کند.”
در حالی که هر دو راهنمای ارائه شده مفید هستند، متوجه شدم که رویکرد Grok مختصر، متمرکز و کاربرپسندتر است. این مورد مخصوصاً برای کاربران غیر فنی کاربردی است که در شرایط استرس زا به راه حلهای سریع و آسان نیاز دارند.
- برنده: Grok برای راهنمایی متمرکزتر و کاربر پسندتر
6. برنامهریزی
استفاده از هوش مصنوعی برای برنامهریزی یک پروژه بزرگ در ماههای اخیر به لطف قابلیت زمینه شخصی رو به رشد از رباتهای چت، عملیتر شده است. زمینه شخصی در واقع مقدار اطلاعاتی است که مدل هوش مصنوعی از یک کاربر خاص نگهداری میکند (اینکه مثلاً چه کاره هستید؟ خانواده شما چند عضو دارد و رابطه شما با دیگران چگونه است). همچنین این قابلیت به داشتن امکان جستجوی زنده در وب نیز کمک میکند. برای این آزمون، من به دنبال آن هستم تا به عنوان مثال برای سفر به توکیو برنامهریزی کنم و جزئیات خاصی را در آن لحاظ کنم.
درخواست: [به انگلیسی] “یک سفر ۳ روزه به توکیو را با تمرکز بر جاذبههای فناوری برنامهریزی کنید که شامل؛ مناطق خاص برای بازدید (بازدید از Akihabara اجباری است)، دو هتل پیشنهادی با قیمتهایی در بودجههای مختلف، حمل و نقل بین مکانها، توصیههای غذایی شامل حداقل یک رستوران رباتیک، و زمانبندی برای هر فعالیت باید به دلار و ین درج شود.”
برنامه سفر Grok در مقایسه با ChatGPT متمرکزتر، واقع بینانه و دقیقتر است، با تفکیک بودجه جامع و توصیه های خاص. همچنین متوجه شدم که با توجه به جاذبههای فناوری، با درخواست من هماهنگتر است.
- برنده: Grok برای تفکیک بهتر بودجه
7. آموزش
و در نهایت آموزش. هوش مصنوعی ابزاری عالی برای توضیح ایدههای پیچیده به روشی ساده است. گاهی اوقات این یک موضوع بسیار پیچیده مانند محاسبات کوانتومی است، گاهی اوقات میتواند چیزی سادهتر باشد اما برای یک مخاطب خاص طراحی شده است. در این آزمون اما توضیح ابرها برای کودکان 10 ساله است.
من بیشتر به این نگاه میکنم که چگونه به خوبی تشکیل ابر را به روشی مناسب برای سن پایین توضیح میدهد و چندان توضیح جزئیات واقعگرایانه ایجا مطرح نیست، اگرچه توضیحات اشتباه باشد نیز شکست میخورد.
درخواست: [به انگلیسی] “توضیح بده که چگونه ابرها شکل میگیرند و چرا باران میبارد، به نحوی که یک کودک ۱۰ ساله کنجکاو را درگیر خود نگه دارد. حداقل دو آزمایش ساده را که آنها در خانه امتحان کنند تا مفاهیم را نشان دهند مثال بزن.”
توضیح Grok باعث میشود داستانسرایی جذابتر و آزمایشهای بهتری انجام شود. پاسخ آن احتمالاً برای تسخیر تخیل کودک بهتر عمل میکند.
- برنده: Grok برای تصاویر زندهتر و داستانسرایی
ChatGPT در مقابل Grok: برنده رقابت
ChatGPT | Grok | |
تولید تصویر | 🏆 | |
تجزیه و تحلیل تصویر | 🏆 | |
چالش کدنویسی | 🏆 | |
نوشتن خلاقانه | 🏆 | |
حل مسئله | 🏆 | |
برنامهریزی | 🏆 | |
آموزش | 🏆 | |
مجموع | ۳ | ۴ |
بر اساس مقالهای از رسانه اینترنتی Tom’sGuide، این نزدیکترین آزمایشی بود که تا به امروز انجام دادهایم و یک نبرد بسیار نزدیک بود و صادقانه بگویم من از خروجی این آزمایش شوکه شدم. میدانم که Grok در حال پیشرفت و بهبود است شاید انتظار داشتید ChatGPT این رقابت را به راحتی و با اختلاف برنده شود که اشتباه میکردید.
Grok خلاقتر است، کد آن با درک بهتری از UI (حتی اگر در آن آزمون برنده نشده باشد) و به طور کلی بهتر ارائه میشود. سبک نوشتار آن جذابتر و کمتر رسمی است.
این مسابقات نیز همه با استفاده از Grok 2 و GPT-4o صورت گرفته است. من گمان میکنم که اگر از o1 استفاده میکردم همه چیز به نفع ChatGPT پیش میرفت، اما مقایسه منصفانهای نبود و Grok شانسی برای مقابله نداشت. همچنین، Grok 3 در راه است و ممکن است قبل از GPT-5 منتشر شود.