Grok در مقابل ChatGPT | مقایسه دو مدل هوش مصنوعی با ۷ پرسش آزمایشی

در این مقاله Grok، هوش مصنوعی آزمایشگاه xAI ایلان ماسک، را با ChatGPT شرکت OpenAI را با یکدیگر مقایسه کردیم و می‌خواهیم به سؤال پاسخ دهیم که کدامیک بهتر از دیگری عمل می‌کند. با ما همراه باشید.

Grok در مدت زمان بسیار کوتاهی راه درازی را پیموده است و از یک قابلیت «دم دستی» در پلتفرم رسانه‌های اجتماعی ایکس به چیزی شبیه به ChatGPT، کلود و جمنای گوگل تبدیل شده است.

Grok که توسط xAI، آزمایشگاه هوش مصنوعی متعلق به ایلان ماسک ساخته شده است، کم کم از محدودیت‌های پلتفرم رسانه اجتماعی X در حال خارج شدن است و این شرکت یک برنامه و وبسایت مستقل برای آن راه‌اندازی کرده است. با توجه به اهمیت و قابلیت روزافزون هوش مصنوعی و Grok، تصمیم گرفتیم که مقایسه‌ای میان آن و ChatGPT انجام دهیم.

این آخرین مورد از یک سری چالش‌های رودررو بین مدل‌های پیشرو هوش مصنوعی است که ChatGPT تاکنون برنده همه آنها شده است.

ایجاد دستورات و فرمان‌ها

هدف این آزمون مقایسه مستقیم و مدل به مدل است. Grok و ChatGPT هر دو به داده‌های زنده دسترسی دارند اما برای این کار، من همه چیز را در مورد قابلیت‌های مدل AI اصلی، تولید تصویر با هوش مصنوعی و قابلیت‌های بصری AI محدود نگه داشته‌ام.

دستورات نیز شامل کدنویسی، نوشتن خلاقانه، حل مسئله و برنامه‌ریزی پیشرفته هستند. از آنجایی که هر دو به تولید تصویر دسترسی دارند، به جای اینکه برای تست تولید تصویر از آنها بخواهم، درخواستی برای Midjourney، Ideogram یا موارد مشابه ارائه کنند، از یک دستور مستقیم استفاده می‌کنم.

1. تولید تصویر

ابتدا، من از هر یک از مدل‌های Grok و ChatGPT خواستم که تصویری از یک دفتر خانگی ایجاد کنند اما عناصر خاصی را در دستوری که باید شامل شود اضافه کرده‌ام. هرچه به عناصر درخواستی و موقعیت‌یابی نزدیک‌تر شویم، عملکرد بهتری را شاهد خواهیم بود.

دستور از این قرار بود: [به انگلیسی] “تصویری از یک چیدمان مینیمالیستی دفتر کار خانگی با این عناصر خاص ایجاد کنید: یک مانیتور ۳۴ اینچی فوق عریض نصب شده بر روی یک دیوار سفید، یک صندلی ارگونومیک به رنگ سبز مریم گلی، یک میز ایستاده بلوط روشن، سه گیاه گلدانی آویزان و یک مک بوک پرو به رنگ خاکستری، فضای اتاق باید پنجره‌های بزرگی داشته باشد که نور طبیعی را وارد اتاق کند، از سمت چپ، با پرده های سفید شفاف، با حضور یک گربه ایرانی خاکستری است که روی یک کوسن گرد زیر میز می‌خوابد.”

در حالی که هر دو تصویر خوب به نظر می‌رسند و Grok بیشتر شبیه یک عکس واقعی است (مثلاً با نشان دادن کابل‌ها)، تصویر ChatGPT بهتر با درخواست مطابقت دارد.

من چندان طرفدار تصاویر تولید شده با مدل DALL-E 3 نیستم که توسط ChatGPT استفاده می‌شود؛ زیرا این مدل چیزها را بیش از حد صیقلی و آشکارا مصنوعی می‌سازد. اما این در مورد Grok صدق نمی‌کند و تصاویر آن بسیار طبیعی‌تر است. هر چند شاید نتوانست دقیقاً از دستور پیروی کند اما حداقل تصاویر بسیار واقع‌گرایانه شده است.

برنده: ChatGPT برای تطبیق بهتر درخواست

2. تجزیه و تحلیل تصویر

من یک تصویر شگفت‌انگیز از مأموریت آپولو ۱۵ در وب‌سایت ناسا پیدا کردم و آن را همراه با دستور زیر به هر دو مدل دادم تا نحوه عملکرد بصری این دو هوش مصنوعی را آزمایش کنم.

آن مدلی که بیشترین جزئیات را بیان کند، تجهیزات را بدون فرضیات و تخیل توصیف کند و مقیاس و چشم اندازها را به دقت تشخیص دهد، برنده نهایی خواهد بود.

دستور به این صورت بود: [به انگلیسی] “این عکس را با دقت مشاهده کن. آنچه را که می‌توانی ببینی با جزئیات، با توجه ویژه به تجهیزات، محیط و عناصر انسانی توصیف کن. در مورد هدف دنبال شده در این تصویر و شرایطی که این عکس در آن گرفته شده است، چه چیزی می‌توانی استنتاج کنی؟”

هر دو مدل در این بخش کار خود را به خوبی به انجام رساندند، اگرچه هیچ کدام از آنها حتی با وجود نشانه‌هایی در سوال بعدی که از آنها پرسیده شد، باز هم نتوانستند مأموریت آپولو را شناسایی کنند. با این حال، Grok با مشاهدات خاص‌تر در مورد تجهیزات و فعالیت‌های فضانورد، تجزیه و تحلیل جامع و دقیق‌تری از تصویر ارائه داد.

Grok همچنین درک بهتری از جنبه‌های فنی اکتشاف فضا، مانند استفاده از عایق حرارتی نشان داد.

برنده: Grok برای تجزیه و تحلیل جامع‌تر تصویر

3. چالش کدنویسی

ChatGPT به عنوان یک مدل کدنویسی خوب تثبیت شده است، Grok هنوز باید خود را ثابت کند. در این بخش من به دنبال یک برنامه مفید Pomodoro هستم که یک تایمر بهره‌وری ساده است و قضاوت اصلی من بر اساس طراحی رابط، استفاده از کتابخانه‌ها و نظرات خواهد بود.

دستور: [به انگلیسی] “یک تایمر Python Pomodoro با رابط کاربری گرافیکی ایجاد کن که شامل: تایمر ۲۵ دقیقه‌ای کاری، تایمر ۵ دقیقه‌ای استراحت، رابط مدرن تمیز با دکمه‌های شروع/مکث/تنظیم مجدد، شمارش معکوس بصری دایره‌ای، و اعلان‌ها و ناتیفیکیشن‌های سیستمی است. فقط از پایتون استاندارد استفاده کنید. کد باید بدون تغییر و اصلاحیه خاصی اجرا شود.”

رابط کاربری برنامه ChatGPT تقریباً به خوبی رابط کاربری Grok نبود، بدون رنگ بوده و از عناصر اولیه استفاده می‌کرد. همچنین برای نمایش کلمات روی دکمه‌ها مشکل داشت اما بسیار کامل بود. به راحتی می‌توانم تایمر را شروع، مکث و ریست کنم.

برنامه Grok رابط کاربری بهتری داشت اما یک دکمه داشت. Grok تعامل بهتری داشت و به همین دلیل کار با آن راحت بود اما از آنجایی که عملکرد کاملی را ارائه نمی‌داد، نمی‌توانم آن را به عنوان برنده انتخاب کنم.

برنده: ChatGPT برای یک برنامه کامل‌تر

4. نوشتن خلاقانه

توانایی نوشتن خلاقانه متن یک مهارت ضروری برای یک چت‌بات است. به هر حال باید دلیلی باشد که اخیراً تعداد زیادی از دانش‌آموزان دبیرستانی در انشا نمره بالا می‌گیرند! در اینجا، ما به دنبال توسعه شخصیت، نوشتن دیالوگ، ساختار و عناصر خاصی هستیم که در پرسش از مدل هوش مصنوعی مشخص شده است. همچنین باید نوشته آنها کمتر از ۵۰۰ کلمه داشته باشد.

درخواست: [به انگلیسی] “داستانی دلچسب درباره دو نفر بنویسید که در صف انتظار عرضه یک محصول جدید یکدیگر را ملاقات می‌کنند. داستان باید شامل موارد زیر باشد: جزئیات خاصی در مورد محصولی که منتظر آن هستند، حداقل سه تعامل بین آنها قبل از باز شدن در فروشگاه، ارتباط شگفت‌انگیزی که آن‌ها کشف کردند و حرکت سریع به یک سال بعد این واقعه. کل نوشته را زیر ۵۰۰ کلمه نگه دارید.”

در حالی که هر دو مدل داستان خوبی ساختند، من متوجه شدم که نسخه ChatGPT در مقایسه با Grok، بهتر میان تمام عناصر مورد نیاز ذکر شده در درخواست مورد نظر تعادل برقرار کرده است. این کار را در حالی انجام می‌دهد که روایتی با طنین عاطفی‌تر با رشد شخصیت قوی‌تر و دیالوگ طبیعی‌تر ایجاد می‌کند.

برنده: ChatGPT برای یک داستان متعادل‌تر

5. حل مسئله

برای چالش بعدی، من Grok و ChatGPT را بر روی مهارت‌های تفکر منطقی، دانش فنی و توانایی توضیح ساده مسائل پیچیده مقایسه کردم. برنده پاسخی ساختار یافته و توضیحات واضح خواهد داشت و در عین حال سطح تخصص علمی کاربر را نیز در نظر می‌گیرد.

درخواست: [به انگلیسی] “سیستم هوشمند خانه یک خانواده در طول یک مهمانی مهم شام خراب می‌شود. چراغ‌ها مدام رنگ عوض می‌کنند، ترموستات در نوسان است و بلندگوهای هوشمند موسیقی تصادفی شروع به پخش می‌کنند. یک راهنمای عیب یابی سیستماتیک ایجاد کنید که علل و راه حل‌های احتمالی را با در نظر گرفتن کاربر فنی‌کار و غیر فنی مشخص کند.”

در حالی که هر دو راهنمای ارائه شده مفید هستند، متوجه شدم که رویکرد Grok مختصر، متمرکز و کاربرپسندتر است. این مورد مخصوصاً برای کاربران غیر فنی کاربردی است که در شرایط استرس زا به راه حل‌های سریع و آسان نیاز دارند.

برنده: Grok برای راهنمایی متمرکزتر و کاربر پسندتر

6. برنامه‌ریزی

استفاده از هوش مصنوعی برای برنامه‌ریزی یک پروژه بزرگ در ماه‌های اخیر به لطف قابلیت زمینه‌‌‌ شخصی رو به رشد از ربات‌های چت، عملی‌تر شده است. زمینه شخصی در واقع مقدار اطلاعاتی است که مدل هوش مصنوعی از یک کاربر خاص نگهداری می‌کند (اینکه مثلاً چه کاره هستید؟ خانواده شما چند عضو دارد و رابطه شما با دیگران چگونه است). همچنین این قابلیت به داشتن امکان جستجوی زنده در وب نیز کمک می‌کند. برای این آزمون، من به دنبال آن هستم تا به عنوان مثال برای سفر به توکیو برنامه‌ریزی کنم و جزئیات خاصی را در آن لحاظ کنم.

درخواست: [به انگلیسی] “یک سفر ۳ روزه به توکیو را با تمرکز بر جاذبه‌های فناوری برنامه‌ریزی کنید که شامل؛ مناطق خاص برای بازدید (بازدید از Akihabara اجباری است)، دو هتل پیشنهادی با قیمت‌هایی در بودجه‌های مختلف، حمل و نقل بین مکان‌ها، توصیه‌های غذایی شامل حداقل یک رستوران رباتیک، و زمان‌بندی برای هر فعالیت باید به دلار و ین درج شود.”

برنامه سفر Grok در مقایسه با ChatGPT متمرکزتر، واقع بینانه و دقیق‌تر است، با تفکیک بودجه جامع و توصیه های خاص. همچنین متوجه شدم که با توجه به جاذبه‌های فناوری، با درخواست من هماهنگ‌تر است.

برنده: Grok برای تفکیک بهتر بودجه

7. آموزش

و در نهایت آموزش. هوش مصنوعی ابزاری عالی برای توضیح ایده‌های پیچیده به روشی ساده است. گاهی اوقات این یک موضوع بسیار پیچیده مانند محاسبات کوانتومی است، گاهی اوقات می‌تواند چیزی ساده‌تر باشد اما برای یک مخاطب خاص طراحی شده است. در این آزمون اما توضیح ابرها برای کودکان 10 ساله است.

من بیشتر به این نگاه می‌کنم که چگونه به خوبی تشکیل ابر را به روشی مناسب برای سن پایین توضیح می‌دهد و چندان توضیح جزئیات واقع‌گرایانه ایجا مطرح نیست، اگرچه توضیحات اشتباه باشد نیز شکست می‌خورد.

درخواست: [به انگلیسی] “توضیح بده که چگونه ابرها شکل می‌گیرند و چرا باران می‌بارد، به نحوی که یک کودک ۱۰ ساله کنجکاو را درگیر خود نگه دارد. حداقل دو آزمایش ساده را که آنها در خانه امتحان کنند تا مفاهیم را نشان دهند مثال بزن.”

توضیح Grok باعث می‌شود داستان‌سرایی جذاب‌تر و آزمایش‌های بهتری انجام شود. پاسخ آن احتمالاً برای تسخیر تخیل کودک بهتر عمل می‌کند.

برنده: Grok برای تصاویر زنده‌تر و داستان‌سرایی

ChatGPT در مقابل Grok: برنده رقابت

	ChatGPT	Grok
تولید تصویر	🏆
تجزیه و تحلیل تصویر		🏆
چالش کدنویسی	🏆
نوشتن خلاقانه	🏆
حل مسئله		🏆
برنامه‌ریزی		🏆
آموزش		🏆
مجموع	۳	۴

بر اساس مقاله‌ای از رسانه اینترنتی Tom’sGuide، این نزدیک‌ترین آزمایشی بود که تا به امروز انجام داده‌ایم و یک نبرد بسیار نزدیک بود و صادقانه بگویم من از خروجی این آزمایش شوکه شدم. می‌دانم که Grok در حال پیشرفت و بهبود است شاید انتظار داشتید ChatGPT این رقابت را به راحتی و با اختلاف برنده شود که اشتباه می‌کردید.

Grok خلاق‌تر است، کد آن با درک بهتری از UI (حتی اگر در آن آزمون برنده نشده باشد) و به طور کلی بهتر ارائه می‌شود. سبک نوشتار آن جذاب‌تر و کمتر رسمی است.

این مسابقات نیز همه با استفاده از Grok 2 و GPT-4o صورت گرفته است. من گمان می‌کنم که اگر از o1 استفاده می‌کردم همه چیز به نفع ChatGPT پیش می‌رفت، اما مقایسه منصفانه‌ای نبود و Grok شانسی برای مقابله نداشت. همچنین، Grok 3 در راه است و ممکن است قبل از GPT-5 منتشر شود.