در جدیدترین اخبار منتشر شده در صنعت تکنولوژی مطلع شدیم که شرکت فناوری چینی Alibaba نسخه جدیدی از مدل هوش مصنوعی Qwen 2.5 را منتشر کرد.
براساس گزارش منتشر شده توسط خبرگزاری رویترز مطلع شدیم که شرکت فناوری چینی Alibaba روز چهارشنبه نسخه جدیدی از مدل هوش مصنوعی خود، Qwen 2.5 را منتشر کرد که ادعا میشود از مدل پرآوازه DeepSeek-V3 عملکرد بهتری دارد.
زمانبندی غیرمعمول انتشار نسخه Qwen 2.5-Max، که در اولین روز سال نو قمری انجام شد—زمانی که اکثر مردم چین تعطیل هستند و در کنار خانوادههایشان وقت میگذرانند—نشاندهنده فشار ناشی از رشد شگفتانگیز استارتاپ چینی DeepSeek در سه هفته گذشته است. این رشد نهتنها رقبای خارجی، بلکه رقابت داخلی را نیز تحت تأثیر قرار داده است.
واحد پردازش ابری علیبابا در اطلاعیهای در حساب رسمی WeChat خود اعلام کرد: «Qwen 2.5-Max تقریباً در تمامی زمینهها عملکرد بهتری نسبت به GPT-4o، DeepSeek-V3 و Llama-3.1-405B دارد». این مدلها متعلق به OpenAI و Meta هستند که پیشرفتهترین مدلهای هوش مصنوعی متنباز محسوب میشوند.
مدل Qwen2.5-Max یک مدل MoE (ترکیب متخصصان) در مقیاس بزرگ است که بر روی بیش از ۲۰ تریلیون توکن و با روشهای تنظیم دقیق نظارتشده (SFT) و یادگیری تقویتی از بازخورد انسانی (RLHF) آموزش دیده است. درکل رویکرد MoE کمک میکند تا هوش مصنوعی بدون خوشههای GPU عظیم به دست آید و هزینههای زیرساخت را ۴۰ تا ۶۰ درصد نسبت به سایر رویکردهای مدلهای زبانی بزرگ کاهش داد.
مدل جدید علیبابا و البته DeepSeek نشان میدهند که بهجای سرمایهگذاری هنگفت در ایجاد مراکز داده و خوشههای GPU بزرگ میتوان با بهینهسازی معماری هوش مصنوعی مدلهایی کمهزینه و کارآمد توسعه داد. عملکرد قوی این مدل در تولید کد (با امتیاز ۳۸.۷ درصد در بنچمارک LiveCodeBench) و استدلال (با امتیاز ۸۹.۴ درصد در Arena-Hard) نشان میدهد میتوان بسیاری از کاربردهای هوش مصنوعی مولد را با توان پردازشی کمتری مدیریت کرد. با این حال فقط عملکرد خوب در بنچمارکها کافی نیست تا یک مدل هوش مصنوعی در بین کاربران محبوب شود. رعایت حریم خصوصی دادههای کاربران، ارائه API قابلاطمینان و پشتیبانی طولانیمدت نیز از عوامل تأثیرگذار هستند.
موفقیت DeepSeek باعث شده رقبای داخلی آن برای ارتقای مدلهای هوش مصنوعی خود به تکاپو بیفتند. دو روز پس از انتشار DeepSeek-R1، شرکت ByteDance (مالک TikTok) نسخه بهروزرسانیشده مدل هوش مصنوعی پرچمدار خود را منتشر کرد که ادعا میشود عملکرد بهتری نسبت به مدل o1 شرکت OpenAI (با حمایت مایکروسافت) در آزمون AIME دارد. آزمون AIME میزان درک و پاسخگویی مدلهای هوش مصنوعی به دستورالعملهای پیچیده را میسنجد. این ادعا مشابه گفتههای DeepSeek است که مدل R1 آن توانسته در برخی معیارها با مدل o1 شرکت OpenAI رقابت کند.
نسخه قبلی مدل DeepSeek-V3، یعنی DeepSeek-V2، که در ماه مه سال گذشته منتشر شد، یک جنگ قیمتی در بازار مدلهای هوش مصنوعی چین به راه انداخت. ویژگی کلیدی این مدل متنباز بودن و هزینه بیسابقه پایین آن بود، فقط ۱ یوان (۰.۱۴ دلار) برای پردازش هر ۱ میلیون توکن (واحدهای دادهای که مدل هوش مصنوعی پردازش میکند). این اقدام باعث شد علیبابا اعلام کند که قیمت برخی از مدلهای خود را تا ۹۷ درصد کاهش میدهد. سایر شرکتهای فناوری چینی نیز از این روند پیروی کردند، از جمله بایدو که در مارس ۲۰۲۳ اولین مدل معادل ChatGPT را در چین منتشر کرد و همچنین تنسنت ، باارزشترین شرکت اینترنتی چین.
لیانگ ونفنگ، بنیانگذار مرموز DeepSeek، در مصاحبهای نادر با رسانه Waves در ماه جولای گفت که این استارتاپ به “جنگ قیمتی” اهمیتی نمیدهد و دستیابی به AGI (هوش عمومی مصنوعی) هدف اصلی آن است. OpenAI نیز AGI را بهعنوان سیستمهایی تعریف میکند که در اکثر وظایف اقتصادی ارزشمند از انسانها پیشی میگیرند.
در حالی که شرکتهای بزرگ فناوری چینی مانند علیبابا صدها هزار کارمند دارند، DeepSeek بیشتر شبیه یک آزمایشگاه تحقیقاتی عمل میکند و عمدتاً از فارغالتحصیلان و دانشجویان دکتری برترین دانشگاههای چین تشکیل شده است. لیانگ در مصاحبه ماه جولای خود گفت که معتقد است شرکتهای بزرگ فناوری چین ممکن است برای آینده صنعت هوش مصنوعی مناسب نباشند، زیرا هزینههای بالا و ساختارهای مدیریتی متمرکز آنها در تضاد با سبک مدیریتی منعطف و عملیات کمهزینه DeepSeek است.
در نهایت باید دید که آیا مدل جدید علیبابا میتواند در رقابت با دیپسیک و شرکتهای آمریکایی عملکرد قابلقبولی داشته باشد یا خیر. با ما همراه باشید در صورت انتشار اخبار جدید در رابطه با این موضوع بلافاصله آن را با شما به اشتراک خواهیم گذاشت. همچنین شما نیز میتوانید نظرات خود را درباره هوش مصنوعی جدید Alibaba با ما در میان بگذارید.