در جدیدترین اخبار منتشر شده در صنعت تکنولوژی مطلع شدیم که شرکت مستقر در چین هوش مصنوعی با قابلیت استدلال خود را برای رقابت با o1 از OpenAI معرفی کرد.
براساس گزارش منتشر شده توسط رسانه TechCrunch مطلع شدیم که شرکت مستقر در چین مدل جدیدی از هوش مصنوعی با قابلیت «استدلال» را معرفی کرده است که هدف آن رقابت با مدل o1 شرکت OpenAI میباشد. روز چهارشنبه، شرکت تحقیقاتی هوش مصنوعی DeepSeek که توسط معاملهگران کمی تأمین مالی میشود، نسخه پیشنمایش مدل DeepSeek-R1 را منتشر کرد. این شرکت ادعا میکند که این مدل استدلالی میتواند با o1 رقابت کند.
ویژگیهای اصلی DeepSeek-R1
برخلاف اکثر مدلهای هوش مصنوعی، مدلهای استدلالی مانند DeepSeek-R1 به طور مؤثر خود را «با واقعیت بررسی» میکنند و زمان بیشتری را برای بررسی یک سوال یا پرسش صرف میکنند. این روش به کاهش اشتباهات معمولی در مدلهای هوش مصنوعی کمک میکند. مشابه o1، مدل DeepSeek-R1 نیز از طریق استدلال، برنامهریزی و انجام یک سری اقدامات به کاربران خود پاسخ میدهد. این فرآیند ممکن است مدتی طول بکشد و بسته به پیچیدگی سوال، ممکن است مدل برای چندین ثانیه «فکر» کند.
عملکرد و محدودیتها
شرکت DeepSeek ادعا میکند که مدل DeepSeek-R1 در دو معیار معتبر هوش مصنوعی به نامهای AIME و MATH عملکردی در سطح o1 ارائه میکند. معیار AIME از مدلهای هوش مصنوعی دیگر برای ارزیابی عملکرد استفاده میکند، در حالی که MATH شامل مسائل کلامی ریاضی است. با این حال، این مدل نیز کامل نیست و طبق نظر برخی کاربران شبکه اجتماعی ایکس، در بازیهایی مانند «دوز» و مسائل منطقی دیگر (همانند o1) دچار مشکل میشود.
مشکلات امنیتی و محدودیتهای سیاسی
مدل DeepSeek-R1 به راحتی قابل «جیلبریک» است، به این معنی که میتوان با ورودیهای خاصی، محدودیتهای امنیتی آن را دور زد. به عنوان مثال، یک کاربر توانست از این مدل دستورالعملهای تهیه مواد مخدر را دریافت کند.
همچنین، DeepSeek-R1 از پاسخ به سوالات حساس سیاسی خودداری میکند. در آزمایشها، این مدل از پاسخ به سوالاتی درباره رهبر چین، شی جینپینگ، میدان تیانآنمن، و پیامدهای ژئوپلیتیکی حمله چین به تایوان امتناع کرد. این رفتار احتمالاً نتیجه فشار دولت چین بر پروژههای هوش مصنوعی در این کشور است. در چین، مدلهای هوش مصنوعی باید تحت نظارت مقامات اینترنتی قرار بگیرند تا اطمینان حاصل شود که پاسخهایشان با «ارزشهای اصلی سوسیالیستی» هماهنگ است.
تغییرات در قوانین مقیاسگذاری
افزایش توجه به مدلهای استدلالی زمانی اتفاق میافتد که نظریههای قدیمی «قوانین مقیاسگذاری»، که بیان میکردند افزایش داده و توان پردازشی همواره باعث بهبود عملکرد مدل میشود، زیر سؤال رفتهاند. گزارشهای اخیر نشان میدهند که پیشرفت مدلهای شرکتهای بزرگی مانند OpenAI، گوگل و Anthropic دیگر مانند گذشته چشمگیر نیست. یکی از روشهای جدید، محاسبات زمان اجرا است که به مدلها زمان بیشتری برای پردازش وظایف میدهد. ساتیا نادلا، مدیرعامل مایکروسافت، این هفته در کنفرانس Microsoft Ignite این مفهوم را به عنوان یک “قانون جدید مقیاسگذاری” معرفی کرد.
DeepSeek و زیرساختهای آن
شرکت DeepSeek اعلام کرده است که قصد دارد مدل هوش مصنوعی DeepSeek-R1 را متنباز کرده و یک API منتشر کند. این شرکت توسط یک صندوق سرمایهگذاری کمی چینی به نام High-Flyer Capital Management پشتیبانی میشود که از هوش مصنوعی برای تصمیمگیریهای معاملاتی خود استفاده میکند. یکی از مدلهای اولیه DeepSeek به نام DeepSeek-V2، که برای تحلیل متن و تصویر طراحی شده بود، باعث شد رقبا مانند ByteDance، بایدو و علیبابا قیمت استفاده از مدلهای خود را کاهش دهند یا رایگان کنند.
High-Flyer خوشههای سرور مخصوص خود را برای آموزش مدلها میسازد و آخرین خوشه آن شامل ۱۰ هزار پردازنده گرافیکی Nvidia A100 بوده که هزینهای معادل ۱ میلیارد ین (تقریباً ۱۳۸ میلیون دلار) داشته است. این شرکت توسط لیانگ ونفنگ، فارغالتحصیل علوم کامپیوتر، تأسیس شده و هدف آن دستیابی به هوش مصنوعی “فراهوشمند” از طریق سازمان DeepSeek است. با ما همراه باشید در صورت انتشار اخبار جدید در رابطه با این موضوع بلافاصله آن را با شما به اشتراک خواهیم گذاشت. همچنین شما نیز میتوانید نظرات خود را درباره هوش مصنوعی چین با ما در میان بگذارید.