متا، در اقدامی غیرمنتظره در روز شنبه، از مجموعه جدیدی از مدلهای هوش مصنوعی با نام Llama 4 در خانواده مدلهای Llama خود پرده برداشت.
به گزارش تککرانچ این مجموعه شامل چهار مدل جدید به نامهای Llama 4 Scout، Llama 4 Maverick و Llama 4 Behemoth است. متا اعلام کرده که تمامی این مدلها با استفاده از “مقادیر عظیمی از دادههای متنی، تصویری و ویدئویی بدون برچسب” آموزش دیدهاند تا “درک بصری گستردهای” داشته باشند.
گفته میشود موفقیت مدلهای متنباز آزمایشگاه هوش مصنوعی چینی DeepSeek، که عملکردی همسطح یا حتی بهتر از مدلهای پیشین Llama متا داشتند، توسعه Llama را به شدت تسریع کرده است. گزارشها حاکی از آن است که متا اتاقهای جنگی تشکیل داده تا نحوه کاهش هزینه اجرا و استقرار مدلهایی مانند R1 و V3 توسط DeepSeek را رمزگشایی کند.
مدلهای Scout و Maverick به صورت آزادانه در وبسایت Llama.com و از طریق شرکای متا، از جمله پلتفرم توسعه هوش مصنوعی Hugging Face، در دسترس هستند، در حالی که Behemoth هنوز در حال آموزش است. متا همچنین اعلام کرده که دستیار هوش مصنوعی متا، Meta AI، که در برنامههایی مانند واتساپ، مسنجر و اینستاگرام استفاده میشود، در ۴۰ کشور با Llama 4 بهروزرسانی شده است. در حال حاضر، قابلیتهای چندوجهی این دستیار فقط در ایالات متحده و به زبان انگلیسی در دسترس است.
با این حال، ممکن است برخی از توسعهدهندگان با مجوز Llama 4 مشکل داشته باشند. کاربران و شرکتهایی که “اقامتگاه” یا “محل اصلی کسب و کار” آنها در اتحادیه اروپا است، از استفاده یا توزیع این مدلها منع شدهاند. به احتمال زیاد، این محدودیت ناشی از الزامات نظارتی اعمال شده توسط قوانین هوش مصنوعی و حریم خصوصی دادههای این منطقه است. (متا پیش از این نیز این قوانین را بیش از حد دست و پا گیر خوانده بود.) علاوه بر این، مانند نسخههای قبلی Llama، شرکتهایی با بیش از ۷۰۰ میلیون کاربر فعال ماهانه باید مجوز ویژهای از متا درخواست کنند که متا میتواند آن را به صلاحدید خود اعطا یا رد کند.
متا در یک پست وبلاگی نوشت: “این مدلهای Llama 4 آغازگر دورانی جدید برای اکوسیستم Llama هستند. این تنها شروعی برای مجموعه Llama 4 است.”
متا میگوید Llama 4 اولین گروه از مدلهای این شرکت است که از معماری ترکیبی از متخصصان (MoE) استفاده میکند. این معماری از نظر محاسباتی برای آموزش و پاسخگویی به پرسشها کارآمدتر است. معماریهای MoE اساساً وظایف پردازش داده را به زیر وظایف تقسیم کرده و سپس آنها را به مدلهای “متخصص” کوچکتر و تخصصیتر واگذار میکنند.
به عنوان مثال، مدل Maverick دارای ۴۰۰ میلیارد پارامتر کلی است، اما تنها ۱۷ میلیارد پارامتر فعال در میان ۱۲۸ “متخصص” دارد. (پارامترها تقریباً با مهارتهای حل مسئله یک مدل مطابقت دارند.) مدل Scout دارای ۱۷ میلیارد پارامتر فعال، ۱۶ متخصص و ۱۰۹ میلیارد پارامتر کلی است.
بر اساس آزمایشهای داخلی متا، مدل Maverick، که به گفته این شرکت برای موارد استفاده “دستیار عمومی و چت” مانند نوشتن خلاقانه بهترین است، در برخی از معیارها مانند کدنویسی، استدلال، چندزبانه بودن، درک متن طولانی و پردازش تصویر، از مدلهایی مانند GPT-4o از OpenAI و Gemini 2.0 از گوگل پیشی میگیرد. با این حال، Maverick به اندازه مدلهای توانمندتر اخیر مانند Gemini 2.5 Pro از گوگل، Claude 3.7 Sonnet از Anthropic و GPT-4.5 از OpenAI قدرتمند نیست.
نقاط قوت مدل Scout در وظایفی مانند خلاصهسازی اسناد و استدلال بر روی پایگاههای کد بزرگ نهفته است. به طور منحصر به فرد، این مدل دارای یک پنجره متن بسیار بزرگ با ظرفیت ۱۰ میلیون توکن است. (“توکنها” نشاندهنده بیتهای متن خام هستند – به عنوان مثال، کلمه “fantastic” به “fan”، “tas” و “tic” تقسیم میشود.) به زبان ساده، Scout میتواند تصاویر و تا میلیونها کلمه را دریافت کند و به آن امکان میدهد اسناد بسیار طولانی را پردازش و با آنها کار کند.
بر اساس محاسبات متا، Scout میتواند روی یک کارت گرافیک Nvidia H100 GPU اجرا شود، در حالی که Maverick به یک سیستم Nvidia H100 DGX یا معادل آن نیاز دارد.
مدل Behemoth که هنوز منتشر نشده است، به سختافزار قدرتمندتری نیز نیاز خواهد داشت. به گفته این شرکت، Behemoth دارای ۲۸۸ میلیارد پارامتر فعال، ۱۶ متخصص و نزدیک به دو تریلیون پارامتر کلی است. بنچمارکهای داخلی متا نشان میدهد که Behemoth در چندین ارزیابی که مهارتهای STEM مانند حل مسائل ریاضی را اندازهگیری میکنند، از GPT-4.5، Claude 3.7 Sonnet و Gemini 2.0 Pro (اما نه 2.5 Pro) عملکرد بهتری دارد.
شایان ذکر است که هیچ یک از مدلهای Llama 4 یک مدل “استدلال” واقعی مانند o1 و o3-mini از OpenAI نیستند. مدلهای استدلال پاسخهای خود را از نظر صحت بررسی میکنند و به طور کلی به سؤالات با اطمینان بیشتری پاسخ میدهند، اما در نتیجه، زمان بیشتری نسبت به مدلهای سنتی “غیر استدلال” برای ارائه پاسخ نیاز دارند.
نکته جالب اینجاست که متا میگوید تمامی مدلهای Llama 4 خود را طوری تنظیم کرده است که کمتر از گذشته از پاسخ دادن به سؤالات “بحثبرانگیز” خودداری کنند. به گفته این شرکت، Llama 4 به موضوعات سیاسی و اجتماعی “مورد بحث” که مدلهای قبلی Llama از پاسخ دادن به آنها امتناع میکردند، پاسخ میدهد. علاوه بر این، این شرکت میگوید Llama 4 در مورد اینکه به کدام درخواستها به طور کلی پاسخ نمیدهد، “به طور چشمگیری متعادلتر” عمل میکند.
یک سخنگوی متا به TechCrunch گفت: “[شما] میتوانید روی [Llama 4] حساب کنید تا پاسخهای مفید و واقعی بدون قضاوت ارائه دهد. ما به بهبود پاسخگویی Llama ادامه میدهیم تا به سؤالات بیشتری پاسخ دهد، بتواند به دیدگاههای مختلف پاسخ دهد و دیدگاه خاصی را بر دیگری ترجیح ندهد.”
این تغییرات در حالی صورت میگیرد که برخی از متحدان کاخ سفید، چتباتهای هوش مصنوعی را به دلیل داشتن گرایشهای سیاسی “بیش از حد مترقی” متهم میکنند.
بسیاری از نزدیکان رئیس جمهور دونالد ترامپ، از جمله میلیاردر ایلان ماسک و “تزار” ارزهای دیجیتال و هوش مصنوعی، دیوید ساکس، ادعا کردهاند که چتباتهای محبوب هوش مصنوعی دیدگاههای محافظهکارانه را سانسور میکنند. ساکس پیش از این ChatGPT OpenAI را به عنوان “برنامهریزی شده برای مترقی بودن” و غیر صادق در مورد موضوعات سیاسی مورد انتقاد قرار داده بود.
در واقعیت، تعصب در هوش مصنوعی یک مشکل فنی لاینحل است. شرکت هوش مصنوعی خود ماسک، xAI، برای ایجاد یک چتبات که از دیدگاههای سیاسی خاصی حمایت نکند، با مشکل مواجه شده است.
با این حال، این موضوع مانع از آن نشده است که شرکتهایی از جمله OpenAI مدلهای هوش مصنوعی خود را برای پاسخ دادن به سؤالات بیشتری نسبت به گذشته، به ویژه سؤالات مربوط به موضوعات بحثبرانگیز، تنظیم کنند.
برای درک بهتر معماری MoE در Llama 4، میتوان به این نکته اشاره کرد که این رویکرد به مدل اجازه میدهد تا با فعال کردن تنها بخش کوچکی از شبکه عصبی خود برای هر ورودی، به طور قابل توجهی در منابع محاسباتی صرفهجویی کند. این امر نه تنها سرعت آموزش را افزایش میدهد، بلکه امکان اجرای مدلهای بزرگتر را با سختافزار محدودتر فراهم میکند. به عبارت دیگر، به جای اینکه تمام پارامترهای مدل در هر بار پردازش اطلاعات فعال باشند، تنها “متخصصان” مرتبط با نوع داده ورودی فعال میشوند. این تکنیک در مدلهای بزرگ زبانی مانند Google’s Switch Transformer نیز با موفقیت مورد استفاده قرار گرفته است.
در مورد مقایسه با مدلهای دیگر، لازم به ذکر است که بنچمارکهای ارائه شده توسط متا اغلب بر روی مجموعهای خاص از وظایف و معیارها انجام میشوند و ممکن است عملکرد واقعی در کاربردهای مختلف متفاوت باشد. با این حال، پیشرفت Maverick در زمینههایی مانند کدنویسی و درک متن طولانی نشاندهنده تمرکز متا بر بهبود قابلیتهای کلیدی برای توسعهدهندگان و کاربرانی است که با حجم زیادی از اطلاعات سروکار دارند. همچنین، پنجره متن ۱۰ میلیون توکنی Scout یک دستاورد قابل توجه است که آن را برای پردازش اسناد بسیار طولانی و تحلیل دادههای پیچیده بسیار قدرتمند میسازد. این قابلیت میتواند در زمینههایی مانند خلاصهسازی کتابها، تحلیل گزارشهای تحقیقاتی و پردازش مجموعههای دادههای بزرگ بسیار کاربردی باشد.