OpenAI قابلیت تولید تصویر مبتنی بر GPT-4o را به ChatGPT اضافه کرد

شرکت OpenAI از امروز قابلیت جدید تولید تصویر را مستقیماً در ChatGPT ادغام می‌کند. این ویژگی که با نام «Images in ChatGPT» شناخته می‌شود، به کاربران امکان می‌دهد تا با استفاده از مدل GPT-4o، تصاویر مورد نظر خود را در داخل خود ChatGPT تولید کنند. در واقع OpenAI قابلیت تولید تصویر مبتنی بر GPT-4o را به ChatGPT اضافه کرد تا کاربران برای تولید تصاویر باکیفیت نیز بتوانند از ChatGPT استفاده کنند و تنها یه DALL-E متکی نباشند.

در این نسخه اولیه، تمرکز صرفاً بر ایجاد تصویر است و این قابلیت برای تمام سطوح اشتراک ChatGPT شامل Plus، Pro، Team و رایگان در دسترس خواهد بود. سخنگوی OpenAI، تایا کریستیانسن، به وب‌سایت The Verge گفت که محدودیت استفاده برای کاربران رایگان مشابه DALL-E است، اما افزود که “عدد مشخصی برای به اشتراک گذاشتن ندارند” و “این محدودیت‌ها ممکن است با گذشت زمان و بر اساس تقاضا تغییر کنند.” طبق پرسش‌های متداول ChatGPT، کاربران رایگان قبلاً می‌توانستند “روزانه سه تصویر با DALL·E 3 تولید کنند.” در مورد سرنوشت DALL-E، کریستیانسن اظهار داشت که “طرفداران” همچنان از طریق یک GPT سفارشی به آن دسترسی خواهند داشت.

گابریل گو، سرپرست بخش تحقیقات OpenAI، به The Verge گفت: “این مدل یک تغییر اساسی نسبت به مدل‌های قبلی است.” او افزود که تیم از پایه “چندوجهی” یا “omnimodal” مدل GPT-4o، که قادر به تولید انواع داده‌ها مانند متن، تصویر، صدا و ویدیو است، برای این ویژگی استفاده کرده است.

برخی از پیشرفت‌هایی که گو به آن‌ها اشاره کرد شامل “binding” یا “پیوند” است که به میزان توانایی تولیدکننده‌های تصویر هوش مصنوعی در حفظ روابط صحیح بین ویژگی‌ها و اشیاء اشاره دارد. به عنوان مثال، یک مدل با “پیوند” ضعیف ممکن است در پاسخ به درخواست یک ستاره آبی و یک مثلث قرمز، یک ستاره قرمز و بدون مثلث ایجاد کند. گو گفت که اکثر مدل‌های تصویر با این موضوع دست و پنجه نرم می‌کنند و اغلب رنگ‌ها و اشکال را هنگام درخواست برای رندر کردن چندین مورد (معمولاً حدود 5 تا 8 مورد) اشتباه می‌گیرند. او می‌گوید این ابزار جدید تولید تصویر می‌تواند ویژگی‌ها را برای 15 تا 20 شیء بدون اشتباه به درستی پیوند دهد که نشان‌دهنده بهبود چشمگیر در دقت و قابلیت اطمینان است.

کاربران همچنین متوجه بهبود در رندر متن خواهند شد که تولید متن منسجم بدون غلط املایی روی یک تصویر را آسان‌تر می‌کند (در ابزارهای موجود، اغلب متوجه می‌شوید که متن به راحتی مخدوش می‌شود). گو گفت که درست کردن رندر متن یک چالش مهم بوده است. اگر عناوین یا عناصر متنی کوچک دارای غلط املایی یا اشتباه باشند، کل تصویر می‌تواند غیرقابل استفاده شود.

گو گفت: “این فقط یک فرآیند تکرار بود که ماه‌ها طول کشید تا به درستی انجام شود.” او گفت که اگرچه این سیستم بی‌نقص نیست، اما تیم به نقطه‌ای رسیده است که کیفیت متن به طور مداوم قابل استفاده است (ضعف اصلی در متن‌های بسیار کوچک است). “این ماه‌ها صرف بهبودهای کوچک شده است.”

این سیستم از یک رویکرد خودبازگشتی استفاده می‌کند – تولید تصاویر به صورت متوالی از چپ به راست و بالا به پایین، مشابه نحوه نوشتن متن – به جای تکنیک مدل انتشار که توسط اکثر تولیدکننده‌های تصویر (مانند DALL-E) استفاده می‌شود و کل تصویر را به طور همزمان ایجاد می‌کند. گو حدس می‌زند که این تفاوت فنی می‌تواند دلیل بهبود قابلیت‌های رندر متن و پیوند در Images in ChatGPT باشد.

OpenAI قابلیت تولید تصویر مبتنی بر GPT-4o را به ChatGPT اضافه کرددر یک جلسه توجیهی قبل از عرضه این ویژگی، تیم OpenAI چندین نمونه از قابلیت‌های سیستم را به نمایش گذاشت، از جمله نمودارهای علمی مانند آزمایش منشور نیوتن با اجزای برچسب‌گذاری شده صحیح، کمیک‌های چند پنلی با شخصیت‌ها و حباب‌های متن ثابت، و پوسترهای اطلاعاتی با متن دقیق. آن‌ها همچنین کاربردهای عملی مانند ایجاد تصاویر با پس‌زمینه شفاف برای استیکرها، منوهای رستوران و لوگوها را برجسته کردند.

جکی شنون، مدیر محصول چندوجهی ChatGPT، توضیح داد: “اگر من بخواهم یک تصویر بکشم، این کار را با محدودیت مهارت‌های خودم انجام می‌دهم… اما همچنین با تمام دانش جهان که جمع‌آوری کرده‌ام. مدل دانش جهانی را به معادله می‌آورد، بنابراین وقتی از آن تصویر آزمایش منشور نیوتن را می‌خواهید، لازم نیست توضیح دهید که آن چیست تا تصویر را دریافت کنید.”

سیستم جدید برای تولید تصاویر زمان بیشتری نسبت به قبل نیاز دارد، اگرچه OpenAI معتقد است که این یک مصالحه ارزشمند است. شنون گفت: “در حالی که قطعاً جای پیشرفت در تأخیر داریم… کیفیت این تصاویر، قابلیت‌ها، دانش جهانی، واقعاً چند ثانیه‌ای که کاربران منتظر می‌مانند را جبران می‌کند.”

هنگامی که در مورد اقدامات احتیاطی سؤال شد – با اشاره به دیپ‌فیک‌های برهنه تیلور سویفت که با استفاده از یک مدل مایکروسافت تولید شده بود، توانایی Grok متعلق به xAI در رندر کردن کامالا هریس با اسلحه، و تمایل Gemini گوگل به حذف واترمارک‌ها – تیم OpenAI تأکید کرد که این سیستم شامل اقدامات احتیاطی قوی برای جلوگیری از سوء استفاده است. شنون گفت که این ابزار از حذف واترمارک جلوگیری می‌کند، تولید دیپ‌فیک‌های جنسی را مسدود می‌کند و درخواست‌های تولید CSAM را رد می‌کند.

سیستم جدید تولید تصویر OpenAI شامل واترمارک‌های بصری یا نشانگرهایی که نشان می‌دهند تصاویر توسط هوش مصنوعی تولید شده‌اند، نیست. با این حال، شنون توضیح داد که “تمام تصاویر تولید شده ما شامل فراداده استاندارد C2PA برای علامت‌گذاری تصویر به عنوان ایجاد شده توسط OpenAI خواهند بود” و این شرکت “ابزارهای داخلی برای جستجوی تصاویر نیز خواهد داشت.”

شنون افزود: “در نهایت، هیچ سیستمی برای این نوع کار بی‌نقص نیست، اما ما به طور مداوم در حال بهبود اقدامات احتیاطی خود هستیم و این را یک نقطه شروع می‌دانیم. یک نکته در مورد تمام تصاویر تولید شده از ChatGPT این است که کاربر مالک آن‌ها است و می‌تواند از آن‌ها در چارچوب سیاست‌های استفاده ما به هر نحوی که می‌خواهد استفاده کند.”

اضافه شدن قابلیت تولید تصویر مبتنی بر مدل قدرتمند GPT-4o به ChatGPT، گام مهمی در جهت تبدیل این پلتفرم به یک ابزار چندمنظوره و جامع‌تر برای کاربران به شمار می‌رود. پیش از این، کاربران برای تولید تصویر در ChatGPT از مدل DALL-E 3 استفاده می‌کردند، اما با ادغام مستقیم GPT-4o، انتظار می‌رود کیفیت، سرعت و دقت تصاویر تولید شده به طور قابل توجهی افزایش یابد. OpenAI در حالی قابلیت تولید تصویر مبتنی بر GPT-4o را به ChatGPT اضافه کرد که رقابت در زمینه تولید تصویر با هوش مصنوعی به شدت در حال افزایش است و شرکت‌های دیگری مانند Midjourney و Stability AI نیز در حال ارائه محصولات و قابلیت‌های نوآورانه در این حوزه هستند. ورود OpenAI با مدل قدرتمند GPT-4o به این عرصه، می‌تواند رقابت را داغ‌تر کرده و نوآوری‌های بیشتری را به همراه داشته باشد.