شرکت OpenAI از امروز قابلیت جدید تولید تصویر را مستقیماً در ChatGPT ادغام میکند. این ویژگی که با نام «Images in ChatGPT» شناخته میشود، به کاربران امکان میدهد تا با استفاده از مدل GPT-4o، تصاویر مورد نظر خود را در داخل خود ChatGPT تولید کنند. در واقع OpenAI قابلیت تولید تصویر مبتنی بر GPT-4o را به ChatGPT اضافه کرد تا کاربران برای تولید تصاویر باکیفیت نیز بتوانند از ChatGPT استفاده کنند و تنها یه DALL-E متکی نباشند.
در این نسخه اولیه، تمرکز صرفاً بر ایجاد تصویر است و این قابلیت برای تمام سطوح اشتراک ChatGPT شامل Plus، Pro، Team و رایگان در دسترس خواهد بود. سخنگوی OpenAI، تایا کریستیانسن، به وبسایت The Verge گفت که محدودیت استفاده برای کاربران رایگان مشابه DALL-E است، اما افزود که “عدد مشخصی برای به اشتراک گذاشتن ندارند” و “این محدودیتها ممکن است با گذشت زمان و بر اساس تقاضا تغییر کنند.” طبق پرسشهای متداول ChatGPT، کاربران رایگان قبلاً میتوانستند “روزانه سه تصویر با DALL·E 3 تولید کنند.” در مورد سرنوشت DALL-E، کریستیانسن اظهار داشت که “طرفداران” همچنان از طریق یک GPT سفارشی به آن دسترسی خواهند داشت.
گابریل گو، سرپرست بخش تحقیقات OpenAI، به The Verge گفت: “این مدل یک تغییر اساسی نسبت به مدلهای قبلی است.” او افزود که تیم از پایه “چندوجهی” یا “omnimodal” مدل GPT-4o، که قادر به تولید انواع دادهها مانند متن، تصویر، صدا و ویدیو است، برای این ویژگی استفاده کرده است.
برخی از پیشرفتهایی که گو به آنها اشاره کرد شامل “binding” یا “پیوند” است که به میزان توانایی تولیدکنندههای تصویر هوش مصنوعی در حفظ روابط صحیح بین ویژگیها و اشیاء اشاره دارد. به عنوان مثال، یک مدل با “پیوند” ضعیف ممکن است در پاسخ به درخواست یک ستاره آبی و یک مثلث قرمز، یک ستاره قرمز و بدون مثلث ایجاد کند. گو گفت که اکثر مدلهای تصویر با این موضوع دست و پنجه نرم میکنند و اغلب رنگها و اشکال را هنگام درخواست برای رندر کردن چندین مورد (معمولاً حدود 5 تا 8 مورد) اشتباه میگیرند. او میگوید این ابزار جدید تولید تصویر میتواند ویژگیها را برای 15 تا 20 شیء بدون اشتباه به درستی پیوند دهد که نشاندهنده بهبود چشمگیر در دقت و قابلیت اطمینان است.
کاربران همچنین متوجه بهبود در رندر متن خواهند شد که تولید متن منسجم بدون غلط املایی روی یک تصویر را آسانتر میکند (در ابزارهای موجود، اغلب متوجه میشوید که متن به راحتی مخدوش میشود). گو گفت که درست کردن رندر متن یک چالش مهم بوده است. اگر عناوین یا عناصر متنی کوچک دارای غلط املایی یا اشتباه باشند، کل تصویر میتواند غیرقابل استفاده شود.
گو گفت: “این فقط یک فرآیند تکرار بود که ماهها طول کشید تا به درستی انجام شود.” او گفت که اگرچه این سیستم بینقص نیست، اما تیم به نقطهای رسیده است که کیفیت متن به طور مداوم قابل استفاده است (ضعف اصلی در متنهای بسیار کوچک است). “این ماهها صرف بهبودهای کوچک شده است.”
این سیستم از یک رویکرد خودبازگشتی استفاده میکند – تولید تصاویر به صورت متوالی از چپ به راست و بالا به پایین، مشابه نحوه نوشتن متن – به جای تکنیک مدل انتشار که توسط اکثر تولیدکنندههای تصویر (مانند DALL-E) استفاده میشود و کل تصویر را به طور همزمان ایجاد میکند. گو حدس میزند که این تفاوت فنی میتواند دلیل بهبود قابلیتهای رندر متن و پیوند در Images in ChatGPT باشد.
OpenAI قابلیت تولید تصویر مبتنی بر GPT-4o را به ChatGPT اضافه کرددر یک جلسه توجیهی قبل از عرضه این ویژگی، تیم OpenAI چندین نمونه از قابلیتهای سیستم را به نمایش گذاشت، از جمله نمودارهای علمی مانند آزمایش منشور نیوتن با اجزای برچسبگذاری شده صحیح، کمیکهای چند پنلی با شخصیتها و حبابهای متن ثابت، و پوسترهای اطلاعاتی با متن دقیق. آنها همچنین کاربردهای عملی مانند ایجاد تصاویر با پسزمینه شفاف برای استیکرها، منوهای رستوران و لوگوها را برجسته کردند.
جکی شنون، مدیر محصول چندوجهی ChatGPT، توضیح داد: “اگر من بخواهم یک تصویر بکشم، این کار را با محدودیت مهارتهای خودم انجام میدهم… اما همچنین با تمام دانش جهان که جمعآوری کردهام. مدل دانش جهانی را به معادله میآورد، بنابراین وقتی از آن تصویر آزمایش منشور نیوتن را میخواهید، لازم نیست توضیح دهید که آن چیست تا تصویر را دریافت کنید.”
سیستم جدید برای تولید تصاویر زمان بیشتری نسبت به قبل نیاز دارد، اگرچه OpenAI معتقد است که این یک مصالحه ارزشمند است. شنون گفت: “در حالی که قطعاً جای پیشرفت در تأخیر داریم… کیفیت این تصاویر، قابلیتها، دانش جهانی، واقعاً چند ثانیهای که کاربران منتظر میمانند را جبران میکند.”
هنگامی که در مورد اقدامات احتیاطی سؤال شد – با اشاره به دیپفیکهای برهنه تیلور سویفت که با استفاده از یک مدل مایکروسافت تولید شده بود، توانایی Grok متعلق به xAI در رندر کردن کامالا هریس با اسلحه، و تمایل Gemini گوگل به حذف واترمارکها – تیم OpenAI تأکید کرد که این سیستم شامل اقدامات احتیاطی قوی برای جلوگیری از سوء استفاده است. شنون گفت که این ابزار از حذف واترمارک جلوگیری میکند، تولید دیپفیکهای جنسی را مسدود میکند و درخواستهای تولید CSAM را رد میکند.
سیستم جدید تولید تصویر OpenAI شامل واترمارکهای بصری یا نشانگرهایی که نشان میدهند تصاویر توسط هوش مصنوعی تولید شدهاند، نیست. با این حال، شنون توضیح داد که “تمام تصاویر تولید شده ما شامل فراداده استاندارد C2PA برای علامتگذاری تصویر به عنوان ایجاد شده توسط OpenAI خواهند بود” و این شرکت “ابزارهای داخلی برای جستجوی تصاویر نیز خواهد داشت.”
شنون افزود: “در نهایت، هیچ سیستمی برای این نوع کار بینقص نیست، اما ما به طور مداوم در حال بهبود اقدامات احتیاطی خود هستیم و این را یک نقطه شروع میدانیم. یک نکته در مورد تمام تصاویر تولید شده از ChatGPT این است که کاربر مالک آنها است و میتواند از آنها در چارچوب سیاستهای استفاده ما به هر نحوی که میخواهد استفاده کند.”
اضافه شدن قابلیت تولید تصویر مبتنی بر مدل قدرتمند GPT-4o به ChatGPT، گام مهمی در جهت تبدیل این پلتفرم به یک ابزار چندمنظوره و جامعتر برای کاربران به شمار میرود. پیش از این، کاربران برای تولید تصویر در ChatGPT از مدل DALL-E 3 استفاده میکردند، اما با ادغام مستقیم GPT-4o، انتظار میرود کیفیت، سرعت و دقت تصاویر تولید شده به طور قابل توجهی افزایش یابد. OpenAI در حالی قابلیت تولید تصویر مبتنی بر GPT-4o را به ChatGPT اضافه کرد که رقابت در زمینه تولید تصویر با هوش مصنوعی به شدت در حال افزایش است و شرکتهای دیگری مانند Midjourney و Stability AI نیز در حال ارائه محصولات و قابلیتهای نوآورانه در این حوزه هستند. ورود OpenAI با مدل قدرتمند GPT-4o به این عرصه، میتواند رقابت را داغتر کرده و نوآوریهای بیشتری را به همراه داشته باشد.