این روزها ترند جدیدی در میان کاربران ChatGPT دست به دست میشود که کمی نگرانکننده به نظر میرسد: استفاده از هوش مصنوعی برای شناسایی دقیق مکانهایی که در عکسها نمایش داده میشوند. با انتشار مدلهای جدید OpenAI، یعنی o3 و o4-mini که بهطور منحصربهفردی قابلیت «استدلال» از روی تصاویر آپلود شده را دارند، کاربران توانستهاند با آپلود عکسها، از این مدلها بخواهند تا موقعیت جغرافیایی محل ثبت عکس را حدس بزنند.
مدلهای جدید OpenAI قادرند تصاویر را برش دهند، بچرخانند و روی آنها زوم کنند؛ حتی عکسهای تار یا تحریفشده را نیز میتوانند به طور عمیق تحلیل کنند. ترکیب این قابلیت تحلیل تصویر با توانایی جستجو در وب، ابزاری قدرتمند برای یافتن مکان ایجاد کرده است. کاربران در پلتفرم X (توییتر سابق) به سرعت متوجه شدند که مدل o3 بهطور ویژهای در استنتاج شهرها، نقاط دیدنی، و حتی رستورانها و کافهها از روی سرنخهای بصری ظریف، بسیار خوب عمل میکند. نمونههای متعددی در X دیده میشود که کاربران منوی رستوران، نماهای محله، نمای ساختمانها و حتی سلفی خود را به o3 داده و از آن خواستهاند نقش بازی GeoGuessr (یک بازی آنلاین که در آن بازیکنان باید مکان را از روی تصاویر Google Street View حدس بزنند) را ایفا کند.
جالب توجه است که به نظر نمیرسد این مدلها عمدتاً بر «حافظه» مکالمات قبلی ChatGPT یا دادههای EXIF (فرادادههای پیوست شده به عکس که جزئیاتی مانند مکان ثبت عکس را فاش میکنند) برای یافتن مکان تکیه دارند، بلکه بیشتر بر تحلیل بصری و استدلال تکیه میکنند.
وبسایت TechCrunch نیز تعدادی عکس را هم از طریق o3 و هم از طریق مدل قدیمیتر GPT-4o که فاقد قابلیت استدلال تصویری پیشرفته o3 است، آزمایش کرد تا مهارتهای حدس زدن مکان این مدلها را مقایسه کند. نتیجه آزمایشها در مواردی شگفتآور بود؛ اغلب اوقات، GPT-4o نیز به همان پاسخ صحیح o3 میرسید و حتی زمان کمتری صرف میکرد. با این حال، حداقل در یک مورد از آزمایشهای کوتاه TechCrunch، o3 موفق به یافتن مکانی شد که GPT-4o نتوانست آن را تشخیص دهد. با دادن عکسی از سر بنفش یک کرگدن که روی دیوار یک کافه کمنور نصب شده بود، o3 به درستی حدس زد که این مکان یک اسپیکایزی (کافههای مخفی) در محله ویلیامزبرگ (نیویورک) است، در حالی که GPT-4o آن را یک کافه در بریتانیا تخمین زده بود.
این مثال به معنای بینقص بودن o3 نیست. چندین آزمایش TechCrunch با شکست مواجه شد؛ o3 در حلقهای گیر میکرد و نمیتوانست به پاسخی برسد که از آن اطمینان معقولی داشته باشد یا مکان اشتباهی را پیشنهاد میداد. کاربران در X نیز خاطرنشان کردهاند که o3 گاهی اوقات در استنتاج مکانها بسیار دور از واقعیت عمل میکند.
اما این ترند جدید، برخی از خطرات نوظهور ناشی از مدلهای هوش مصنوعی توانمندتر و دارای قابلیت «استدلال» را نشان میدهد. به نظر میرسد تمهیدات ایمنی کمی برای جلوگیری از این نوع «جستجوی معکوس مکان» در ChatGPT وجود دارد و OpenAI، شرکت سازنده ChatGPT، در گزارش ایمنی خود برای o3 و o4-mini به این موضوع نپرداخته بود. این مسئله میتواند یک نگرانی آشکار برای حریم خصوصی باشد. هیچ چیزی مانع از این نیست که یک فرد بدخواه از استوری اینستاگرام یک شخص اسکرینشات گرفته و از ChatGPT برای تلاش جهت داکس کردن (پیدا کردن و انتشار اطلاعات شخصی) او استفاده کند.
در واکنش به این نگرانیها، OpenAI پس از انتشار گزارش اولیه و مطرح شدن این موضوع، بیانیهای را منتشر کرد. سخنگوی این شرکت اعلام کرد: «مدلهای OpenAI o3 و o4-mini قابلیت استدلال بصری را به ChatGPT میآورند و آن را در زمینههایی مانند دسترسیپذیری، تحقیق، یا شناسایی مکان در واکنش به شرایط اضطراری مفیدتر میسازند. ما تلاش کردهایم تا مدلهایمان را برای رد درخواستهای اطلاعات خصوصی یا حساس آموزش دهیم، تمهیداتی را برای جلوگیری از شناسایی افراد خصوصی در تصاویر اضافه کردهایم و بهطور فعال بر سوءاستفاده از سیاستهای استفاده ما در زمینه حریم خصوصی نظارت کرده و اقدامات لازم را انجام میدهیم.» این بیانیه نشان میدهد که OpenAI نسبت به پتانسیل سوءاستفاده آگاه است و در حال پیادهسازی راهکارهایی برای کاهش ریسک است، هرچند اثربخشی کامل این اقدامات در عمل نیاز به بررسی و زمان دارد.