ترند جدید ChatGPT: پیدا کردن مکان دقیق تنها با یک عکس!

این روزها ترند جدیدی در میان کاربران ChatGPT دست به دست می‌شود که کمی نگران‌کننده به نظر می‌رسد: استفاده از هوش مصنوعی برای شناسایی دقیق مکان‌هایی که در عکس‌ها نمایش داده می‌شوند. با انتشار مدل‌های جدید OpenAI، یعنی o3 و o4-mini که به‌طور منحصربه‌فردی قابلیت «استدلال» از روی تصاویر آپلود شده را دارند، کاربران توانسته‌اند با آپلود عکس‌ها، از این مدل‌ها بخواهند تا موقعیت جغرافیایی محل ثبت عکس را حدس بزنند.

مدل‌های جدید OpenAI قادرند تصاویر را برش دهند، بچرخانند و روی آن‌ها زوم کنند؛ حتی عکس‌های تار یا تحریف‌شده را نیز می‌توانند به طور عمیق تحلیل کنند. ترکیب این قابلیت تحلیل تصویر با توانایی جستجو در وب، ابزاری قدرتمند برای یافتن مکان ایجاد کرده است. کاربران در پلتفرم X (توییتر سابق) به سرعت متوجه شدند که مدل o3 به‌طور ویژه‌ای در استنتاج شهرها، نقاط دیدنی، و حتی رستوران‌ها و کافه‌ها از روی سرنخ‌های بصری ظریف، بسیار خوب عمل می‌کند. نمونه‌های متعددی در X دیده می‌شود که کاربران منوی رستوران، نماهای محله، نمای ساختمان‌ها و حتی سلفی خود را به o3 داده و از آن خواسته‌اند نقش بازی GeoGuessr (یک بازی آنلاین که در آن بازیکنان باید مکان را از روی تصاویر Google Street View حدس بزنند) را ایفا کند.

جالب توجه است که به نظر نمی‌رسد این مدل‌ها عمدتاً بر «حافظه» مکالمات قبلی ChatGPT یا داده‌های EXIF (فراداده‌های پیوست شده به عکس که جزئیاتی مانند مکان ثبت عکس را فاش می‌کنند) برای یافتن مکان تکیه دارند، بلکه بیشتر بر تحلیل بصری و استدلال تکیه می‌کنند.

وب‌سایت TechCrunch نیز تعدادی عکس را هم از طریق o3 و هم از طریق مدل قدیمی‌تر GPT-4o که فاقد قابلیت استدلال تصویری پیشرفته o3 است، آزمایش کرد تا مهارت‌های حدس زدن مکان این مدل‌ها را مقایسه کند. نتیجه آزمایش‌ها در مواردی شگفت‌آور بود؛ اغلب اوقات، GPT-4o نیز به همان پاسخ صحیح o3 می‌رسید و حتی زمان کمتری صرف می‌کرد. با این حال، حداقل در یک مورد از آزمایش‌های کوتاه TechCrunch، o3 موفق به یافتن مکانی شد که GPT-4o نتوانست آن را تشخیص دهد. با دادن عکسی از سر بنفش یک کرگدن که روی دیوار یک کافه کم‌نور نصب شده بود، o3 به درستی حدس زد که این مکان یک اسپیک‌ایزی (کافه‌های مخفی) در محله ویلیامزبرگ (نیویورک) است، در حالی که GPT-4o آن را یک کافه در بریتانیا تخمین زده بود.

این مثال به معنای بی‌نقص بودن o3 نیست. چندین آزمایش TechCrunch با شکست مواجه شد؛ o3 در حلقه‌ای گیر می‌کرد و نمی‌توانست به پاسخی برسد که از آن اطمینان معقولی داشته باشد یا مکان اشتباهی را پیشنهاد می‌داد. کاربران در X نیز خاطرنشان کرده‌اند که o3 گاهی اوقات در استنتاج مکان‌ها بسیار دور از واقعیت عمل می‌کند.

اما این ترند جدید، برخی از خطرات نوظهور ناشی از مدل‌های هوش مصنوعی توانمندتر و دارای قابلیت «استدلال» را نشان می‌دهد. به نظر می‌رسد تمهیدات ایمنی کمی برای جلوگیری از این نوع «جستجوی معکوس مکان» در ChatGPT وجود دارد و OpenAI، شرکت سازنده ChatGPT، در گزارش ایمنی خود برای o3 و o4-mini به این موضوع نپرداخته بود. این مسئله می‌تواند یک نگرانی آشکار برای حریم خصوصی باشد. هیچ چیزی مانع از این نیست که یک فرد بدخواه از استوری اینستاگرام یک شخص اسکرین‌شات گرفته و از ChatGPT برای تلاش جهت داکس کردن (پیدا کردن و انتشار اطلاعات شخصی) او استفاده کند.

در واکنش به این نگرانی‌ها، OpenAI پس از انتشار گزارش اولیه و مطرح شدن این موضوع، بیانیه‌ای را منتشر کرد. سخنگوی این شرکت اعلام کرد: «مدل‌های OpenAI o3 و o4-mini قابلیت استدلال بصری را به ChatGPT می‌آورند و آن را در زمینه‌هایی مانند دسترسی‌پذیری، تحقیق، یا شناسایی مکان در واکنش به شرایط اضطراری مفیدتر می‌سازند. ما تلاش کرده‌ایم تا مدل‌هایمان را برای رد درخواست‌های اطلاعات خصوصی یا حساس آموزش دهیم، تمهیداتی را برای جلوگیری از شناسایی افراد خصوصی در تصاویر اضافه کرده‌ایم و به‌طور فعال بر سوءاستفاده از سیاست‌های استفاده ما در زمینه حریم خصوصی نظارت کرده و اقدامات لازم را انجام می‌دهیم.» این بیانیه نشان می‌دهد که OpenAI نسبت به پتانسیل سوءاستفاده آگاه است و در حال پیاده‌سازی راهکارهایی برای کاهش ریسک است، هرچند اثربخشی کامل این اقدامات در عمل نیاز به بررسی و زمان دارد.