آن پیراهن معروف چه رنگی بود، آبی، مشکی یا سفید، طلایی؟ هوش مصنوعی هم اشتباه کرد!
به گزارش دانشنامه آریایی، مدل های هوش مصنوعی در برابر توهمات و خطاهای بصری که فکر انسان را فریب می دهند، چه واکنشی نشان می دهند؟ پژوهشگران آزمایش هایی را ترتیب داده اند که باعث ایجاد خطای دید می گردد و نتایج این آزمایش ها، جنبه های جالبی از AI را آشکار کرد.
تینا مزدکی: سیستم بینایی ما انسان ها به گونه ای فرگشت یافته است که اجسام را به رنگ های ثابت در فکر ما ثبت می نماید؛ بنابراین چه زمان طلوع خورشید و چه زمانی که هوا تاریک است، حتی اگر برگ رنگ های مختلفی را منعکس نمایند، شما بازهم برگ ها را سبز می بینید. چنین انطباقی در مغز ما باعث تماشا رنگ های کاذب و درنتیجه خطای دید می گردد. پژوهشگران درآزمایشی، GPT-V4 (نسخه اخیر ChatGPT) را در معرض نوعی فریب بصری قرار دادند که موجب خطای دید در افراد می گردد. پاسخ های این ربات اغلب با پاسخ های احتمالی افراد مطابقت داشت.
ازآنجایی که دانشمندان، GPT را با تصویری که خطای دید رنگی داشت امتحان کردند، در ابتدا تصور کردند که شاید این ربات داده های تصاویر را پردازش می نماید و با حذف بخشی از آن ها به پاسخ می رسد. اما به گفته OpenAI، چت جی پی تی دمای رنگ یا سایر ویژگی های تصویر را قبل از تفسیر GPT-V4 تنظیم نمی نماید. بنابراین محقق این آزمایش بر این باور است که این امکان وجود دارد که ربات، زبان بینایی را یاد گرفته و رنگ را در متن تفسیر کند، اشیاء درون تصویر را در مقایسه با یکدیگر ارزیابی کند و پیکسل ها را بر این اساس، مشابه آنچه مغز انسان انجام می دهد، ارزیابی کند.
محققی دیگر که با این نظر موافق است، شرح می دهد که این مدل می تواند رنگ ها را مانند انسان ها به صورت متنی یاد بگیرد، شیئی را شناسایی کند و برای شکل ظاهری این شیء پاسخ داشته باشد. به عنوان مثال، در مورد لباسی که چند سال قبل در فضای مجازی موردبحث قرارگرفته بود، دانشمندان فکر می نمایند که افراد مختلف، بر اساس فرضیات خود در مورد منبع نوری که باعث دیده شدن رنگ پارچه می گردد، رنگ ها را به دو روش متفاوت تفسیر کردند.
او می گوید این واقعیت که مدل هوش مصنوعی می تواند تصاویر را به روشی مشابه ما تفسیر کند، به درک ما از اینکه AI چگونه مجموعه مهارت های مشابهی را توسعه می دهد، یاری می نماید. به بیان ساده تر اگر الگوریتمی که از داده های آموزشی زیادی تغذیه می نماید، آغاز به تفسیر فکری رنگ ها کند، به این معنی است که ادراک انسان و ماشین ممکن است حداقل در این مورد نزدیک به هم باشند.
بااین حال همان طور که مطالعات اخیر نشان می دهد، این مدل ها در موارد دیگر به هیچ وجه مانند ما رفتار نمی نمایند. این واقعیتی است که تفاوت های کلیدی را بین نحوه تماشا مردم و ماشین ها به دنیا نشان می دهد. بعضی از محققان دریافته اند که مدل های ترانسفورماتور پیشرفته زبان بینایی تازه به توهمات متناقض پاسخ می دهند. گاهی اوقات آن ها مانند انسان پاسخ می دهند. در موارد دیگر، آن ها پاسخ های کاملاً منطقی و عینی دقیق ارائه می دهند. اما گاهی اوقات پاسخ های آن ها به گونه ای است که گویا نتیجه توهم است.
انگیزه پشت چنین مطالعاتی آن نیست که بخواهیم ثابت کنیم انسان ها و هوش مصنوعی شبیه یکدیگرند. تفاوت اساسی بین آن ها این است که مغز ما پر از اتصالات غیرخطی و حلقه های بازخوردی است که سیگنال ها را به عقب و جلو می فرستند.
یک عصب شناس محاسباتی از دانشگاه یورک در اونتاریو که در آزمایش های خطای دید مشارکتی نداشت، می گوید: همان طور که چشم ها و سایر دستگاه های حسی ما اطلاعاتی را از دنیای بیرون جمع آوری می نمایند، این شبکه های تکراری به مغز ما یاری می نمایند تا هر شکافی را پر کند. اگرچه بعضی از شبکه های عصبی مکرر برای تقلید از این جنبه از مغز انسان ایجاد شده اند، بسیاری از مدل های یادگیری ماشینی طوری طراحی نشده اند که دارای اتصالات تکراری و دو جهته باشند.
محبوب ترین مدل های هوش مصنوعی ترانسفورماتور مولد بر توابع ریاضی مبتنی بر Feed Forward هستند. این بدان معناست که اطلاعات به وسیله آن ها فقط در یک جهت حرکت می نماید: از ورودی به خروجی. مطالعه نحوه واکنش چنین سیستمی از هوش مصنوعی به خطای دید، می تواند به دانشمندان یاری کند تا توانایی ها و سوگیری های این مدل های یادگیری ماشینی یک طرفه را بهتر درک نمایند.
به گفته تیمی از دانشمندان کامپیوتر که چهار مدل زبان بینایی منبع باز را ارزیابی کردند، یکی از عوامل تأثیرگذار، مقدار مدل است. محققان دریافتند که مدل های بزرگ تر، یعنی مدل هایی که با وزن ها و متغیرهای بیشتری پیشرفته اند، در مقایسه با مدل های کوچک تر، با پاسخ های انسان به خطاهای دید هماهنگ ترند.
به طورکلی، مدل های هوش مصنوعی که دانشمندان آزمایش کردند، به ویژه در تثبیت عناصر توهم آمیز در یک تصویر خوب عمل نکردند به طور میانگین کمتر از 36 درصد دقت داشتند. آن ها به طور میانه تنها حدود 16 درصد موارد با پاسخ های انسان هم سو بودند. بااین حال، این مطالعه بعلاوه نشان داد که مدل ها در واکنش به انواع خاصی از خطای دید نسبت به سایر مدل ها با دقت بیشتری از انسان تقلید می نمایند.
به عنوان مثال پاسخ این مدل ها در مورد خطای دید، یکی از شبیه ترین خروجی های انسانی را به همراه داشت. محققان با روشی خاص از مدل ها خواستند تا در مورد تصاویر قضاوت نمایند. آن ها در نظر گرفته بودند که اگر این هوش مصنوعی در پاسخ های خود 75 درصد به ادراک خطای دید انسانی نزدیک باشند، این مدل را انسان مانند خطاب نمایند.
در پژوهشی دیگر که قبلاً منتشرشده بود، محققان توانایی های GPT-4V و Gemini-Pro گوگل را برای ارزیابی 12 دسته مختلف از خطای دید آزمایش کردند. این ها توهمات شامل اشیاء غیرممکن است که به نوعی شکل های دوبعدی اجسامی هستند که نمی توانند در فضای سه بعدی وجود داشته باشند و توهمات تصویری پنهان که در آن سایه های اجسام در یک تصویر گنجانده می شوند بدون اینکه بلافاصله آشکار شوند.
در 9 مورد از 12 دسته، مدل ها در تشخیص آنچه در خطای دید اتفاق می افتد، در مقایسه با افراد بدتر بودند و میانگین دقت 59 درصد در مقابل 94 درصد پاسخ دهندگان انسانی داشتند. اما در سه دسته خطای دید رنگ، زاویه و مقدار GPT-4V به طور قابل مقایسه یا حتی کمی بهتر از بازبینان انسانی عمل کرد.
یکی از نویسندگان این پژوهش از آزمایشگاه هوش مصنوعی خدمات وب آمازون، بر این باور است که این تفاوت به آن بستگی دارد که تجزیه وتحلیل خطاهای دید و توهمات به استدلال کمی یا کیفی احتیاج دارد. انسان ها در هر دو کار مهارت دارند، اما ممکن است مدل های یادگیری ماشینی آمادگی کمتری برای قضاوت بر اساس چیزهایی داشته باشند که به راحتی قابل مقدار گیری نیستند. هر سه دسته توهم که در آن ها دستگاه های هوش مصنوعی در تفسیر برترین بودند، علاوه بر ویژگی های فکری شامل ویژگی های قابل مقدار گیری کمی نیز هستند.
دانشمندان می گویند برای استقرار مسئولانه دستگاه های هوش مصنوعی، باید آسیب پذیری ها و نقاط کور آن ها و بعلاوه مکان هایی را که تمایلات انسانی تکرار می شوند و نمی شوند، درک کنیم. همسو شدن یک مدل با انسان ها می تواند همان قدر که خوب باشد، بد هم باشد. بعلاوه در بعضی موارد ابزارهایی مانند ابزارهای تشخیص پزشکی هوش مصنوعی که تصاویر رادیولوژی را تجزیه وتحلیل می نمایند به این علت که در حالت آرمانی مستعد خطای بینایی نیستند، باعث خوش بینی نسبت به این نوع فناوری می شوند.
بنابراین، آزمایش خطای دید بر روی GPT-4V OpenAI و سایر مدل های بزرگ یادگیری ماشینی که اغلب به عنوان جعبه های سیاه توصیف می شوند می توانند آنچه را واقعا در سر هوش مصنوعی می گذرد آشکار کند.
منبع: scientificamerican
54323
منبع: خبرآنلاین