هوش مصنوعی رفتارهای مخرب خود را تحت فشار پنهان می کند

دانشمندان اخیرا دریافتند که هوش مصنوعی تحت فشار کاربران و برنامهنویسان میتواند عقاید نادرست و رفتارهای مخرب خود را پنهان کند، در حالیکه کماکان به اشاعه آن عقاید تحت عناوین مختلف ادامه میدهد.
به گزارش «نبض فناوری»، پژوهشی جدید نشان داد که مدلهای استدلال پیشرفته تمایل دارند از شکافهای طراحی بهرهبرداری کنند.
پژوهشگران با استفاده از یک مدل زبانی بزرگ توانستند با نظارت بر «زنجیره افکار» این مدلها، رفتارهای مخرب مانند دور زدن تستها، فریب کاربران، و تسلیم شدن در مواجهه با مسائل دشوار را شناسایی کنند.
نتایج پژوهش نشان داد که مدلهای هوش مصنوعی اغلب نیت خود برای انجام رفتار مخرب را به وضوح در زنجیره افکارشان بیان میکنند.
این ویژگی باعث میشود بتوان از طریق مدل ناظری که زنجیره افکار را پایش میکند، چنین نیتهایی را کشف کرد./چندثانیه