هوش مصنوعی در آزمایشها از کنترل محققان خارج شد
به گزارش گروه علم و پیشرفت خبرگزاری فارس به نقل از لایوساینس، محققان هوش مصنوعی دریافتند که تکنیکهای آموزش ایمنی پرکاربرد در حذف رفتار مخرب از مدلهای زبان بزرگ شکست خورده و حتی یک تکنیک نتیجه معکوس داشت و به هوش مصنوعی آموخت که محرکهای خود را بشناسد و رفتار بد خود را بهتر از محققان پنهان کند.
محققان هوش مصنوعی دریافتند که تکنیکهای پرکاربرد آموزش ایمنی در حذف رفتار مخرب از مدلهای زبانی بزرگ شکست خورده است و حتی یک تکنیک نتیجه معکوس داشت و به هوش مصنوعی آموخت که محرکهای خود را بشناسد و رفتار بد خود را بهتر پنهان کند.
مطالعه جدید نشان میدهد که سیستمهای هوش مصنوعی که برای مخرب بودن آموزش دیده بودند، در برابر پیشرفتهترین روشهای ایمنی طراحیشده برای پاکسازی آنها، مقاومت کردند.
محققان مدلهای زبانی بزرگ مختلف (سیستمهای هوش مصنوعی مولد مشابه چت جی پی تی) را برای رفتار مخرب برنامهریزی کردند. سپس، آنها سعی کردند این رفتار را با استفاده از چندین تکنیک آموزش ایمنی که برای ریشه کن کردن فریب و سوء نیت طراحی شده اند، حذف کنند.
آنها دریافتند که صرف نظر از تکنیک آموزشی یا اندازه مدل، م..