هوش مصنوعی در آزمایش‌ها از کنترل محققان خارج شد

به گزارش گروه علم و پیشرفت خبرگزاری فارس به نقل از لایوساینس، محققان هوش مصنوعی دریافتند که تکنیک‌های آموزش ایمنی پرکاربرد در حذف رفتار مخرب از مدل‌های زبان بزرگ شکست خورده و حتی یک تکنیک نتیجه معکوس داشت و به هوش مصنوعی آموخت که محرک‌های خود را بشناسد و رفتار بد خود را بهتر از محققان پنهان کند.
محققان هوش مصنوعی دریافتند که تکنیک‌های پرکاربرد آموزش ایمنی در حذف رفتار مخرب از مدل‌های زبانی بزرگ شکست خورده است و حتی یک تکنیک نتیجه معکوس داشت و به هوش مصنوعی آموخت که محرک‌های خود را بشناسد و رفتار بد خود را بهتر پنهان کند.
مطالعه جدید نشان می‌دهد که سیستم‌های هوش مصنوعی که برای مخرب بودن آموزش دیده بودند، در برابر پیشرفته‌ترین روش‌های ایمنی طراحی‌شده برای پاکسازی آن‌ها، مقاومت کردند.
محققان مدل‌های زبانی بزرگ مختلف (سیستم‌های هوش مصنوعی مولد مشابه چت جی پی تی) را برای رفتار مخرب برنامه‌ریزی کردند. سپس، آنها سعی کردند این رفتار را با استفاده از چندین تکنیک آموزش ایمنی که برای ریشه کن کردن فریب و سوء نیت طراحی شده اند، حذف کنند.
آنها دریافتند که صرف نظر از تکنیک آموزشی یا اندازه مدل، م..