برخی از مدلهای زبانی بزرگ ۲۲ برابر صدمهپذیرترند_دوپلر
[ad_1]
نوشته و ویرایش شده توسط مجله دوپلر
رشد سریع مدلهای زبانی بزرگ (LLMs) که با اهداف مخرب آموزش داده خواهد شد، تهدیدی جدی برای امنیت سازمانها به شمار میروال. پژوهش تازه شرکت سیسکو مشخص می کند هرچه مدلها زیاد تر تنظیم دقیق (Fine-tune) شده باشند، به گمان زیادً دستیابی به خروجیهای صدمهزا در آنها زیاد تر است. در واقع مدلهای زبانی بزرگی که تنظیم دقیق شدهاند، ۲۲ برابر زیاد تر از مدلهای پایه خروجیهای خطرناک تشکیل میکنند.
بازار سیاه مدلهای زبانی مخرب: قوی و ارزان
بر پایه گزارش «VentureBeat»، مدلهایی همانند FraudGPT،GhostGPT و DarkGPT با قیمتهایی نزدیک به ۷۵ دلار در ماه در دارکوب و تلگرام فروخته خواهد شد. این مدلها آماده انجام حملاتی همانند فیشینگ، تشکیل کدهای مخرب، شناسایی مقدار صدمهپذیری و دورزدن سیستمهای امنیتی اراعه خواهد شد.
مسئله دلواپسکننده اینجاست که این ابزارها کاملاً همانند نرمافزارهای اجارهای (SaaS) عمل میکنند. این محصولات با داشبورد، API، حمایتو بهروزرسانی منظم اراعه خواهد شد. با افت شدید هزینه اجاره یا خرید این مدلها، مهاجمان بیشتری درحال منفعت گیری از آنها می باشند.
مطالعه شرکت سیسکو مشخص می کند فرایند تنظیم دقیق مدلهای زبانی، گرچه دقت و کاربردپذیری مدلها را افزایش میدهد، بهطور چشمگیری کنترلهای ایمنی داخلی آنها را ضعیف میکند.
در این تحقیق که مدلهایی همانند Llama-2-7B و Microsoft Adapt LLMs در حوزههای پزشکی، مالی و حقوقی بازدید شدند، بیشترین نرخ ازبینرفتن کنترلهای هوش مصنوعی و پیروزی حملات جیلبریک مشاهده شد.

در مدلهایی که تنظیم دقیق شدهاند، نرخ پیروزی حملات جیلبریک نزدیک به سهبرابر شد و مقدار تشکیل خروجیهای مخرب نسبت به مدلهای پایه تا ۲۲۰۰ درصد افزایش یافت. این یافتهها نشان خواهند داد هرچند این بهینهسازی مزایایی دارد، در روبه رو، سطح دعواپذیری مدلها را بهشکل خطرناکی گسترش میدهد.
بر پایه پژوهش مشترک سیسکو با گوگل و انویدیا، فقط با ۶۰ دلار میتوان دادههای آموزشی مدلهای زبانی را آلوده کرد. مهاجمان با راه حلهایی همانند ثبت دامنههای منقضیشده یا زمانبندی ویرایشهای ویکیپدیا، دادههای مخرب را در پایگاههای داده گوناگون تزریق میکنند.
این راه حلها همانند «Split-view poisoning» و «Frontrunning»، زیاد راحت به زیرساخت دادههای جمعآوریشده از وب نفوذ میکنند و پنهانی مدلها را به رفتارهای ناخواسته سوق خواهند داد.
سیسکو این چنین نشان داده با منفعت گیری از تکنیکی به نام «Decomposition prompting» میتوان مدلهای زبانی را وادار کرد بدون فعال شدن محافظها یا «GuardRails»، محتوای حساس و دارای حقکپی را بازسازی کنند.
در این دعوا، پرامپتها به فرمانهای کوچکتر مجزا شکسته خواهد شد که بهصورت جدا گانه ایمن شناخته خواهد شد اما در ترکیب نهایی محتوای غیرمجاز تشکیل میکنند؛ برای نمونه، در این تحقیق بیشتر از ۲۰ درصد مقالات روزنامههایی همانند نیویورک تایمز و والاستریت ژورنال بازسازی شدند.
این نوع دعوا بهخصوص برای سازمانهایی که مدلهایشان را با دادههای دارای مجوز یا محرمانه آموزش خواهند داد، زیاد خطرناک است؛ چون نقض قانون در سطح خروجی مدل اتفاق میافتد.
دسته بندی مطالب
مقالات کسب وکار
[ad_2]