برخی از مدل‌های زبانی بزرگ ۲۲ برابر صدمه‌پذیرترند_دوپلر

مدل‌های زبانی مخرب DarkGPT

[ad_1]
نوشته و ویرایش شده توسط مجله دوپلر

رشد سریع مدل‌های زبانی بزرگ (LLMs) که با اهداف مخرب آموزش داده خواهد شد، تهدیدی جدی برای امنیت سازمان‌ها به شمار می‌روال. پژوهش تازه شرکت سیسکو مشخص می کند هرچه مدل‌ها زیاد تر تنظیم دقیق (Fine-tune) شده باشند، به گمان زیادً دستیابی به خروجی‌های صدمه‌زا در آنها زیاد تر است. در واقع مدل‌های زبانی بزرگی که تنظیم دقیق شده‌اند، ۲۲ برابر زیاد تر از مدل‌های پایه خروجی‌های خطرناک تشکیل می‌کنند.

بازار سیاه مدل‌های زبانی مخرب: قوی و ارزان

بر پایه گزارش «VentureBeat»، مدل‌هایی همانند FraudGPT،GhostGPT و DarkGPT با قیمت‌هایی نزدیک به ۷۵ دلار در ماه در دارک‌وب و تلگرام فروخته خواهد شد. این مدل‌ها آماده انجام حملاتی همانند فیشینگ، تشکیل کدهای مخرب، شناسایی مقدار صدمه‌پذیری و دورزدن سیستم‌های امنیتی اراعه خواهد شد.

داشبورد DarkGPT که با قیمت اشتراک سالیانه ۸ هزارم بیت‌کوین اراعه می‌بشود

مسئله دلواپس‌کننده اینجاست که این ابزارها کاملاً همانند نرم‌افزارهای اجاره‌ای (SaaS) عمل می‌کنند. این محصولات با داشبورد، API، حمایتو به‌روزرسانی منظم اراعه خواهد شد. با افت شدید هزینه اجاره یا خرید این مدل‌ها، مهاجمان بیشتری درحال منفعت گیری از آنها می باشند.

مطالعه‌ شرکت سیسکو مشخص می کند فرایند تنظیم دقیق مدل‌های زبانی، گرچه دقت و کاربردپذیری مدل‌ها را افزایش می‌دهد، به‌طور چشمگیری کنترل‌های ایمنی داخلی آنها را ضعیف می‌کند.

در این تحقیق که مدل‌هایی همانند Llama-2-7B و Microsoft Adapt LLMs در حوزه‌های پزشکی، مالی و حقوقی بازدید شدند، بیشترین نرخ ازبین‌رفتن کنترل‌های هوش مصنوعی و پیروزی حملات جیلبریک مشاهده شد.

آمار موفقیت حملات TAP
با روش TAP یا Tree of Attacks with Pruning می‌توان در ۹۸ درصد اوقات در حملات جیلبریک به پیروزی دست یافت

در مدل‌هایی که تنظیم دقیق شده‌اند، نرخ پیروزی حملات جیلبریک نزدیک به سه‌برابر شد و مقدار تشکیل خروجی‌های مخرب نسبت به مدل‌های پایه تا ۲۲۰۰ درصد افزایش یافت. این یافته‌ها نشان خواهند داد هرچند این بهینه‌سازی مزایایی دارد، در روبه رو، سطح دعوا‌پذیری مدل‌ها را به‌شکل خطرناکی گسترش می‌دهد.

بر پایه پژوهش مشترک سیسکو با گوگل و انویدیا، فقط با ۶۰ دلار می‌توان داده‌های آموزشی مدل‌های زبانی را آلوده کرد. مهاجمان با راه حلهایی همانند ثبت دامنه‌های منقضی‌شده یا زمان‌بندی ویرایش‌های ویکی‌پدیا، داده‌های مخرب را در پایگاه‌های داده گوناگون تزریق می‌کنند.

این راه حلها همانند «Split-view poisoning» و «Frontrunning»، زیاد راحت به زیرساخت داده‌های جمع‌آوری‌شده از وب نفوذ می‌کنند و پنهانی مدل‌ها را به رفتارهای ناخواسته سوق خواهند داد.

سیسکو این چنین نشان داده با منفعت گیری از تکنیکی به نام «Decomposition prompting» می‌توان مدل‌های زبانی را وادار کرد بدون فعال‌ شدن محافظ‌ها یا «GuardRails»، محتوای حساس و دارای حق‌کپی را بازسازی کنند.

در این دعوا، پرامپت‌ها به فرمان‌های کوچک‌تر مجزا شکسته خواهد شد که به‌صورت جدا گانه ایمن شناخته خواهد شد اما در ترکیب نهایی محتوای غیرمجاز تشکیل می‌کنند؛ برای نمونه، در این تحقیق بیشتر از ۲۰ درصد مقالات روزنامه‌هایی همانند نیویورک تایمز و وال‌استریت ژورنال بازسازی شدند.

این نوع دعوا به‌خصوص برای سازمان‌هایی که مدل‌هایشان را با داده‌های دارای مجوز یا محرمانه آموزش خواهند داد، زیاد خطرناک است؛ چون نقض قانون در سطح خروجی مدل اتفاق می‌افتد.

دسته بندی مطالب
مقالات کسب وکار

مقالات تکنولوژی

مقالات آموزشی

سلامت و تندرستی

[ad_2]