بلاگ

بازگشت به بلاگ
trojans-in-AI-models-featured تروجان ها در مدل های هوش مصنوعی

تروجان‌ها در مدل‌های هوش مصنوعی

برای ایجاد چنین اسب تروجانی وجود دارد که به فراخور میزان پیچیدگی و مقیاس ممکن است متفاوت باشد. باید جلوی همه اینها را گرفت و با آن‌ها مبارزه کرد.

کد مخرب در مدل

برخی فرمت‌های ذخیره‌گاه مدل یادگیری ماشین حاوی کد قابل اجرا هستند. برای مثال، کد دلخواه می‌تواند موقع لود فایل در فرمت پیکل   که فرمت استاندارد پیتون برای سریالی کرد داده است (تبدیل داده به نوعی که مناسب ذخیره و انتقال باشد) اجرا شود. مشخصاً این فرمت در آرشیو یادگیری عمیق PyTorch استفاده می‌شود. در آرشیو محبوب دیگر یادگیری ماشین –که TensorFlow  باشد- مدل‌ها در فرمت‌های .keras و HDF5 از لایه لامبدا که همچنین فرمان‌های دلخواه پیتون را اجرا می‌کند پشتیبانی می‌نماید. این کد می‌تواند براحتی کارایی مخرب را پنهان کند. سندسازی TensorFlow شامل هشداری می‌شود مبنی بر اینکه مدل TensorFlow می‌تواند فایل‌ها را بخواند و بنویسد و داده‌های شبکه را ارسال و دریافت کرده و حتی پروسه‌های کوچکی را نیز لانچ کند. به بیانی دیگر، این یک برنامه تمام عیار است. کد آلوده می‌تواند به محض اینکه مدل‌های یادگیری ماشین لود شدند فعال شود. در فوریه 2024 حدود 100 مدل با کارایی مخرب در ذخیره مدل‌های محبوب به نام Hugging Face کشف شدند. از میان اینها، 20 درصد پوسه معکوس روی دستگاه آلوده ساخته و 10 درصد هم نرم‌افزاری اضافه لانچ کرده بودند.

آموزش مسمومیت مجموعه داده

مدل‌ها با دستکاری مجموعه داده‌های اولیه می‌توانند در مرحله آموزش، تروجان‌زده شوند. این پروسه که مسمومیت داده نام دارد می‌تواند هدفمند یا غیرهدفمند باشد. مسمومیت هدفمند مدل را تربیت می‌کند تا در برخی موارد نادرست کار کند (برای مثال همیشه ادعا کند یوری گاگارین اولین فردی بوده که قدم بر روی ماه گذاشته). مسمومیت غیرهدفمند هدفش پایین آوردن کیفیت کلی مدل است. حملات هدف‌دار را سخت می‌شود در مدل تربیت‌شده تشخیص داد زیرا نیازمند داده‌های ورودی خاص هستند اما مسمومیت داده ورودی برای مدل بزرگ هزینه‌بردار است زیرا نیازمند تغییر حجم قابل‌توجهی از داده بدون شناسایی شدن است. در عمل، مواردی شناخته‌شده وجود دارد از دستکاری مدل‌هایی که در حین عملیات هنوز دارند یاد می‌گیرند. بارزترین نمونه مسموم شدن چت بات مایکروسافت است که برای بیان دیدگاه های نژادپرستانه و افراطی در کمتر از یک روز آموزش داده شد. یک مثال عملی‌تر، تلاش برای مسموم کردن طبقه بندی کننده هرزنامه جیمیل است. در اینجا، مهاجمین ده‌ها هزار ایمیل هرزنامه را به‌عنوان مشروع علامت‌گذاری می‌کنند تا هرزنامه بیشتری به صندوق ورودی کاربر ارسال شود. همین هدف را می توان با تغییر برچسب های آموزشی در مجموعه داده‌های مشروح یا با تزریق داده های مسموم به فرآیند تنظیم دقیق یک مدل از پیش آموزش دیده به دست آورد.

منطق پنهان یا در سایه

متود جدید دستکاری آلوده‌ی سیستم‌های هوش مصنوعی معرفی شاخه‌های اضافی به گراف رایانشی مدل است. این حمله کد قابل اجرا یا دستکاری پروسه تربیت را دربرنمی‌گیرد اما مدل دستکاری‌شده می‌تواند در واکنش به برخی داده‌های ورودی از پیش تعیین‌شده رفتار مطلوب و خواسته‌شده‌ای را نشان دهد. این حمله بر این حقیقت نفوذ دارد که مدل‌های یادگیری ماشین از گراف رایانشی برای ساختاربندی محاسبات لازم برای تربیت و اجرا استفاده می‌کنند. این جدول یا گراف توالی را که در آن بلوک‌های عصبی شبکه وصل هستند و پارامترهای عملیاتی خود را تعریف می‌کنند شرح می دهد. جداول رایانشی برای هر مدل به طور جداگانه طراحی شدند؛ هرچند در برخی معماری‌های مدل یادگیری ماشین آن‌ها پویا و دینامیک هستند. محققین نشان داده‌اند که گراف رایانشی یک کد از قبل تربیت‌شده را می‌شود با افزودن شاخه‌ای در مراحل اولیه عملیاتش که سیگنال خاصی در داده ورودی شناسایی می‌شود دستکاری کرد. به محض شناسایی، مدل طوری هدایت می‌شود که تحت منطقی که به طور جداگانه برنامه‌ریزی‌شده عمل کند. در نمونه‌ای از این پژوهش، مدل محبوب تشخیص اشیاد ویدیویی به نام YOLO دستکاری شده بود که اگر فنجان در قاب وجود داشت افراد آن قاب، نادیده گرفته شوند. خطر این متود در کارایی‌اش در همه مدل‌هاست؛ صرف‌نظر از فرمت ذخیره‌گاه، مدل و مقیاس کارکرد. یک بک‌در را می توان برای پردازش زبان طبیعی، تشخیص اشیا، وظایف طبقه بندی و مدل های زبان چندوجهی پیاده سازی کرد. علاوه بر این، چنین اصلاحی را می‌توان حفظ کرد حتی اگر مدل تحت آموزش و تنظیم دقیق باشد.

راهکارهای امنیتی

اقدام امنیتی کلیدی، کنترل تام زنجیره تأمین است. این یعنی تضمین اینکه اصل هر جزئی در سیستم هوش مصنوعی شناخته‌شده و آزاد از هر دستکاری مخربی باشد. می‌توان به موارد زیر اشاره داشت:

  •         کدی که مدل هوش مصنوعی را اجرا می‌کند
  •         محیط محاسباتی که مدل در آن کار می‌کند (معمولا میزبانی کلود)
  •         فایل‌های مدل
  •         داده های مورد استفاده برای آموزش
  •         داده‌های مورد استفاده برای تنظیم دقیق
  •         مخازن اصلی ML به تدریج امضاهای دیجیتال را برای تأیید منشاء و کد مدل‌ها پیاده سازی می‌کنند.

در مواردی که کنترل شدید روی خاستگاه اصلی داده و کد محسوس نیست، باید به نفع پیشنهادات ارائه‌دهنده‌های بااعتبار، از مدل‌های منابع مشکوک دست کشید. همچنین مهم است که برای ذخیره مدل‌های یادگیری ماشین از فرمت‌های امن استفاده کنید. هشدارهای ذخیره‌گاه  Hugging Face موقع لود مدل‌هایی که قادر به اجرای کد هستند نمایش داده می‌شوند. همچنین فرمت اولیه ذخیره‌گاه مدل Safetensor است که اجرای کد را مسدود می‌کند.

آبادیس (نمایندگی فروش محصولات کسپرسکی)

کسپرسکی اسم یکی از بزرگترین شرکتهای امنیتی و سازنده آنتی ویروس است که برخی از کاربران اشتباهاً این شرکت و محصولات آنتی ویروس آن را با عناوینی نظیر کسپرسکای،کاسپرسکی، کسپراسکای، کسپراسکای، و یا کاسپراسکای نیز میشناسد. همچنین لازم به ذکر است مدیرعامل این شرکت نیز یوجین کسپرسکی نام دارد.

اشتراک گذاری پست

بازگشت به بلاگ