AI

یک روش جدید برای آزمایش چگونگی طبقه بندی سیستم های AI | اخبار MIT

mit lids text classifier



یک روش جدید برای آزمایش چگونگی طبقه بندی سیستم های

آیا این بررسی فیلم یک غوغا است یا یک تابه؟ آیا این خبر در مورد تجارت یا فناوری است؟ آیا این مکالمه chatbot آنلاین در حال مشاوره مالی است؟ آیا این سایت اطلاعات پزشکی آنلاین اطلاعات نادرست ارائه می دهد؟

این نوع مکالمات خودکار ، خواه آنها به دنبال بررسی فیلم یا رستوران باشند یا اطلاعاتی در مورد حساب بانکی یا سوابق بهداشتی شما داشته باشند ، به طور فزاینده ای رواج می یابد. بیش از هر زمان دیگری ، چنین ارزیابی هایی توسط الگوریتم های بسیار پیشرفته ، معروف به طبقه بندی متن ، و نه توسط انسان انجام می شود. اما چگونه می توانیم بگوییم که واقعاً این طبقه بندی ها چقدر دقیق هستند؟

اکنون ، تیمی در آزمایشگاه MIT برای سیستم های اطلاعات و تصمیم گیری (LIDS) با رویکردی نوآورانه روبرو شده است که نه تنها اندازه گیری این طبقه بندی ها کار خود را انجام می دهد ، بلکه پس از آن یک قدم جلوتر می رود و نشان می دهد که چگونه آنها را دقیق تر کنید.

نرم افزار جدید ارزیابی و اصلاح توسط Kalyan Veeramachaneni ، یک دانشمند تحقیق اصلی در لیدز ، دانش آموزان وی لی Xu و سارا آلنگیمیش و دو نفر دیگر تهیه شده است. بسته نرم افزاری توسط هر کسی که می خواهد از آن استفاده کند ، آزادانه برای بارگیری در دسترس است.

یک روش استاندارد برای آزمایش این سیستم های طبقه بندی ایجاد آنچه به عنوان نمونه های مصنوعی شناخته می شود – جملاتی است که از نزدیک شبیه به مواردی است که قبلاً طبقه بندی شده اند. به عنوان مثال ، محققان ممکن است جمله ای را بگیرند که قبلاً توسط یک برنامه طبقه بندی کننده به عنوان یک بررسی عجیب و غریب برچسب گذاری شده است ، و می بینند که آیا تغییر یک کلمه یا چند کلمه ضمن حفظ همان معنی می تواند طبقه بندی کننده را به عنوان یک تابه فریب دهد. یا جمله ای که مشخص شد اطلاعات نادرست است ممکن است به صورت دقیق طبقه بندی شود. این توانایی برای فریب طبقه بندی کننده ها این نمونه های مخالف را ایجاد می کند.

Veeramachaneni می گوید ، مردم روش های مختلفی را برای یافتن آسیب پذیری ها در این طبقه بندی ها امتحان کرده اند. وی می گوید ، اما روشهای موجود برای یافتن این آسیب پذیری ها با این کار سخت است و نمونه های بسیاری را که باید بدست آورند از دست می دهند.

به طور فزاینده ، شرکت ها در تلاشند تا از چنین ابزارهای ارزیابی در زمان واقعی استفاده کنند و بر تولید چت بابات مورد استفاده برای اهداف مختلف نظارت می کنند تا سعی کنند اطمینان حاصل کنند که آنها پاسخ های نادرست را ارائه نمی دهند. به عنوان مثال ، یک بانک ممکن است از یک چت بابات برای پاسخگویی به سؤالات روزمره مشتری مانند چک کردن مانده حساب یا درخواست کارت اعتباری استفاده کند ، اما می خواهد اطمینان حاصل کند که پاسخ های آن هرگز نمی تواند به عنوان مشاوره مالی تعبیر شود ، که می تواند شرکت را در معرض مسئولیت قرار دهد. Veeramachaneni می گوید: “قبل از نشان دادن پاسخ chatbot به کاربر نهایی ، آنها می خواهند از طبقه بندی متن استفاده کنند تا تشخیص دهند که آیا این مشاوره مالی ارائه می دهد یا خیر.” اما پس از آن مهم است که آن طبقه بندی کننده را آزمایش کنیم تا ببینیم ارزیابی های آن چقدر قابل اعتماد است.

وی می گوید: “این موتورهای chatbots ، یا موتورهای خلاصه یا آنچه در سراسر هیئت مدیره تنظیم نشده است ،” برای مقابله با مشتریان خارجی و همچنین در یک سازمان ، به عنوان مثال ارائه اطلاعات در مورد مسائل HR. مهم است که این طبقه بندی کننده های متنی را در حلقه قرار دهید تا چیزهایی را که قرار نیست بگویند تشخیص دهد و قبل از انتقال خروجی به کاربر ، آنها را فیلتر کنید.

این جایی است که استفاده از نمونه های مخالف وارد می شود – آن دسته از جملاتی که قبلاً طبقه بندی شده اند اما در هنگام حفظ همان معنی ، کمی اصلاح می شوند ، پاسخ متفاوتی ایجاد می کنند. چگونه مردم می توانند تأیید کنند که معنی یکسان است؟ با استفاده از یک مدل بزرگ زبان دیگر (LLM) که معانی را تفسیر و مقایسه می کند. بنابراین ، اگر LLM می گوید این دو جمله به معنای یکسان است ، اما طبقه بندی کننده آنها را متفاوت نشان می دهد ، “این جمله ای است که مخالف است – می تواند طبقه بندی کننده را فریب دهد.” و هنگامی که محققان این جملات مخالف را مورد بررسی قرار دادند ، “ما متوجه شدیم که بیشتر اوقات ، این فقط یک تغییر یک کلمه بود” ، اگرچه افرادی که از LLM ها برای تولید این جملات متناوب استفاده می کردند ، اغلب متوجه این موضوع نمی شدند.

تحقیقات بیشتر ، با استفاده از LLMS برای تجزیه و تحلیل هزاران مثال ، نشان داد که برخی از کلمات خاص در تغییر طبقه بندی ها تأثیر زیادی دارند و بنابراین آزمایش دقت طبقه بندی کننده می تواند بر این زیر مجموعه کوچک از کلمات متمرکز شود که به نظر می رسد بیشترین تفاوت را ایجاد می کند. آنها دریافتند که یک دهم از 1 درصد از کل 30،000 کلمه در واژگان سیستم می تواند تقریباً نیمی از این معکوس های طبقه بندی را در برخی از برنامه های خاص به خود اختصاص دهد.

لی Xu Phd '23 ، فارغ التحصیل اخیر از لیدز که بخش عمده ای از تجزیه و تحلیل را به عنوان بخشی از کار پایان نامه خود انجام داده است ، “از تکنیک های تخمین جالب زیادی استفاده کرد تا بفهمد قدرتمندترین کلمات که می توانند طبقه بندی کلی را تغییر دهند ، می توانند طبقه بندی کننده را فریب دهند.” هدف این است که به جای اینکه در تمام تعویض های ممکن برای کلمات انجام شود ، می توان جستجوهای بسیار باریک تر را انجام داد ، بنابراین وظیفه محاسباتی تولید نمونه های مخالف بسیار قابل کنترل تر می شود. “او از مدل های بزرگ زبان استفاده می کند ، به اندازه کافی جالب ، به عنوان راهی برای درک قدرت یک کلمه واحد.”

سپس ، با استفاده از LLM ها ، کلمات دیگری را جستجو می کند که از نزدیک با این کلمات قدرتمند ارتباط دارند و غیره ، و این امکان را برای رتبه بندی کلی کلمات با توجه به تأثیر آنها بر نتایج فراهم می کند. پس از یافتن این جملات مخالف ، می توان از آنها به نوبه خود برای بازآموزی طبقه بندی کننده استفاده کرد تا آنها را در نظر بگیرد و استحکام طبقه بندی کننده را در برابر آن اشتباهات افزایش دهد.

اگر این فقط مسئله طبقه بندی مقالات خبری به دسته ها باشد یا تصمیم گیری در مورد بررسی هر چیزی از فیلم ها به رستوران ها مثبت یا منفی باشد ، ممکن است دقیق تر طبقه بندی کننده ها به نظر نرسند. اما به طور فزاینده ای ، از طبقه بندی کننده ها در تنظیماتی استفاده می شود که نتایج واقعاً مهم باشد ، خواه از انتشار ناخواسته اطلاعات حساس پزشکی ، مالی یا امنیتی جلوگیری کند ، یا به راهنمایی تحقیقات مهم ، مانند خواص ترکیبات شیمیایی یا تاشو پروتئین ها برای کاربردهای زیست پزشکی ، یا در شناسایی و مسدود کردن گفتار نفرت و چه اطلاعات نادرست شناخته شده ، کمک کند.

در نتیجه این تحقیق ، این تیم متریک جدیدی را معرفی کرد که آنها آن را P می نامند ، که معیاری از چگونگی طبقه بندی یک طبقه بندی خاص در برابر حملات تک کلمه ای را ارائه می دهد. و به دلیل اهمیت چنین موارد نادرست ، تیم تحقیقاتی محصولات خود را به عنوان دسترسی آزاد برای استفاده هر کسی در دسترس قرار داده است. این بسته از دو مؤلفه تشکیل شده است: حمله SP ، که جملات مخالف را برای آزمایش طبقه بندی کننده ها در هر کاربرد خاص و SP-DEFENCE ایجاد می کند ، که هدف آن بهبود استحکام طبقه بندی با تولید و استفاده از جملات مخالف برای بازآفرینی مدل است.

در برخی از تست ها ، که در آن روش های رقابتی برای آزمایش های طبقه بندی کننده آزمایش ، 66 درصد موفقیت را به دلیل حملات مخالف فراهم می کند ، سیستم این تیم این میزان موفقیت را تقریباً به نصف و 33.7 درصد کاهش داد. در برنامه های دیگر ، این پیشرفت به اندازه اختلاف 2 درصدی بود ، اما حتی می تواند بسیار مهم باشد ، وماماچاننی می گوید ، زیرا این سیستم ها برای بسیاری از میلیارد ها تعامل مورد استفاده قرار می گیرند که حتی درصد کمی می تواند میلیون ها معاملات را تحت تأثیر قرار دهد.

نتایج این تیم در تاریخ 7 ژوئیه در ژورنال منتشر شد سیستم های خبره در مقاله ای از Xu ، Veeramachaneni ، و Alnegheimish از درپوش ها ، به همراه Laure Berti-Equille در IRD در مارسی ، فرانسه و آلفردو کوستا-ایفانته در Universidad ری خوان کارلوس ، در اسپانیا.

.



منبع

ترجمه شده توسط هوش مصنوعی گوگل

دیدگاهتان را بنویسید