AI

مطالعه می تواند منجر به LLM هایی شود که در استدلال پیچیده بهتر هستند | اخبار MIT

MIT fewshot 01 press



مطالعه می تواند منجر به LLM هایی شود که در

برای تمام قابلیت های چشمگیر آنها ، مدل های بزرگ زبان (LLM) اغلب در هنگام انجام وظایف جدید به چالش کشیدن که به مهارت های استدلال پیچیده ای نیاز دارند ، کوتاه می آیند.

در حالی که LLM یک شرکت حسابداری ممکن است در جمع بندی گزارش های مالی برتری داشته باشد ، اگر وظیفه پیش بینی روند بازار یا شناسایی معاملات کلاهبرداری را داشته باشد ، می تواند به طور غیر منتظره ای شکست بخورد.

برای سازگاری بیشتر LLMS ، محققان MIT بررسی کردند که چگونه یک تکنیک آموزشی خاص می تواند از لحاظ استراتژیک برای تقویت عملکرد یک مدل بر روی مشکلات ناآشنا و دشوار مستقر شود.

آنها نشان می دهند که آموزش زمان آزمون ، روشی که شامل به روزرسانی موقت برخی از کارهای درونی یک مدل در هنگام استقرار است ، می تواند منجر به بهبود شش برابر در صحت شود. محققان چارچوبی را برای اجرای یک استراتژی آموزش زمان آزمایش ایجاد کردند که از نمونه هایی از کار جدید برای به حداکثر رساندن این سود استفاده می کند.

کار آنها می تواند انعطاف پذیری یک مدل را بهبود بخشد و یک LLM خارج از قفسه را قادر سازد تا با کارهای پیچیده ای که نیاز به برنامه ریزی یا انتزاع دارند ، سازگار شود. این می تواند به LLM هایی منجر شود که در بسیاری از برنامه های کاربردی که نیاز به کسر منطقی دارند ، از تشخیص پزشکی گرفته تا مدیریت زنجیره تأمین دقیق تر باشد.

“یادگیری واقعی-کاری که ما در اینجا با آموزش زمان آزمایش انجام دادیم-کاری است که این مدل ها پس از حمل آنها نمی توانند به تنهایی انجام دهند. آنها نمی توانند مهارت های جدیدی کسب کنند یا در یک کار بهتر شوند.

Akyürek در کاغذ توسط دانشجویان فارغ التحصیل Mehul Damani ، Linlu Qiu ، Han Guo و Jyothish Pari ؛ کارشناسی آدام زویگر ؛ و نویسندگان ارشد یون کیم ، استادیار مهندسی برق و علوم کامپیوتر (EEC) و عضو آزمایشگاه علوم کامپیوتر و اطلاعات مصنوعی (CSAIL). و یعقوب آندریاس ، استادیار EECS و عضو CSAIL. این تحقیق در کنفرانس بین المللی یادگیری ماشین ارائه می شود.

مقابله با دامنه های سخت

کاربران LLM اغلب با استفاده از تکنیکی به نام یادگیری درون متن سعی می کنند عملکرد مدل خود را بر روی یک کار جدید بهبود بخشند. آنها چند نمونه از کار جدید را به عنوان متن متن که خروجی های مدل را راهنمایی می کند ، از مدل تغذیه می کنند.

اما یادگیری درون متن همیشه برای مشکلاتی که نیاز به منطق و استدلال دارند ، کار نمی کند.

محققان MIT بررسی کردند که چگونه می توان از آموزش زمان آزمون در رابطه با یادگیری درون متن برای تقویت عملکرد در این کارهای چالش برانگیز استفاده کرد. آموزش زمان آزمون شامل به روزرسانی برخی از پارامترهای مدل-متغیرهای داخلی که برای پیش بینی استفاده می شود-با استفاده از مقدار کمی از داده های جدید خاص برای کار مورد نظر.

محققان چگونگی تعامل آموزش زمان آزمون با یادگیری درون متن را بررسی کردند. آنها گزینه های طراحی را مورد مطالعه قرار دادند که حداکثر پیشرفت عملکرد را می توان از یک LLM با هدف کلی جدا کرد.

دمانی می گوید: “ما می دانیم که آموزش زمان آزمون نوعی یادگیری بسیار قوی تر است. در حالی که ارائه نمونه ها به طور متوسط ​​می تواند دقت را افزایش دهد ، در واقع به روز کردن مدل با این مثالها می تواند منجر به عملکرد قابل توجهی بهتر ، به ویژه در حوزه های چالش برانگیز شود.”

یادگیری درون متن به مجموعه کوچکی از نمونه های کار ، از جمله مشکلات و راه حل های آنها نیاز دارد. محققان از این مثالها برای ایجاد یک مجموعه داده خاص کار مورد نیاز برای آموزش زمان آزمون استفاده می کنند.

برای گسترش اندازه این مجموعه داده ، آنها با تغییر کمی مشکلات و راه حل ها در مثالها ، مانند افقی در برخی از داده های ورودی ، ورودی های جدیدی ایجاد می کنند. آنها دریافتند که آموزش مدل در مورد خروجی های این مجموعه داده جدید منجر به بهترین عملکرد می شود.

علاوه بر این ، محققان فقط تعداد کمی از پارامترهای مدل را با استفاده از تکنیکی به نام سازگار با رتبه پایین به روز می کنند که باعث افزایش کارایی فرایند آموزش زمان آزمون می شود.

Akyürek می گوید: “این مهم است زیرا اگر قرار باشد در دنیای واقعی مستقر شود ، روش ما باید کارآمد باشد. ما می دانیم که می توانید با مقدار بسیار کمی از آموزش پارامتر ، پیشرفت های بزرگی در دقت کسب کنید.”

توسعه مهارت های جدید

ساده کردن این روند مهم است ، زیرا آموزش زمان آزمون بر اساس هر حالت به کار می رود ، به این معنی که کاربر باید این کار را برای هر کار جداگانه انجام دهد. به روزرسانی های این مدل فقط موقتی است و مدل پس از پیش بینی به شکل اصلی خود باز می گردد.

آکرکرک می افزاید: مدلی که معمولاً کمتر از یک دقیقه برای پاسخ به یک پرس و جو طول می کشد ممکن است پنج یا 10 دقیقه طول بکشد تا پاسخ با آموزش زمان آزمایش ارائه شود.

وی می گوید: “ما نمی خواهیم این کار را برای همه سؤالات کاربر انجام دهیم ، اما اگر یک کار بسیار سخت داشته باشید که بخواهید مدل را به خوبی حل کنید ، مفید است.

محققان رویکرد خود را در دو مجموعه داده معیار از مشکلات بسیار پیچیده مانند معماهای ضریب هوشی آزمایش کردند. این دقت را به اندازه شش برابر بیش از تکنیک هایی که فقط از یادگیری درون متن استفاده می کنند ، افزایش می دهد.

وظایفی که شامل الگوهای ساختاری یا مواردی که از انواع کاملاً ناآشنا داده استفاده می کردند ، بیشترین پیشرفت عملکرد را نشان دادند.

دمانی می گوید: “برای کارهای ساده تر ، یادگیری درون متن ممکن است خوب باشد. اما به روزرسانی پارامترها ممکن است مهارت جدیدی در مدل ایجاد کند.”

در آینده ، محققان می خواهند از این بینش ها برای توسعه مدلهایی که به طور مداوم یاد می گیرند استفاده کنند.

هدف بلند مدت یک LLM است که با توجه به یک پرس و جو ، می تواند به طور خودکار تعیین کند که آیا برای به روزرسانی پارامترها نیاز به استفاده از آموزش زمان آزمون دارد یا اینکه می تواند کار را با استفاده از یادگیری درون متن حل کند ، و سپس بهترین استراتژی آموزش زمان آزمون را بدون نیاز به مداخله انسان اجرا کند.

این کار تا حدودی توسط آزمایشگاه MIT-IBM Watson AI و بنیاد ملی علوم پشتیبانی می شود.

.



منبع

ترجمه شده توسط هوش مصنوعی گوگل

دیدگاهتان را بنویسید