دو راهِ اصلی برای «سفارشیسازیِ» مدل به دانشِ سازمان شما وجود دارد: فاینتیون (تغییرِ خودِ مدل) و RAG (تزریقِ دانش هنگامِ پاسخ). انتخابِ درست، صرفهجوییِ بزرگی در هزینه است.
دو رویکرد، دو فلسفه
فاینتیون (Fine-tuning)
وزنهای مدل را با دادهی شما بازآموزی میکند؛ برای «سبک، لحن و مهارت» عالی است.
RAG (بازیابیافزوده)
هنگام پاسخ، اسناد مرتبط را بازیابی و به مدل تزریق میکند؛ برای «دانشِ بهروز و قابلاستناد» عالی است.
انواع فاینتیون
از سنگین به سبک.
| روش | ایده | هزینه |
|---|---|---|
| Full fine-tuning | بازآموزیِ همهٔ وزنها | بسیار بالا |
| LoRA | آموزشِ ماتریسهای کوچکِ کمرتبه؛ تا ۱۰٬۰۰۰ برابر پارامترِ کمتر | پایین |
| QLoRA | LoRA روی مدلِ کوانتیزهشدهٔ ۴-بیتی؛ فاینتیونِ ۶۵B روی یک GPU | بسیار پایین |
| Instruction tuning | آموزشِ پیرویِ دستور (InstructGPT) | متوسط |
| RLHF / DPO | همترازی با ترجیحِ انسان | متوسط تا بالا |
RAG چگونه کار میکند
01
1
نمایهسازی
اسناد سازمان به تکهها شکسته و بهصورت بردار ذخیره میشوند.
02
2
بازیابی
هنگام پرسش، مرتبطترین تکهها با جستوجوی معنایی پیدا میشوند.
03
3
تقویت
این تکهها به پرامپتِ مدل افزوده میشوند.
04
4
پاسخِ مستند
مدل با اتکا به سندِ معتبر پاسخ میدهد و توهم کاهش مییابد.
قاعدهٔ انتخاب
برای «دانشِ متغیر و قابلاستناد» (مثل آییننامهها) → RAG. برای «مهارت و سبکِ ثابت» (مثل لحنِ سازمانی) → فاینتیون. اغلب، ترکیبِ هر دو بهترین نتیجه را میدهد.