مدلهای زبانیِ بزرگ (LLM) بر پایهٔ معماریِ «ترنسفورمر» (۲۰۱۷) کار میکنند: متن را به «توکن» میشکنند، هر توکن را به بردار تبدیل میکنند، و با سازوکارِ «توجه» (Attention) رابطهٔ میان توکنها را میسنجند تا توکنِ بعدی را پیشبینی کنند.
از متن تا پاسخ — چهار گام
توکنسازی
متن به قطعاتِ زیرکلمه (توکن) شکسته میشود. هر توکن ≈ ۰٫۷۵ کلمهٔ انگلیسی (~۴ کاراکتر).
تعبیه (Embedding)
هر توکن به یک بردارِ عددی در فضای معنایی نگاشت میشود.
توجه (Attention)
مدل وزن میدهد که هر توکن به کدام توکنهای دیگر «توجه» کند — قلبِ ترنسفورمر.
پیشبینی
محتملترین توکنِ بعدی تولید و به ورودی افزوده میشود؛ این چرخه تکرار میشود.
مفاهیم کلیدی
توکن
واحدِ پردازشِ مدل. هزینه و سرعت بر اساس تعدادِ توکن سنجیده میشود.
پنجرهٔ زمینه
بیشینهٔ توکنی که مدل همزمان میبیند (ورودی+خروجی). امروز تا ۱M و حتی ۱۰M توکن.
پارامتر
وزنهای آموختهشدهٔ مدل؛ معیارِ تقریبیِ ظرفیت (مثلاً ۷ میلیارد).
تفاوتِ بنیادین: LLM در برابر LCM
LCM رویکردِ تازهٔ Meta (دسامبر ۲۰۲۴) است.
| ویژگی | LLM (مدل زبانی) | LCM (مدل مفهومی) |
|---|---|---|
| واحدِ پیشبینی | توکن (زیرکلمه) | مفهوم (تعبیهٔ کل جمله) |
| فضای کار | سطحِ واژگان | فضای معناییِ SONAR |
| زبان | وابسته به توکنایزرِ زبان | زبانمستقل و چندوجهی |
| مزیت | بلوغ و اکوسیستم گسترده | تعمیمِ بهترِ چندزبانه و استدلالِ مفهومی |
LCM بهجای «کلمهٔ بعدی»، «مفهومِ بعدی» را پیشبینی میکند؛ گامی بهسوی استدلالِ زبانمستقل — مهم برای فارسی و زبانهای کممنبع.