بازگشت به سرفصل‌ها
سرفصل ۰۲ · مبانی فنی

مدل‌ها چگونه کار می‌کنند

مدل‌های زبانیِ بزرگ (LLM) بر پایهٔ معماریِ «ترنسفورمر» (۲۰۱۷) کار می‌کنند: متن را به «توکن» می‌شکنند، هر توکن را به بردار تبدیل می‌کنند، و با سازوکارِ «توجه» (Attention) رابطهٔ میان توکن‌ها را می‌سنجند تا توکنِ بعدی را پیش‌بینی کنند.

از متن تا پاسخ — چهار گام

01
1

توکن‌سازی

متن به قطعاتِ زیرکلمه (توکن) شکسته می‌شود. هر توکن ≈ ۰٫۷۵ کلمهٔ انگلیسی (~۴ کاراکتر).

02
2

تعبیه (Embedding)

هر توکن به یک بردارِ عددی در فضای معنایی نگاشت می‌شود.

03
3

توجه (Attention)

مدل وزن می‌دهد که هر توکن به کدام توکن‌های دیگر «توجه» کند — قلبِ ترنسفورمر.

04
4

پیش‌بینی

محتمل‌ترین توکنِ بعدی تولید و به ورودی افزوده می‌شود؛ این چرخه تکرار می‌شود.

مفاهیم کلیدی

توکن

واحدِ پردازشِ مدل. هزینه و سرعت بر اساس تعدادِ توکن سنجیده می‌شود.

پنجرهٔ زمینه

بیشینهٔ توکنی که مدل هم‌زمان می‌بیند (ورودی+خروجی). امروز تا ۱M و حتی ۱۰M توکن.

پارامتر

وزن‌های آموخته‌شدهٔ مدل؛ معیارِ تقریبیِ ظرفیت (مثلاً ۷ میلیارد).

تفاوتِ بنیادین: LLM در برابر LCM

LCM رویکردِ تازهٔ Meta (دسامبر ۲۰۲۴) است.

ویژگیLLM (مدل زبانی)LCM (مدل مفهومی)
واحدِ پیش‌بینیتوکن (زیرکلمه)مفهوم (تعبیهٔ کل جمله)
فضای کارسطحِ واژگانفضای معناییِ SONAR
زبانوابسته به توکنایزرِ زبانزبان‌مستقل و چندوجهی
مزیتبلوغ و اکوسیستم گستردهتعمیمِ بهترِ چندزبانه و استدلالِ مفهومی
چرا LCM مهم است؟

LCM به‌جای «کلمهٔ بعدی»، «مفهومِ بعدی» را پیش‌بینی می‌کند؛ گامی به‌سوی استدلالِ زبان‌مستقل — مهم برای فارسی و زبان‌های کم‌منبع.

منابع

مدل‌ها چگونه کار می‌کنند — دورهٔ هوش مصنوعی — alef.ba