مدل‌ها چگونه کار می‌کنند — دورهٔ هوش مصنوعی

مدل‌های زبانیِ بزرگ (LLM) بر پایهٔ معماریِ «ترنسفورمر» (۲۰۱۷) کار می‌کنند: متن را به «توکن» می‌شکنند، هر توکن را به بردار تبدیل می‌کنند، و با سازوکارِ «توجه» (Attention) رابطهٔ میان توکن‌ها را می‌سنجند تا توکنِ بعدی را پیش‌بینی کنند.

از متن تا پاسخ — چهار گام

توکن‌سازی

متن به قطعاتِ زیرکلمه (توکن) شکسته می‌شود. هر توکن ≈ ۰٫۷۵ کلمهٔ انگلیسی (~۴ کاراکتر).

تعبیه (Embedding)

هر توکن به یک بردارِ عددی در فضای معنایی نگاشت می‌شود.

توجه (Attention)

مدل وزن می‌دهد که هر توکن به کدام توکن‌های دیگر «توجه» کند — قلبِ ترنسفورمر.

پیش‌بینی

محتمل‌ترین توکنِ بعدی تولید و به ورودی افزوده می‌شود؛ این چرخه تکرار می‌شود.

مفاهیم کلیدی

توکن

واحدِ پردازشِ مدل. هزینه و سرعت بر اساس تعدادِ توکن سنجیده می‌شود.

پنجرهٔ زمینه

بیشینهٔ توکنی که مدل هم‌زمان می‌بیند (ورودی+خروجی). امروز تا ۱M و حتی ۱۰M توکن.

پارامتر

وزن‌های آموخته‌شدهٔ مدل؛ معیارِ تقریبیِ ظرفیت (مثلاً ۷ میلیارد).

تفاوتِ بنیادین: LLM در برابر LCM

LCM رویکردِ تازهٔ Meta (دسامبر ۲۰۲۴) است.

ویژگی	LLM (مدل زبانی)	LCM (مدل مفهومی)
واحدِ پیش‌بینی	توکن (زیرکلمه)	مفهوم (تعبیهٔ کل جمله)
فضای کار	سطحِ واژگان	فضای معناییِ SONAR
زبان	وابسته به توکنایزرِ زبان	زبان‌مستقل و چندوجهی
مزیت	بلوغ و اکوسیستم گسترده	تعمیمِ بهترِ چندزبانه و استدلالِ مفهومی

آزمایش کنید: متنِ فارسی چگونه توکن می‌شود؟

توجه (Attention) را لمس کنید

پنجرهٔ زمینه چگونه پر می‌شود؟

توضیحِ ساده — برای همه

چرا LCM مهم است؟

LCM به‌جای «کلمهٔ بعدی»، «مفهومِ بعدی» را پیش‌بینی می‌کند؛ گامی به‌سوی استدلالِ زبان‌مستقل — مهم برای فارسی و زبان‌های کم‌منبع.

مثالِ بنیاد: خلاصه‌سازیِ گزارشِ هیئت‌مدیره

خلاصه‌سازیِ یک صورت‌جلسهٔ بلندِ فارسی — یا گزارشِ منطقه‌ایِ ترکیبیِ فارسی/عربی/انگلیسی. مدلِ مفهومی (LCM) می‌تواند همان «استدلال» را میانِ زبان‌ها بازاستفاده کند؛ مزیتی روشن برای گزارش‌گیریِ چندزبانهٔ مدیران.

منابع

Attention Is All You Need (ترنسفورمر)

Vaswani و همکاران، ۲۰۱۷

Large Concept Models (LCM)

Meta AI / FAIR، دسامبر ۲۰۲۴

BPE — توکن‌سازیِ زیرکلمه

Sennrich و همکاران، ۲۰۱۵