«۷ میلیارد» در برابر «۷۰ میلیارد» فقط یک عدد نیست؛ تفاوتِ کیفیت، هزینه و سختافزار را تعیین میکند. درک این رابطه برای بودجهبندیِ زیرساخت حیاتی است.
پارامتر یعنی چه؟
هر پارامتر یک «وزنِ» آموختهشده است. مدلِ بزرگتر ظرفیتِ بیشتری برای الگوهای پیچیده دارد، اما حافظه و محاسبهٔ بیشتری میطلبد. قاعدهٔ سرانگشتی برای حافظهٔ استنتاج: در دقتِ fp16 هر پارامتر ≈ ۲ بایت.
حافظهٔ تقریبیِ GPU برای استنتاج (fp16)
قاعدهٔ سرانگشتی: ۲ بایت/پارامتر؛ بدونِ سربارِ KV-cache. کوانتیزیشنِ ۴-بیتی این رقم را تا ~یکچهارم کاهش میدهد.
کوانتیزیشن — کوچکسازیِ هوشمند
fp16 / bf16
دقتِ کامل؛ بهترین کیفیت، بیشترین حافظه.
۸-بیتی
نصفِ حافظه با افتِ کیفیتِ ناچیز.
۴-بیتی (GGUF/QLoRA)
یکچهارمِ حافظه؛ اجرای ۷۰B روی یک GPU ممکن میشود.
سختافزارِ رایج
| دسته | نمونه | کاربرد |
|---|---|---|
| GPU دیتاسنتر | NVIDIA H100 / H200 / A100 | آموزش و استنتاجِ مقیاسبالا |
| شتابدهندهٔ گوگل | TPU | آموزش در ابر گوگل |
| اجرای محلی | GPU مصرفی + llama.cpp / Ollama | استنتاجِ بومی و کمهزینه |
| سرویسدهی | vLLM | throughput بالا برای چند کاربر |
قانون مقیاسپذیری Chinchilla
DeepMind (۲۰۲۲) نشان داد برای آموزشِ بهینه، اندازهٔ مدل و حجمِ دادهٔ آموزش باید همزمان رشد کنند — مدلِ بزرگترِ کمداده، اتلافِ منابع است.