اندازهٔ مدل و سخت‌افزار — دورهٔ هوش مصنوعی

«۷ میلیارد» در برابر «۷۰ میلیارد» فقط یک عدد نیست؛ تفاوتِ کیفیت، هزینه و سخت‌افزار را تعیین می‌کند. درک این رابطه برای بودجه‌بندیِ زیرساخت حیاتی است.

پارامتر یعنی چه؟

هر پارامتر یک «وزنِ» آموخته‌شده است. مدلِ بزرگ‌تر ظرفیتِ بیشتری برای الگوهای پیچیده دارد، اما حافظه و محاسبهٔ بیشتری می‌طلبد. قاعدهٔ سرانگشتی برای حافظهٔ استنتاج: در دقتِ fp16 هر پارامتر ≈ ۲ بایت.

حافظهٔ تقریبیِ GPU برای استنتاج (fp16)

قاعدهٔ سرانگشتی: ۲ بایت/پارامتر؛ بدونِ سربارِ KV-cache. کوانتیزیشنِ ۴-بیتی این رقم را تا ~یک‌چهارم کاهش می‌دهد.

کوانتیزیشن — کوچک‌سازیِ هوشمند

fp16 / bf16

دقتِ کامل؛ بهترین کیفیت، بیشترین حافظه.

۸-بیتی

نصفِ حافظه با افتِ کیفیتِ ناچیز.

۴-بیتی (GGUF/QLoRA)

یک‌چهارمِ حافظه؛ اجرای ۷۰B روی یک GPU ممکن می‌شود.

سخت‌افزارِ رایج

دسته	نمونه	کاربرد
GPU دیتاسنتر	NVIDIA H100 / H200 / A100	آموزش و استنتاجِ مقیاس‌بالا
شتاب‌دهندهٔ گوگل	TPU	آموزش در ابر گوگل
اجرای محلی	GPU مصرفی + llama.cpp / Ollama	استنتاجِ بومی و کم‌هزینه
سرویس‌دهی	vLLM	throughput بالا برای چند کاربر

ابزارِ تعاملی: دقتِ عددی و ماشین‌حسابِ حافظه

اسلایدر را حرکت دهید و ببینید مدل روی «۲× RTX 4070 = ۲۴GB» جا می‌شود یا نه.

مثالِ بنیاد: دستیارِ فارسیِ on-prem (حاکمیتِ داده)

آیا بنیاد می‌تواند یک دستیارِ فارسی را روی GPUهای موجودِ خود اجرا کند تا داده از کشور خارج نشود؟ با ماشین‌حسابِ بالا: یک مدلِ ۸B در حالتِ ۸-بیتی راحت جا می‌شود؛ در ۱۶-بیتی با احتسابِ سربار، تنگ یا فراتر از ۲۴GB می‌شود. این یعنی کوانتیزیشن، کلیدِ استقلالِ محاسباتیِ بنیاد است.

قانون مقیاس‌پذیری Chinchilla

DeepMind (۲۰۲۲) نشان داد برای آموزشِ بهینه، اندازهٔ مدل و حجمِ دادهٔ آموزش باید هم‌زمان رشد کنند — مدلِ بزرگ‌ترِ کم‌داده، اتلافِ منابع است.

منابع

Chinchilla — قانون مقیاس‌پذیری

Hoffmann و همکاران، DeepMind، ۲۰۲۲

QLoRA — کوانتیزیشن ۴-بیتی

Dettmers و همکاران، ۲۰۲۳

NVIDIA H200

مشخصات سخت‌افزار