بازگشت به سرفصل‌ها
سرفصل ۰۳ · مبانی فنی

اندازهٔ مدل و سخت‌افزار

«۷ میلیارد» در برابر «۷۰ میلیارد» فقط یک عدد نیست؛ تفاوتِ کیفیت، هزینه و سخت‌افزار را تعیین می‌کند. درک این رابطه برای بودجه‌بندیِ زیرساخت حیاتی است.

پارامتر یعنی چه؟

هر پارامتر یک «وزنِ» آموخته‌شده است. مدلِ بزرگ‌تر ظرفیتِ بیشتری برای الگوهای پیچیده دارد، اما حافظه و محاسبهٔ بیشتری می‌طلبد. قاعدهٔ سرانگشتی برای حافظهٔ استنتاج: در دقتِ fp16 هر پارامتر ≈ ۲ بایت.

حافظهٔ تقریبیِ GPU برای استنتاج (fp16)

قاعدهٔ سرانگشتی: ۲ بایت/پارامتر؛ بدونِ سربارِ KV-cache. کوانتیزیشنِ ۴-بیتی این رقم را تا ~یک‌چهارم کاهش می‌دهد.

کوانتیزیشن — کوچک‌سازیِ هوشمند

fp16 / bf16

دقتِ کامل؛ بهترین کیفیت، بیشترین حافظه.

۸-بیتی

نصفِ حافظه با افتِ کیفیتِ ناچیز.

۴-بیتی (GGUF/QLoRA)

یک‌چهارمِ حافظه؛ اجرای ۷۰B روی یک GPU ممکن می‌شود.

سخت‌افزارِ رایج

دستهنمونهکاربرد
GPU دیتاسنترNVIDIA H100 / H200 / A100آموزش و استنتاجِ مقیاس‌بالا
شتاب‌دهندهٔ گوگلTPUآموزش در ابر گوگل
اجرای محلیGPU مصرفی + llama.cpp / Ollamaاستنتاجِ بومی و کم‌هزینه
سرویس‌دهیvLLMthroughput بالا برای چند کاربر
قانون مقیاس‌پذیری Chinchilla

DeepMind (۲۰۲۲) نشان داد برای آموزشِ بهینه، اندازهٔ مدل و حجمِ دادهٔ آموزش باید هم‌زمان رشد کنند — مدلِ بزرگ‌ترِ کم‌داده، اتلافِ منابع است.

منابع

اندازهٔ مدل و سخت‌افزار — دورهٔ هوش مصنوعی — alef.ba