معماری NVIDIA Blackwell؛ موتور محرک کارخانه‌های هوش مصنوعی با ۲۰۸ میلیارد ترانزیستور وارد تولید انبوه شد

چکیده گزارش فنی: عبور از مرزهای پردازش با معماری Blackwell

ابر‌تراشه هوش مصنوعی: ادغام ۲۰۸ میلیارد ترانزیستور در دو دای (Die) محدود به رتیکل با اتصال فوق‌سریع ۱۰ ترابایت بر ثانیه (10 TB/s).
موتور ترانسفورمر نسل دوم: پشتیبانی از محاسبات ۴ بیتی (FP4) که عملکرد و ظرفیت مدل‌های قابل پشتیبانی در حافظه را دو برابر می‌کند.
امنیت سخت‌افزاری (Confidential Computing): اولین پردازنده گرافیکی مجهز به TEE-I/O در صنعت برای محافظت از داده‌های حساس در حال پردازش.
تکامل NVLink: نسل پنجم با قابلیت مقیاس‌پذیری تا ۵۷۶ پردازنده گرافیکی و پهنای باند ۱۳۰ ترابایت بر ثانیه در ساختار NVL72.
موتورهای اختصاصی: مجهز به موتور RAS برای پیش‌بینی هوشمند خرابی‌ها و موتور Decompression برای تسریع پایگاه‌های داده.

معماری NVIDIA Blackwell به عنوان موتور محرک کارخانه‌های هوش مصنوعی (AI Factories) برای عصر «استدلال هوش مصنوعی» (AI Reasoning) اکنون در فاز تولید انبوه قرار دارد. این معماری با تکیه بر نسل‌ها فناوری پیشرفته انویدیا، فصل جدیدی از هوش مصنوعی مولد را با عملکرد، بهره‌وری و مقیاس‌پذیری بی‌نظیر تعریف می‌کند و مرزهای پردازش شتاب‌یافته را جابجا کرده است.

فهرست محتوا:

ابر‌تراشه‌ای با ۲۰۸ میلیارد ترانزیستور

پردازنده‌های گرافیکی مبتنی بر معماری Blackwell، میزبان ۲۰۸ میلیارد ترانزیستور هستند و با استفاده از فرآیند لیتوگرافی سفارشی TSMC 4NP تولید می‌شوند. تمامی محصولات Blackwell دارای دو دای (Die) محدود به رتیکل (بزرگ‌ترین اندازه ممکن در چاپ سیلیکون) هستند که از طریق یک اتصال درون‌تراشه‌ای (Chip-to-Chip Interconnect) با سرعت خیره‌کننده ۱۰ ترابایت بر ثانیه (10 TB/s) به یکدیگر متصل شده‌اند تا به عنوان یک GPU واحد و یکپارچه عمل کنند.

موتور ترانسفورمر نسل دوم و جادوی FP4

موتور ترانسفورمر (Transformer Engine) نسل دوم در این معماری، هسته‌های تنسور اختصاصی Blackwell را با نوآوری‌های نرم‌افزاری NVIDIA TensorRT™-LLM و فریم‌ورک NeMo™ ترکیب می‌کند تا فرآیند آموزش (Training) و استنتاج (Inference) در مدل‌های زبانی بزرگ (LLM) و معماری‌های «ترکیبی از خبرگان» (Mixture-of-Experts یا MoE) را به شدت شتاب بخشد.

هسته‌های تنسور جدید در Blackwell فرمت‌های مقیاس‌بندی خرد (Microscaling Formats) جدیدی را اضافه کرده‌اند. به طور خاص، در نسخه‌های NVIDIA Blackwell Ultra، هسته‌های تنسور تا ۲ برابر در لایه‌های Attention سریع‌تر شده و ۱.۵ برابر فلاپس (FLOPS) بیشتری نسبت به نسخه پایه Blackwell ارائه می‌دهند. این موتور با استفاده از تکنیک میکرو-تنسور اسکیلینگ، دستیابی به محاسبات ۴ بیتی (FP4) را با حفظ دقت بالا ممکن می‌سازد. این ارتقا باعث می‌شود عملکرد و اندازه مدل‌های نسل آینده که حافظه قادر به پشتیبانی از آن‌هاست، دو برابر شود.

محاسبات محرمانه (Confidential Computing) و TEE-I/O

معماری Blackwell با معرفی NVIDIA Confidential Computing، حفاظت سخت‌افزاری قدرتمندی را برای داده‌های حساس و مالکیت معنوی (IP) مدل‌های هوش مصنوعی فراهم می‌کند. Blackwell نخستین GPU مجهز به قابلیت TEE-I/O در صنعت است که در ترکیب با میزبان‌های سازگار با TEE-I/O، از داده‌ها به صورت درلحظه (Inline) بر روی بستر NVLink محافظت می‌کند.

نکته کلیدی این است که توان عملیاتی (Throughput) در حالت رمزنگاری‌شده، تقریباً با حالت بدون رمزنگاری برابر است. سازمان‌ها اکنون می‌توانند آموزش هوش مصنوعی، استنتاج و یادگیری فدرال (Federated Learning) را در ایمن‌ترین حالت ممکن روی بزرگ‌ترین مدل‌ها اجرا کنند.

نسل پنجم NVLink؛ ارتباطات در مقیاس اگزاسکیل

آزادسازی پتانسیل کامل محاسبات در مقیاس اگزاسکیل (Exascale) و اجرای مدل‌های هوش مصنوعی چند تریلیون پارامتری، نیازمند ارتباطات بی‌وقفه میان تمام پردازنده‌های یک کلاستر سرور است. نسل پنجم NVIDIA NVLink می‌تواند تا ۵۷۶ پردازنده گرافیکی را برای چنین مدل‌های عظیمی به هم متصل کند.

تراشه NVIDIA NVLink Switch پهنای باند ۱۳۰ ترابایت بر ثانیه‌ای را در یک دامنه ۷۲ گرافیکی (NVL72) فراهم کرده و با پشتیبانی از پروتکل SHARP برای داده‌های FP8، بهره‌وری پهنای باند را ۴ برابر افزایش می‌دهد. کلاسترهای چند‌سروره با استفاده از NVLink، ارتباطات گرافیکی را همگام با توان محاسباتی مقیاس‌دهی می‌کنند؛ به طوری که رک NVL72 می‌تواند تا ۹ برابر توان عملیاتی (Throughput) بیشتری نسبت به یک سیستم استاندارد ۸ گرافیکی ارائه دهد.

موتورهای Decompression و RAS؛ پایداری در کنار سرعت

موتور خارج‌سازی از حالت فشرده (Decompression Engine)

تحلیل داده‌ها و جریان‌های کاری پایگاه داده (مانند Apache Spark) به طور سنتی بر پردازنده مرکزی (CPU) متکی بوده‌اند. موتور Decompression در Blackwell، در کنار لینک فوق‌سریع ارتباطی با پردازنده مرکزی NVIDIA Grace (با پهنای باند دوطرفه ۹۰۰ گیگابایت بر ثانیه)، قادر است خط لوله پرس‌وجوهای پایگاه داده را شتاب بخشد. این موتور از جدیدترین فرمت‌های فشرده‌سازی مانند LZ4، Snappy و Deflate به صورت سخت‌افزاری پشتیبانی می‌کند.

موتور پایداری هوشمند (RAS Engine)

معماری Blackwell یک موتور اختصاصی قابلیت اطمینان، در دسترس بودن و سرویس‌دهی (RAS) را به سیستم اضافه کرده است. این موتور با پایش مداوم هزاران نقطه داده سخت‌افزاری و نرم‌افزاری، و با بهره‌گیری از هوش مصنوعی، می‌تواند خرابی‌های احتمالی را پیش‌بینی کند. این سیستم پیشگیرانه، زمان بازیابی (Turnaround time) را با مکان‌یابی سریع منبع خطا کاهش داده و هزینه‌های قطعی و خاموشی دیتاسنترها را به حداقل می‌رساند.

تحلیل اختصاصی آلفاتک: چرا Blackwell یک نقطه عطف است؟

در دنیای پردازش مدل‌های زبانی بسیار بزرگ (LLM)، گلوگاه اصلی دیگر صرفاً توان خام محاسباتی نیست، بلکه تنگنای حافظه (Memory Bottleneck) و سرعت انتقال داده‌هاست. جهش انویدیا از محاسبات ۸ بیتی (FP8) در نسل Hopper به محاسبات ۴ بیتی (FP4) در معماری Blackwell یک شاهکار مهندسی است. این تغییر به دیتاسنترها اجازه می‌دهد تا مدل‌هایی با پارامترهای دو برابر بزرگ‌تر را در همان میزان حافظه گرافیکی قبلی (VRAM) بارگذاری کنند و همزمان سرعت استنتاج را به شکل چشمگیری افزایش دهند. علاوه بر این، ادغام قابلیت TEE-I/O در لایه سخت‌افزار، راه را برای استقرار هوش مصنوعی در صنایع بسیار حساس مانند بانکداری، دفاعی و سلامت که تا پیش از این نگران نشت داده‌های خود در پردازش‌های ابری بودند، هموار می‌کند.

سوالات متداول (FAQ)

سرعت ارتباط چیپ‌به‌چیپ در تراشه Blackwell چقدر است؟

انویدیا دو دای (Die) سیلیکونی عظیم را با استفاده از یک رابط درون‌تراشه‌ای (Chip-to-Chip) با پهنای باند شگفت‌انگیز ۱۰ ترابایت بر ثانیه (10 TB/s) به هم متصل کرده است، که باعث می‌شود سیستم‌عامل و نرم‌افزار، این دو قطعه را به عنوان یک پردازنده واحد و بدون تاخیر بشناسند.

اهمیت استفاده از فرمت FP4 در این معماری چیست؟

فرمت FP4 (نقطه شناور ۴ بیتی) به این معناست که داده‌ها به جای اشغال فضای ۸ یا ۱۶ بیتی، تنها ۴ بیت از حافظه را اشغال می‌کنند. موتور ترانسفورمر نسل دوم Blackwell با استفاده از تکنیک‌های هوشمند، دقت این محاسبات را حفظ می‌کند. نتیجه این کار دو برابر شدن سرعت پردازش و امکان جای‌دهی مدل‌های بسیار سنگین‌تر (مانند GPT-5 در آینده) در حافظه محدود GPU است.

موتور RAS (Reliability, Availability, and Serviceability) چه کاربردی دارد؟

در کارخانه‌های هوش مصنوعی (AI Factories) که هزاران پردازنده همزمان مشغول کارند، خرابی یک قطعه می‌تواند کل فرآیند آموزش یک مدل چند میلیون دلاری را متوقف کند. موتور RAS با استفاده از هوش مصنوعی، سلامت قطعات را پایش کرده و پیش از وقوع خرابی فیزیکی، به مدیران دیتاسنتر هشدار می‌دهد تا از بروز خاموشی (Downtime) جلوگیری کنند.

داغ‌ترین اخبار

با سرور هوش مصنوعی ۸ پردازنده گرافیکی NVIDIA HGX™ Rubin خنک بمانید

معرفی فایروال‌های قدرتمند FortiGate 3500G و 400G

رونمایی گیگابایت از کلاستر ۴۰ نودی با پردازنده‌های Lunar Lake

داغ‌ترین اخبار

فضای ابری در سازمان‌های خدماتی | مزایا و چالش‌های مهاجرت

شبکه در کارخانه هوشمند | چه زیرساختی نیاز دارید

یکپارچگی IT و OT | مهم‌ترین چالش تحول دیجیتال صنعتی

آخرین پست ها

:: برای جستجو تایپ کنید ::

معماری NVIDIA Blackwell؛ موتور محرک کارخانه‌های هوش مصنوعی با ۲۰۸ میلیارد ترانزیستور وارد تولید انبوه شد

معماری NVIDIA Blackwell؛ موتور محرک کارخانه‌های هوش مصنوعی با ۲۰۸ میلیارد ترانزیستور وارد تولید انبوه شد

ابر‌تراشه‌ای با ۲۰۸ میلیارد ترانزیستور

موتور ترانسفورمر نسل دوم و جادوی FP4

محاسبات محرمانه (Confidential Computing) و TEE-I/O

نسل پنجم NVLink؛ ارتباطات در مقیاس اگزاسکیل

موتورهای Decompression و RAS؛ پایداری در کنار سرعت