معماری NVIDIA Blackwell؛ موتور محرک کارخانههای هوش مصنوعی با ۲۰۸ میلیارد ترانزیستور وارد تولید انبوه شد
- ابرتراشه هوش مصنوعی: ادغام ۲۰۸ میلیارد ترانزیستور در دو دای (Die) محدود به رتیکل با اتصال فوقسریع ۱۰ ترابایت بر ثانیه (10 TB/s).
- موتور ترانسفورمر نسل دوم: پشتیبانی از محاسبات ۴ بیتی (FP4) که عملکرد و ظرفیت مدلهای قابل پشتیبانی در حافظه را دو برابر میکند.
- امنیت سختافزاری (Confidential Computing): اولین پردازنده گرافیکی مجهز به TEE-I/O در صنعت برای محافظت از دادههای حساس در حال پردازش.
- تکامل NVLink: نسل پنجم با قابلیت مقیاسپذیری تا ۵۷۶ پردازنده گرافیکی و پهنای باند ۱۳۰ ترابایت بر ثانیه در ساختار NVL72.
- موتورهای اختصاصی: مجهز به موتور RAS برای پیشبینی هوشمند خرابیها و موتور Decompression برای تسریع پایگاههای داده.
معماری NVIDIA Blackwell به عنوان موتور محرک کارخانههای هوش مصنوعی (AI Factories) برای عصر «استدلال هوش مصنوعی» (AI Reasoning) اکنون در فاز تولید انبوه قرار دارد. این معماری با تکیه بر نسلها فناوری پیشرفته انویدیا، فصل جدیدی از هوش مصنوعی مولد را با عملکرد، بهرهوری و مقیاسپذیری بینظیر تعریف میکند و مرزهای پردازش شتابیافته را جابجا کرده است.
ابرتراشهای با ۲۰۸ میلیارد ترانزیستور
پردازندههای گرافیکی مبتنی بر معماری Blackwell، میزبان ۲۰۸ میلیارد ترانزیستور هستند و با استفاده از فرآیند لیتوگرافی سفارشی TSMC 4NP تولید میشوند. تمامی محصولات Blackwell دارای دو دای (Die) محدود به رتیکل (بزرگترین اندازه ممکن در چاپ سیلیکون) هستند که از طریق یک اتصال درونتراشهای (Chip-to-Chip Interconnect) با سرعت خیرهکننده ۱۰ ترابایت بر ثانیه (10 TB/s) به یکدیگر متصل شدهاند تا به عنوان یک GPU واحد و یکپارچه عمل کنند.
موتور ترانسفورمر نسل دوم و جادوی FP4
موتور ترانسفورمر (Transformer Engine) نسل دوم در این معماری، هستههای تنسور اختصاصی Blackwell را با نوآوریهای نرمافزاری NVIDIA TensorRT™-LLM و فریمورک NeMo™ ترکیب میکند تا فرآیند آموزش (Training) و استنتاج (Inference) در مدلهای زبانی بزرگ (LLM) و معماریهای «ترکیبی از خبرگان» (Mixture-of-Experts یا MoE) را به شدت شتاب بخشد.
هستههای تنسور جدید در Blackwell فرمتهای مقیاسبندی خرد (Microscaling Formats) جدیدی را اضافه کردهاند. به طور خاص، در نسخههای NVIDIA Blackwell Ultra، هستههای تنسور تا ۲ برابر در لایههای Attention سریعتر شده و ۱.۵ برابر فلاپس (FLOPS) بیشتری نسبت به نسخه پایه Blackwell ارائه میدهند. این موتور با استفاده از تکنیک میکرو-تنسور اسکیلینگ، دستیابی به محاسبات ۴ بیتی (FP4) را با حفظ دقت بالا ممکن میسازد. این ارتقا باعث میشود عملکرد و اندازه مدلهای نسل آینده که حافظه قادر به پشتیبانی از آنهاست، دو برابر شود.
محاسبات محرمانه (Confidential Computing) و TEE-I/O
معماری Blackwell با معرفی NVIDIA Confidential Computing، حفاظت سختافزاری قدرتمندی را برای دادههای حساس و مالکیت معنوی (IP) مدلهای هوش مصنوعی فراهم میکند. Blackwell نخستین GPU مجهز به قابلیت TEE-I/O در صنعت است که در ترکیب با میزبانهای سازگار با TEE-I/O، از دادهها به صورت درلحظه (Inline) بر روی بستر NVLink محافظت میکند.
نکته کلیدی این است که توان عملیاتی (Throughput) در حالت رمزنگاریشده، تقریباً با حالت بدون رمزنگاری برابر است. سازمانها اکنون میتوانند آموزش هوش مصنوعی، استنتاج و یادگیری فدرال (Federated Learning) را در ایمنترین حالت ممکن روی بزرگترین مدلها اجرا کنند.
نسل پنجم NVLink؛ ارتباطات در مقیاس اگزاسکیل
آزادسازی پتانسیل کامل محاسبات در مقیاس اگزاسکیل (Exascale) و اجرای مدلهای هوش مصنوعی چند تریلیون پارامتری، نیازمند ارتباطات بیوقفه میان تمام پردازندههای یک کلاستر سرور است. نسل پنجم NVIDIA NVLink میتواند تا ۵۷۶ پردازنده گرافیکی را برای چنین مدلهای عظیمی به هم متصل کند.
تراشه NVIDIA NVLink Switch پهنای باند ۱۳۰ ترابایت بر ثانیهای را در یک دامنه ۷۲ گرافیکی (NVL72) فراهم کرده و با پشتیبانی از پروتکل SHARP برای دادههای FP8، بهرهوری پهنای باند را ۴ برابر افزایش میدهد. کلاسترهای چندسروره با استفاده از NVLink، ارتباطات گرافیکی را همگام با توان محاسباتی مقیاسدهی میکنند؛ به طوری که رک NVL72 میتواند تا ۹ برابر توان عملیاتی (Throughput) بیشتری نسبت به یک سیستم استاندارد ۸ گرافیکی ارائه دهد.
موتورهای Decompression و RAS؛ پایداری در کنار سرعت
موتور خارجسازی از حالت فشرده (Decompression Engine)
تحلیل دادهها و جریانهای کاری پایگاه داده (مانند Apache Spark) به طور سنتی بر پردازنده مرکزی (CPU) متکی بودهاند. موتور Decompression در Blackwell، در کنار لینک فوقسریع ارتباطی با پردازنده مرکزی NVIDIA Grace (با پهنای باند دوطرفه ۹۰۰ گیگابایت بر ثانیه)، قادر است خط لوله پرسوجوهای پایگاه داده را شتاب بخشد. این موتور از جدیدترین فرمتهای فشردهسازی مانند LZ4، Snappy و Deflate به صورت سختافزاری پشتیبانی میکند.
موتور پایداری هوشمند (RAS Engine)
معماری Blackwell یک موتور اختصاصی قابلیت اطمینان، در دسترس بودن و سرویسدهی (RAS) را به سیستم اضافه کرده است. این موتور با پایش مداوم هزاران نقطه داده سختافزاری و نرمافزاری، و با بهرهگیری از هوش مصنوعی، میتواند خرابیهای احتمالی را پیشبینی کند. این سیستم پیشگیرانه، زمان بازیابی (Turnaround time) را با مکانیابی سریع منبع خطا کاهش داده و هزینههای قطعی و خاموشی دیتاسنترها را به حداقل میرساند.
تحلیل اختصاصی آلفاتک: چرا Blackwell یک نقطه عطف است؟
در دنیای پردازش مدلهای زبانی بسیار بزرگ (LLM)، گلوگاه اصلی دیگر صرفاً توان خام محاسباتی نیست، بلکه تنگنای حافظه (Memory Bottleneck) و سرعت انتقال دادههاست. جهش انویدیا از محاسبات ۸ بیتی (FP8) در نسل Hopper به محاسبات ۴ بیتی (FP4) در معماری Blackwell یک شاهکار مهندسی است. این تغییر به دیتاسنترها اجازه میدهد تا مدلهایی با پارامترهای دو برابر بزرگتر را در همان میزان حافظه گرافیکی قبلی (VRAM) بارگذاری کنند و همزمان سرعت استنتاج را به شکل چشمگیری افزایش دهند. علاوه بر این، ادغام قابلیت TEE-I/O در لایه سختافزار، راه را برای استقرار هوش مصنوعی در صنایع بسیار حساس مانند بانکداری، دفاعی و سلامت که تا پیش از این نگران نشت دادههای خود در پردازشهای ابری بودند، هموار میکند.


