صفحه اصلی > اخبار : معماری NVIDIA Blackwell؛ موتور محرک کارخانه‌های هوش مصنوعی با ۲۰۸ میلیارد ترانزیستور وارد تولید انبوه شد

معماری NVIDIA Blackwell؛ موتور محرک کارخانه‌های هوش مصنوعی با ۲۰۸ میلیارد ترانزیستور وارد تولید انبوه شد

معماری NVIDIA Blackwell؛ موتور محرک کارخانه‌های هوش مصنوعی با ۲۰۸ میلیارد ترانزیستور وارد تولید انبوه شد

معماری NVIDIA Blackwell به عنوان موتور محرک کارخانه‌های هوش مصنوعی (AI Factories) برای عصر «استدلال هوش مصنوعی» (AI Reasoning) اکنون در فاز تولید انبوه قرار دارد. این معماری با تکیه بر نسل‌ها فناوری پیشرفته انویدیا، فصل جدیدی از هوش مصنوعی مولد را با عملکرد، بهره‌وری و مقیاس‌پذیری بی‌نظیر تعریف می‌کند و مرزهای پردازش شتاب‌یافته را جابجا کرده است.

ابر‌تراشه‌ای با ۲۰۸ میلیارد ترانزیستور

پردازنده‌های گرافیکی مبتنی بر معماری Blackwell، میزبان ۲۰۸ میلیارد ترانزیستور هستند و با استفاده از فرآیند لیتوگرافی سفارشی TSMC 4NP تولید می‌شوند. تمامی محصولات Blackwell دارای دو دای (Die) محدود به رتیکل (بزرگ‌ترین اندازه ممکن در چاپ سیلیکون) هستند که از طریق یک اتصال درون‌تراشه‌ای (Chip-to-Chip Interconnect) با سرعت خیره‌کننده ۱۰ ترابایت بر ثانیه (10 TB/s) به یکدیگر متصل شده‌اند تا به عنوان یک GPU واحد و یکپارچه عمل کنند.

موتور ترانسفورمر نسل دوم و جادوی FP4

موتور ترانسفورمر (Transformer Engine) نسل دوم در این معماری، هسته‌های تنسور اختصاصی Blackwell را با نوآوری‌های نرم‌افزاری NVIDIA TensorRT™-LLM و فریم‌ورک NeMo™ ترکیب می‌کند تا فرآیند آموزش (Training) و استنتاج (Inference) در مدل‌های زبانی بزرگ (LLM) و معماری‌های «ترکیبی از خبرگان» (Mixture-of-Experts یا MoE) را به شدت شتاب بخشد.

هسته‌های تنسور جدید در Blackwell فرمت‌های مقیاس‌بندی خرد (Microscaling Formats) جدیدی را اضافه کرده‌اند. به طور خاص، در نسخه‌های NVIDIA Blackwell Ultra، هسته‌های تنسور تا ۲ برابر در لایه‌های Attention سریع‌تر شده و ۱.۵ برابر فلاپس (FLOPS) بیشتری نسبت به نسخه پایه Blackwell ارائه می‌دهند. این موتور با استفاده از تکنیک میکرو-تنسور اسکیلینگ، دستیابی به محاسبات ۴ بیتی (FP4) را با حفظ دقت بالا ممکن می‌سازد. این ارتقا باعث می‌شود عملکرد و اندازه مدل‌های نسل آینده که حافظه قادر به پشتیبانی از آن‌هاست، دو برابر شود.

محاسبات محرمانه (Confidential Computing) و TEE-I/O

معماری Blackwell با معرفی NVIDIA Confidential Computing، حفاظت سخت‌افزاری قدرتمندی را برای داده‌های حساس و مالکیت معنوی (IP) مدل‌های هوش مصنوعی فراهم می‌کند. Blackwell نخستین GPU مجهز به قابلیت TEE-I/O در صنعت است که در ترکیب با میزبان‌های سازگار با TEE-I/O، از داده‌ها به صورت درلحظه (Inline) بر روی بستر NVLink محافظت می‌کند.

نکته کلیدی این است که توان عملیاتی (Throughput) در حالت رمزنگاری‌شده، تقریباً با حالت بدون رمزنگاری برابر است. سازمان‌ها اکنون می‌توانند آموزش هوش مصنوعی، استنتاج و یادگیری فدرال (Federated Learning) را در ایمن‌ترین حالت ممکن روی بزرگ‌ترین مدل‌ها اجرا کنند.

آزادسازی پتانسیل کامل محاسبات در مقیاس اگزاسکیل (Exascale) و اجرای مدل‌های هوش مصنوعی چند تریلیون پارامتری، نیازمند ارتباطات بی‌وقفه میان تمام پردازنده‌های یک کلاستر سرور است. نسل پنجم NVIDIA NVLink می‌تواند تا ۵۷۶ پردازنده گرافیکی را برای چنین مدل‌های عظیمی به هم متصل کند.

تراشه NVIDIA NVLink Switch پهنای باند ۱۳۰ ترابایت بر ثانیه‌ای را در یک دامنه ۷۲ گرافیکی (NVL72) فراهم کرده و با پشتیبانی از پروتکل SHARP برای داده‌های FP8، بهره‌وری پهنای باند را ۴ برابر افزایش می‌دهد. کلاسترهای چند‌سروره با استفاده از NVLink، ارتباطات گرافیکی را همگام با توان محاسباتی مقیاس‌دهی می‌کنند؛ به طوری که رک NVL72 می‌تواند تا ۹ برابر توان عملیاتی (Throughput) بیشتری نسبت به یک سیستم استاندارد ۸ گرافیکی ارائه دهد.

موتورهای Decompression و RAS؛ پایداری در کنار سرعت

موتور خارج‌سازی از حالت فشرده (Decompression Engine)

تحلیل داده‌ها و جریان‌های کاری پایگاه داده (مانند Apache Spark) به طور سنتی بر پردازنده مرکزی (CPU) متکی بوده‌اند. موتور Decompression در Blackwell، در کنار لینک فوق‌سریع ارتباطی با پردازنده مرکزی NVIDIA Grace (با پهنای باند دوطرفه ۹۰۰ گیگابایت بر ثانیه)، قادر است خط لوله پرس‌وجوهای پایگاه داده را شتاب بخشد. این موتور از جدیدترین فرمت‌های فشرده‌سازی مانند LZ4، Snappy و Deflate به صورت سخت‌افزاری پشتیبانی می‌کند.

موتور پایداری هوشمند (RAS Engine)

معماری Blackwell یک موتور اختصاصی قابلیت اطمینان، در دسترس بودن و سرویس‌دهی (RAS) را به سیستم اضافه کرده است. این موتور با پایش مداوم هزاران نقطه داده سخت‌افزاری و نرم‌افزاری، و با بهره‌گیری از هوش مصنوعی، می‌تواند خرابی‌های احتمالی را پیش‌بینی کند. این سیستم پیشگیرانه، زمان بازیابی (Turnaround time) را با مکان‌یابی سریع منبع خطا کاهش داده و هزینه‌های قطعی و خاموشی دیتاسنترها را به حداقل می‌رساند.

تحلیل اختصاصی آلفاتک: چرا Blackwell یک نقطه عطف است؟

در دنیای پردازش مدل‌های زبانی بسیار بزرگ (LLM)، گلوگاه اصلی دیگر صرفاً توان خام محاسباتی نیست، بلکه تنگنای حافظه (Memory Bottleneck) و سرعت انتقال داده‌هاست. جهش انویدیا از محاسبات ۸ بیتی (FP8) در نسل Hopper به محاسبات ۴ بیتی (FP4) در معماری Blackwell یک شاهکار مهندسی است. این تغییر به دیتاسنترها اجازه می‌دهد تا مدل‌هایی با پارامترهای دو برابر بزرگ‌تر را در همان میزان حافظه گرافیکی قبلی (VRAM) بارگذاری کنند و همزمان سرعت استنتاج را به شکل چشمگیری افزایش دهند. علاوه بر این، ادغام قابلیت TEE-I/O در لایه سخت‌افزار، راه را برای استقرار هوش مصنوعی در صنایع بسیار حساس مانند بانکداری، دفاعی و سلامت که تا پیش از این نگران نشت داده‌های خود در پردازش‌های ابری بودند، هموار می‌کند.

سوالات متداول (FAQ)

سرعت ارتباط چیپ‌به‌چیپ در تراشه Blackwell چقدر است؟
انویدیا دو دای (Die) سیلیکونی عظیم را با استفاده از یک رابط درون‌تراشه‌ای (Chip-to-Chip) با پهنای باند شگفت‌انگیز ۱۰ ترابایت بر ثانیه (10 TB/s) به هم متصل کرده است، که باعث می‌شود سیستم‌عامل و نرم‌افزار، این دو قطعه را به عنوان یک پردازنده واحد و بدون تاخیر بشناسند.
اهمیت استفاده از فرمت FP4 در این معماری چیست؟
فرمت FP4 (نقطه شناور ۴ بیتی) به این معناست که داده‌ها به جای اشغال فضای ۸ یا ۱۶ بیتی، تنها ۴ بیت از حافظه را اشغال می‌کنند. موتور ترانسفورمر نسل دوم Blackwell با استفاده از تکنیک‌های هوشمند، دقت این محاسبات را حفظ می‌کند. نتیجه این کار دو برابر شدن سرعت پردازش و امکان جای‌دهی مدل‌های بسیار سنگین‌تر (مانند GPT-5 در آینده) در حافظه محدود GPU است.
موتور RAS (Reliability, Availability, and Serviceability) چه کاربردی دارد؟
در کارخانه‌های هوش مصنوعی (AI Factories) که هزاران پردازنده همزمان مشغول کارند، خرابی یک قطعه می‌تواند کل فرآیند آموزش یک مدل چند میلیون دلاری را متوقف کند. موتور RAS با استفاده از هوش مصنوعی، سلامت قطعات را پایش کرده و پیش از وقوع خرابی فیزیکی، به مدیران دیتاسنتر هشدار می‌دهد تا از بروز خاموشی (Downtime) جلوگیری کنند.
تولید محتوا برای من فقط نوشتن نیست؛ ترجمه دنیای پیچیده فناوری به زبانی روشن، دقیق و قابل فهم است. به‌عنوان کارشناس تولید محتوا در حوزه فناوری اطلاعات و تکنولوژی، تمرکزم بر خلق محتوایی است که هم از نظر فنی معتبر باشد و هم برای مخاطب ارزش واقعی ایجاد کند. از مفاهیم تخصصی IT و زیرساخت‌های شبکه گرفته تا هوش مصنوعی، امنیت سایبری و تحولات دیجیتال، تلاش می‌کنم هر موضوع را با نگاهی تحلیلی و ساختاریافته ارائه دهم.
مقالات مرتبط

تغییر استراتژی اینتل با برندینگ Core 200؛ احیای سوکت LGA 1700 و حافظه‌های DDR4 در خانواده Raptor Lake Next

تغییر استراتژی اینتل با برندینگ Core 200؛ احیای سوکت LGA 1700 و…

خرداد 25, 1405

بررسی تخصصی مینی‌کامپیوتر ASRock Industrial NUC BOX-358H؛ قدرت‌نمایی Panther Lake در ابعاد ۴ اینچی

بررسی تخصصی مینی‌پی‌سی ASRock Industrial NUC BOX-358H؛ قدرت‌نمایی Panther Lake در ابعاد…

خرداد 24, 1405

سرور روی یک کارت؛ بررسی DPU قدرتمند Senao SX906 با پردازنده Intel Xeon 6 در کامپیوتکس ۲۰۲۶

سرور روی یک کارت؛ بررسی DPU قدرتمند Senao SX906 با پردازنده Intel…

خرداد 24, 1405

دیدگاهتان را بنویسید