صفحه اصلی > سخت‌افزار و شبکه و دیتاسنتر : ساخت کلاستر ۸ نودی با NVIDIA GB10؛ قدرت پردازشی عظیم با مصرف انرژی ناچیز

ساخت کلاستر ۸ نودی با NVIDIA GB10؛ قدرت پردازشی عظیم با مصرف انرژی ناچیز

بررسی تخصصی آلفاتک: ساخت کلاستر ۸ نودی با NVIDIA GB10؛ قدرت پردازشی عظیم با مصرف انرژی ناچیز

در این مقاله به بررسی جامع یکی از پروژه‌های جالب و چالش‌برانگیز در حوزه سخت‌افزار هوش مصنوعی می‌پردازیم؛ پروژه‌ای که توسعه‌دهندگان آن ماه‌ها برای آماده‌سازی‌اش زمان صرف کرده‌اند. در ماه فوریه، تیمی از متخصصان موفق شدند هشت دستگاه NVIDIA GB10 را گردآوری کرده و سیستمی را بسازند که در آن زمان به‌هیچ‌وجه پشتیبانی رسمی نمی‌شد. در آن برهه، انویدیا تنها از اتصال ۲ نود GB10 از طریق کابل DAC پشتیبانی می‌کرد و در رویداد GTC 2026 این پشتیبانی به ۴ نود افزایش یافت. با این حال، در این پروژه یک کلاستر ۸ نودی با ۱ ترابایت حافظه، ۱۶۰ هسته پردازشی Arm و سوییچ‌های شبکه 400GbE با قابلیت RDMA با موفقیت راه‌اندازی شده است.

هدف اصلی توسعه‌دهندگان از این کار، اجرای محلی مدل زبانی عظیم Kimi K2.5 بود. در نهایت، نه‌تنها مدل‌های K2.5 و K2.6 روی این کلاستر اجرا شدند، بلکه این پروژه تجربیات ارزشمندی در زمینه شبکه‌سازی، Tensor Parallel و بهینه‌سازی کلاسترها ارائه داده است که در این مقاله آن‌ها را زیر ذره‌بین آلفاتک قرار می‌دهیم.

نمای کلی از کلاستر 8 نودی NVIDIA GB10

نگاهی اجمالی به سیستم NVIDIA GB10

در حال حاضر هشت تولیدکننده بزرگ شامل Dell, Lenovo, ASUS, Gigabyte, HP, MSI و Acer ماشین‌هایی بر پایه پلتفرم قدرتمند NVIDIA GB10 توسعه داده‌اند.

سیستم NVIDIA DGX Spark با سوپرتراشه GB10

هر یک از این ماشین‌ها شامل ویژگی‌های کلیدی زیر است:

  • پردازنده ترکیبی NVIDIA GB10 “Grace Blackwell” مجهز به ۲۰ هسته Arm و گرافیک نسل بلک‌ول.
  • ۱۲۸ گیگابایت حافظه مجتمع و فوق‌سریع LPDDR5X.
  • کارت شبکه داخلی NVIDIA ConnectX-7 با پهنای باند 200GbE.
  • ۱ تا ۴ ترابایت فضای ذخیره‌سازی محلی NVMe.
  • اتصالات شبکه 10Gbase-T و وای‌فای داخلی.

برخلاف مینی‌پی‌سی‌های معمول، به لطف هسته‌های قدرتمند Arm، این پلتفرم از توان پردازشی CPU بسیار بالایی نیز برخوردار است. شبکه پرسرعت ConnectX-7 دقیقاً همان عاملی است که در این پروژه به تیم سازنده اجازه داد سیستم‌ها را از یک یا دو نود، تا هشت نود مقیاس‌پذیری کنند.

شبکه‌سازی؛ کلید اصلی اتصال کلاستر ۸ نودی

برای اتصال ۸ نود به یکدیگر، استفاده از کابل‌های ساده DAC کافی نیست و وجود یک سوییچ شبکه حرفه‌ای الزامی است. از آنجایی که استفاده از سوییچ‌های پرمصرفی مثل Dell Z9332F-ON با مصرف ۹۰۰ وات در تناقض با هدف این پروژه (ساخت یک کلاستر کم‌مصرف) بود، سازندگان رویکرد دیگری را در پیش گرفتند.

مانیتور Dell و تجهیزات مدیریت شبکه

در این معماری از سوییچ MikroTik CRS804 DDQ استفاده شده است. این سوییچ ۴ پورتی 400GbE، امکان بهره‌گیری کامل از قابلیت RDMA (برای RoCE) و مقیاس‌پذیری از طریق کتابخانه‌های NCCL انویدیا را فراهم می‌آورد. هر پورت QSFP56-DD در این سوییچ، توانایی مدیریت دو نود GB10 را داراست.

سوییچ 400GbE مدل MikroTik CRS804 DDQ اتصالات QSFP و کابل کشی GB10

در کنار شبکه 200Gbps، تیم توسعه‌دهنده وای‌فای داخلی سیستم‌ها را غیرفعال کرده و از پورت‌های 10GbE صرفاً برای مدیریت شبکه استفاده کرده‌اند. برای این منظور، سوییچ‌های Cisco Catalyst C1300-12XT-2X و QNAP QSW-M3216R به کار گرفته شده‌اند تا تاخیر شبکه برای بارگذاری مدل‌ها به حداقل ممکن برسد.

سوییچ مدیریت شبکه یوبی کوییتی سوییچ سیسکو کاتالیست C1300

فضای ذخیره‌سازی اشتراکی (NAS) در این پروژه

بر اساس گزارشات این پروژه، خرید سیستم‌های GB10 با ظرفیت ۱ ترابایت (به جای نسخه‌های ۴ ترابایتی) باعث صرفه‌جویی چشمگیر ۱۰ هزار دلاری در هزینه‌ها شده است. برای جبران این فضا، از یک ذخیره‌ساز تحت شبکه (NAS) قدرتمند مدل QNAP TS-h1290FX استفاده شده است.

سوییچ شبکه کیونپ ذخیره ساز QNAP TS-h1290FX و درایوهای SSD

نقش این ذخیره‌ساز در کلاستر شامل دو بخش اصلی است: ۱) میزبانی تمام مدل‌های زبانی حجیم (که اغلب بالای ۵۰۰ گیگابایت فضا نیاز دارند) جهت جلوگیری از پر شدن حافظه محلی نودها. ۲) ایجاد دایرکتوری‌های ایزوله برای AI Agentها با قابلیت اسنپ‌شات ZFS تا از هرگونه حذف ناگهانی اطلاعات توسط عامل‌های هوش مصنوعی جلوگیری شود.

نمای دیگری از کلاستر هوش مصنوعی

مراحل کلیدی راه‌اندازی و پیکربندی سیستم

پیکربندی چنین مجموعه‌ای بسیار فراتر از نصب یک کارت گرافیک ساده است. هرچند کتابخانه‌های NCCL انویدیا کار را تسهیل کرده‌اند، اما بر اساس مستندات این پروژه، رعایت اصول زیر برای پایداری سیستم الزامی بوده است:

  • اتصال فیزیکی دقیق پورت‌های ConnectX-7 و خاموش کردن وای‌فای در سطح سیستم‌عامل برای جلوگیری از تداخل ارتباطی.
  • به‌روزرسانی هماهنگ فِرم‌ورها در تمام نودها (وجود کوچکترین تضاد در نسخه فِرم‌ور، عملکرد کلاستر را مختل می‌کند).
  • تنظیمات دقیق سوییچ میکروتیک شامل پیکربندی MTU، PFC و ECN از طریق محیط خط فرمان (CLI).
  • تست سرعت شبکه RDMA به صورت دوطرفه برای اطمینان از دریافت سرعت‌های بسیار بالاتر از شبکه‌های استاندارد 10GbE.
  • راه‌اندازی vLLM به‌صورت کانتینری و حصول اطمینان از برقراری ارتباط نودها صرفاً بر بستر 200GbE.
دستگاه Gigabyte AI TOP دستگاه Lenovo PGX GB10

نکته جالب توجه در این پروژه این است که با ابزارهای سال ۲۰۲۶، تمامی مراحل شبکه‌سازی، تخصیص استوریج و دیپلویمنت به دست عامل‌های هوش مصنوعی (مانند Claude Code یا OpenClaw) سپرده شده است؛ اختصاص دادن ۱ ترابایت رم و ۱۶۰ هسته Arm به یک هوش مصنوعی برای پیکربندی خودش، ایده‌ای جسورانه است که به خوبی عمل کرده است.

تعویض نودهای کلاستر

مانیتورینگ کلاستر و مدیریت فِرم‌ورها

در این معماری، یک سیستم مانیتورینگ اختصاصی پیاده‌سازی شده است که اطلاعات حیاتی زیر را در لحظه رصد می‌کند:

  • وضعیت نودها: میزان درگیری CPU و GPU، اشغال حافظه LPDDR5X، دما و توان مصرفی لحظه‌ای.
  • شبکه 200GbE و 10GbE: مانیتورینگ پایداری اتصال RDMA و وضعیت خطاهای پورت‌ها.
  • همگام‌سازی فِرم‌ورها: بررسی مداوم تطابق نسخه‌های درایور انویدیا و ConnectX-7 در کل شبکه کلاستر.
  • مدیریت تغذیه: امکان کنترل از راه دور (Remote Power Cycling) برای ریبوت سخت‌افزاری نودها از طریق PDUهای مدیریت‌پذیر.
مانیتورینگ وضعیت کلاستر زیر بار کامل مدیریت شبکه RDMA بررسی عدم تطابق فِرم‌ورها پروسه آپدیت فِرم‌ورها در کلاستر

عملکرد، بنچمارک‌ها و بهینه‌سازی‌های اعمال شده

با هدف اجرای مدل Kimi K2.5، تست‌های متعددی روی این سیستم صورت گرفته است. توسعه‌دهندگان در حین بنچمارک‌ها متوجه محدودیتی در پهنای باند شبکه شدند که ریشه آن به معماری SMMU در پلتفرم GB10 بازمی‌گردد. در این تست‌ها سرعتی معادل ۱۴۰ گیگابیت در ثانیه (به جای 200Gbps اسمی) ثبت شد؛ دلیل این افت، استفاده NCCL از کپی‌های مبتنی بر CPU برای دور زدن محدودیت‌های DMA-FQ در این معماری است.

پیکربندی سیستم تست 8 نودی بنچمارک SMMU و عملکرد NCCL

در تست Prefill با مدل عظیم Qwen3.5-397B، استفاده از فرمت NVFP4 به کلاستر کمک کرد تا عملکرد خارق‌العاده‌ای از خود نشان دهد. همچنین، در بخش تولید محتوا (Generation) با مدل GPT-OSS-120B نتایج ثبت شده پایداری بالایی را به اثبات رساندند.

سرعت Sustained Prefill در مدل Qwen تولید محتوای مدل GPT-OSS-120B

بررسی خروجی مدل‌های Kimi K2.5 و K2.6

یافته‌های این پروژه نشان می‌دهد که عملکرد Kimi K2.6 بر روی این کلاستر بهینه‌تر از نسخه K2.5 بوده است. علی‌رغم پیش‌بینی‌ها مبنی بر مشابه بودن عملکرد پردازشی (Decode) در هر دو مدل، در سناریوهایی با میزان همروندی بالا (High Concurrency)، نسخه 2.6 برتری ملموسی از خود نشان داده است.

مقایسه پهنای باند Kimi K2.5 و K2.6 عملکرد پردازشی Decode در مدل های Kimi نتیجه گیری بررسی مدل Kimi

توصیه مهم آلفاتک درباره Tensor Parallel بر اساس نتایج

یکی از مهم‌ترین دستاوردهای بررسی این پروژه، اصلاح یک تصور غلط رایج است: اجرای یک مدل روی ۸ نود لزوماً سریع‌تر از اجرای آن روی ۱ یا ۴ نود نیست. واقعیت این است که ارتباطات بین نودها در شبکه باعث ایجاد تاخیر (Network Penalty) می‌شود. نتیجه‌گیری فنی آلفاتک این است که اگر مدلی در ۴ نود قابل استقرار است، باید روی همان ۴ نود اجرا شود و نیازی به توزیع آن در ۸ نود نیست. مدل‌های متراکم زمانی که به صورت محلی یا روی کمترین تعداد نود ممکن اجرا شوند، بالاترین پرفورمنس را ارائه خواهند داد.

عملکرد Qwen تک کاربره عملکرد Qwen با Concurrency بالا خلاصه نتایج Qwen پهنای باند GPT-OSS-120B در برابر TP Width ارتباط همزمانی و TP در GPT-OSS-120B

مصرف انرژی و میزان نویز سیستم

آمارهای ارائه شده از این کلاستر در بخش مصرف انرژی شگفت‌انگیز است. کل مجموعه، شامل هشت نود GB10 و سوییچ MikroTik در وضعیت بی‌کار (Idle) کمتر از ۴۰۰ وات برق مصرف می‌کند (که با اضافه شدن سوییچ 10GbE این عدد نهایتاً به ۴۳۰ وات می‌رسد).

توان مصرفی PDU در حالت Idle

تحت شدیدترین فشارهای پردازشی و هنگام اجرای مدل سنگینی چون Kimi K2.5، مصرف برق کل این کلاستر تنها در بازه ۹۰۰ تا ۹۵۰ وات ثبت شده است. این بدان معناست که تامین برق یک ابررایانه هوش مصنوعی تنها با یک پریز استاندارد اداری امکان‌پذیر شده است! از لحاظ میزان نویز نیز، خود نودها بسیار بی‌صدا هستند و عمده صدای تولید شده مربوط به فن‌های سوییچ شبکه میکروتیک است.

نمای نهایی از تجهیزات کلاستر

تحلیل تخصصی آلفاتک: چرا این پروژه اهمیت بالایی دارد؟

ممکن است تهیه یک سرور DGX Station یا راه‌اندازی کلاستری مبتنی بر RTX Pro 6000 قدرت پردازش خام بیشتری فراهم کند، اما معماری کلاستر ۸ نودی GB10 نقاط قوت منحصر‌به‌فردی دارد که توجه کارشناسان آلفاتک را به خود جلب کرده است:

  1. تضمین حریم خصوصی: اجرای محلی و On-Premise مدل‌های زبانی عظیم، خطرات امنیتی ناشی از ارسال داده‌های حساس به سرویس‌های ابری را به‌طور کامل از بین می‌برد.
  2. انقلاب در بهره‌وری انرژی: مصرف کمتر از ۱ کیلووات باعث می‌شود این کلاستر بدون نیاز به زیرساخت‌های پیچیده برق و کولینگ دیتاسنتری، به راحتی در محیط‌های آزمایشگاهی و اداری قابل استقرار باشد؛ مزیتی که در سیستم‌های چند کیلوواتی رقیب دیده نمی‌شود.
  3. بستر ایده‌آل برای توسعه‌دهندگان: این معماری برای سنجش و پروتوتایپینگ AI Agentها در دنیای واقعی بی‌نظیر است. امکان تقسیم کلاستر به دو بخش ۴ نودی مجزا برای تست همزمان چندین مدل، انعطاف‌پذیری بالایی را در اختیار تیم‌های تحقیق و توسعه قرار می‌دهد.

با پیشرفت‌های خیره‌کننده ابزارهای اتوماسیون مبتنی بر هوش مصنوعی، دیپلویمنت شبکه‌های پیچیده‌ای چون RoCE/RDMA دیگر یک چالش غیرممکن نیست. این پروژه به خوبی اثبات می‌کند که هوش مصنوعی می‌تواند پیکربندی‌های سنگین کلاسترینگ را به طور خودکار انجام داده و این فناوری‌های پیشرفته را برای تیم‌های کوچک‌تر نیز دست‌یافتنی سازد.

سوالات متداول (FAQ)

چرا در این کلاستر از سوییچ MikroTik CRS804 به جای برندهای سازمانی استفاده شده است؟
این سوییچ 400GbE علاوه بر تامین پهنای باند لازم برای پورت‌های QSFP56-DD و پشتیبانی کامل از RDMA/RoCE، مصرف برق و نویز بسیار کمتری نسبت به گزینه‌های سازمانی (مانند محصولات Dell) دارد که کاملاً با هدف کم‌مصرف بودن کلاستر هم‌خوانی دارد.
مصرف برق این کلاستر چقدر گزارش شده است؟
یکی از دستاوردهای مهم این معماری، مصرف بسیار پایین آن است. در حالت Idle کل سیستم زیر ۴۳۰ وات و در اوج بار پردازشی حدود ۹۰۰ الی ۹۵۰ وات برق مصرف می‌کند که راه‌اندازی آن را با برق معمولی امکان‌پذیر می‌سازد.
آیا بر اساس نتایج این پروژه، توزیع مدل روی تمامی ۸ نود همواره بهینه‌ترین حالت است؟
خیر. به دلیل هزینه‌های زمانی ارتباطات شبکه (Network Penalty) هنگام تبادل داده بین نودها، توصیه کارشناسان این است که مدل روی کمترین تعداد نود ممکن مستقر شود. اگر مدلی روی ۴ نود جا می‌شود، توزیع آن روی ۸ نود صرفاً باعث افت راندمان خواهد شد.
تولید محتوا برای من فقط نوشتن نیست؛ ترجمه دنیای پیچیده فناوری به زبانی روشن، دقیق و قابل فهم است. به‌عنوان کارشناس تولید محتوا در حوزه فناوری اطلاعات و تکنولوژی، تمرکزم بر خلق محتوایی است که هم از نظر فنی معتبر باشد و هم برای مخاطب ارزش واقعی ایجاد کند. از مفاهیم تخصصی IT و زیرساخت‌های شبکه گرفته تا هوش مصنوعی، امنیت سایبری و تحولات دیجیتال، تلاش می‌کنم هر موضوع را با نگاهی تحلیلی و ساختاریافته ارائه دهم.
مقالات مرتبط

GPU Server چیست | کاربرد در پردازش‌های سنگین سازمانی

GPU Server چیست | کاربرد در پردازش‌های سنگین سازمانی چکیده مطلب: سرور…

دیتاسنتر در خدمات مالی | اهمیت پایداری و دسترس‌پذیری

دیتاسنتر در خدمات مالی | اهمیت پایداری و دسترس‌پذیری چکیده مطلب: ارزش…

امنیت سایبری در صنعت | چرا OT به هدف جدید حملات تبدیل شده است؟

امنیت سایبری در صنعت | چرا OT به هدف جدید حملات تبدیل…

دیدگاهتان را بنویسید