بحران پنهان دیتاسنترها؛ سونامی مصرف انرژی، گرما و هزینههای سرسامآور زیرساخت
- انفجار تقاضا در عصر هوش مصنوعی: مدلهای زبانی بزرگ (LLMs) و پردازشهای ابری، چگالی توان رکهای سرور را از میانگین ۵-۱۰ کیلووات به بیش از ۵۰ تا ۱۰۰ کیلووات رساندهاند.
- بحران حرارتی (Thermal Wall): پایان کارآمدی خنککنندههای بادی سنتی (CRAC/CRAH) و ضرورت مهاجرت اجباری به فناوریهای خنککننده مایع (Direct-to-Chip و Immersion Cooling).
- چالش پایداری زیستمحیطی: افزایش شدید شاخصهای PUE (اثربخشی مصرف توان) و WUE (اثربخشی مصرف آب) که زنگ خطری برای شبکههای برق جهانی است.
- اقتصاد دیتاسنتر: رشد تصاعدی هزینههای عملیاتی (OPEX) و سرمایهای (CAPEX) که مدلهای درآمدی شرکتهای ارائهدهنده خدمات ابری را تحت فشار قرار داده است.
هنگامی که ما یک درخواست ساده به ChatGPT ارسال میکنیم یا ویدیویی با کیفیت 4K را استریم میکنیم، به ندرت به زیرساخت فیزیکی عظیمی که در پسزمینه در حال کار است فکر میکنیم. ما در توهم «فضای ابری» (Cloud) زندگی میکنیم، در حالی که این ابر در واقع مجموعهای از سولههای غولپیکر فولادی و بتنی پر از رکهای سرور است که با سر و صدای کرکنندهای کار میکنند. امروز، با ورود به عصر هوش مصنوعی مولد (Generative AI) و پردازشهای فوقسنگین، دیتاسنترهای سراسر جهان با یک «بحران پنهان» مواجه شدهاند: محدودیتهای فیزیکی ترمودینامیک، تامین انرژی و هزینههای نجومی نگهداری. در این مقاله از مجله آلفاتک، به کالبدشکافی این بحران زیرساختی پرداخته و راهکارهای بقا در این اکوسیستم را بررسی میکنیم.
سونامی مصرف انرژی؛ وقتی شبکه برق کم میآورد
قلب تپنده انقلاب هوش مصنوعی، شتابدهندههای گرافیکی (GPU) مانند NVIDIA H100 و نسل جدید Blackwell B200، همراه با پردازندههای پرقدرت سرور (مانند Intel Xeon Clearwater Forest و AMD EPYC Turin) هستند. پردازنده B200 انویدیا به تنهایی دارای توان حرارتی (TDP) تا ۱۲۰۰ وات است. وقتی ۸ عدد از این تراشهها را در یک سرور قرار دهید و دهها سرور را در یک رک تجمیع کنید، با هیولایی روبرو میشوید که مصرف برق آن فراتر از ظرفیت طراحی دیتاسنترهای موجود است.
طبق گزارش آژانس بینالمللی انرژی (IEA)، مصرف برق دیتاسنترها، رمزارزها و هوش مصنوعی در سال ۲۰۲۲ حدود ۴۶۰ تراوات ساعت (TWh) بوده است که معادل ۲ درصد از کل مصرف برق جهان است. پیشبینی میشود این رقم تا سال ۲۰۲۶ دو برابر شده و به بیش از ۱۰۰۰ تراوات ساعت برسد؛ یعنی مصرفی معادل کل کشور ژاپن. تامین این حجم از انرژی مستلزم احداث نیروگاههای جدید و توسعه شبکههای انتقال برق است که فرآیندی زمانبر و به شدت پرهزینه است.
دیوار حرارتی (Thermal Wall) و مرگ خنککنندههای بادی
قانون اول ترمودینامیک به ما میگوید انرژی از بین نمیرود، بلکه از شکلی به شکل دیگر تبدیل میشود. تمام آن برق مگاواتی که وارد دیتاسنتر میشود، پس از پردازش صفر و یکها، در نهایت به «گرما» تبدیل میگردد. در دیتاسنترهای سنتی، مدیریت این گرما بر عهده سیستمهای خنککننده مبتنی بر هوا (Air Cooling) و طراحی راهروهای سرد و گرم (Cold/Hot Aisles) است. فنهای قدرتمند، هوای خنک را از کف کاذب به داخل رکها میدمند و هوای گرم را از پشت استخراج میکنند.
اما مشکل اینجاست که هوا ظرفیت گرمایی ویژه پایینی دارد. راهکارهای مبتنی بر هوا نهایتاً میتوانند رکهایی با چگالی توان ۱۵ تا ۲۰ کیلووات را خنک کنند. با ورود سرورهای هوش مصنوعی که چگالی رک را به ۵۰ الی ۱۲۰ کیلووات رساندهاند، استفاده از باد برای خنککاری مانند تلاش برای خاموش کردن آتشفشان با سشوار است! علاوه بر عدم کارایی، فنهای پرسرعت در این حجم، نویز آکوستیک بسیار بالایی (بیش از ۱۰۰ دسیبل) تولید میکنند که برای شنوایی اپراتورها مخرب است و حتی ارتعاشات آن میتواند به هارد دیسکهای مکانیکی مجاور آسیب برساند.
جدول سیر تکامل چگالی توان رکهای سرور
برای درک بهتر شیب تند این بحران، نگاهی به تغییرات چگالی توان رکها در دو دهه گذشته بیندازید:
| دوره زمانی / نسل کاربری | میانگین چگالی توان هر رک (کیلووات – kW) | فناوری پردازشی غالب | وضعیت خنککننده (Cooling) |
|---|---|---|---|
| اوایل دهه ۲۰۰۰ (Web 1.0) | ۱ تا ۳ کیلووات | سرورهای تکهستهای، ذخیرهسازی محلی | تهویه هوای ساده (CRAC) در سطح اتاق |
| دهه ۲۰۱۰ (Virtualization & Cloud) | ۵ تا ۱۰ کیلووات | پردازندههای چند هستهای، مجازیسازی (VMware) | راهروهای سرد/گرم محصور (Cold Aisle Containment) |
| سال ۲۰۲۰ (Big Data & Machine Learning) | ۱۵ تا ۲۵ کیلووات | پردازندههای چگال، استفاده محدود از GPU | خنککننده هوای پیشرفته، فنهای پرسرعت |
| ۲۰۲۴ به بعد (عصر Generative AI) | ۵۰ تا ۱۲۰+ کیلووات | کلاسترینگ عظیم GPU (مثل NVIDIA DGX SuperPOD) | نیازمند خنککننده مایع مستقیم یا غوطهوری |
انقلاب در دفع حرارت: مهاجرت به خنککنندههای مایع
ظرفیت انتقال حرارت مایعات (مخصوصاً آب و مایعات دیالکتریک مهندسی شده) هزاران بار بیشتر از هواست. دیتاسنترهای مدرن برای غلبه بر دیوار حرارتی ناچار به استفاده از دو رویکرد اصلی در خنککاری مایع (Liquid Cooling) هستند:
۱. خنککننده مستقیم روی تراشه (Direct-to-Chip / Cold Plate)
در این روش، مایع خنککننده (معمولاً ترکیبی از آب و گلیکول) از طریق لولههای مینیاتوری وارد سرور شده و از درون یک صفحه مسی (Cold Plate) که مستقیماً روی پردازنده اصلی (CPU) و گرافیکی (GPU) نصب شده، عبور میکند. حرارت تراشه به مایع منتقل شده و مایع گرم شده برای دفع حرارت به بیرون از رک و سمت مبدلهای حرارتی (CDU) هدایت میشود. این روش میتواند تا ۸۰ درصد از گرمای تولیدی اجزای پرمصرف را مهار کند.
۲. خنککننده غوطهوری (Immersion Cooling)
این روش که آینده دیتاسنترها را شکل میدهد، رادیکالتر است. در خنککاری غوطهوری، کل مادربرد، پردازندهها، رمها و حتی ذخیرهسازها مستقیماً درون مخازن پر از مایع دیالکتریک (عایق جریان الکتریکی) غوطهور میشوند. در حالت «تکفاز»، مایع حرارت را جذب کرده و پمپ میشود. در حالت «دو فاز»، مایع با جذب حرارت تراشه به جوش میآید و بخار میشود، بخار به بالای مخزن رفته، توسط کندانسور تقطیر شده و دوباره به صورت قطرات مایع به استخر باز میگردد. این روش فنهای سرور را به طور کامل حذف کرده و بازدهی بینظیری دارد.
جدول مقایسه فناوریهای خنککاری دیتاسنتر
| فناوری خنککننده | پشتیبانی از چگالی توان رک | مصرف انرژی خود سیستم (PUE) | هزینه پیادهسازی اولیه (CAPEX) | پیچیدگی تعمیر و نگهداری (OPEX) |
|---|---|---|---|---|
| هوا – Air Cooling (پیشرفته) | تا ۲۵ کیلووات | ضعیف (PUE بالا > ۱.۵) | پایین | پایین (استاندارد فعلی) |
| مستقیم روی تراشه (Direct-to-Chip) | تا ۸۰ کیلووات | خوب (PUE حدود ۱.۲) | متوسط رو به بالا | متوسط (خطر نشتی آب) |
| غوطهوری تکفاز (Single-Phase Immersion) | تا ۱۰۰ کیلووات | عالی (PUE حدود ۱.۰۵) | بالا | بالا (نیاز به تجهیزات استخراج سرور) |
| غوطهوری دوفاز (Two-Phase Immersion) | بیش از ۱۵۰ کیلووات | فوقالعاده (PUE نزدیک ۱.۰۱) | بسیار بالا | بسیار بالا (مایعات گران و ملاحظات فشار) |
اقتصاد دیتاسنتر؛ جنگ CAPEX و OPEX و شاخصهای حیاتی
بحران انرژی و حرارت، تأثیر مستقیمی بر اقتصاد دیتاسنترها دارد. دو شاخص کلیدی در این زمینه وجود دارد:
- PUE (Power Usage Effectiveness): نشان میدهد چه مقدار از برق ورودی به دیتاسنتر صرف پردازش شده و چه مقدار آن هدر رفته (صرف خنککننده، روشنایی و تلفات UPS) است. PUE ایدهآل عدد ۱.۰ است. میانگین جهانی در حدود ۱.۵ است، اما برای سودآوری در عصر AI، دیتاسنترها باید این عدد را به زیر ۱.۲ برسانند.
- WUE (Water Usage Effectiveness): دیتاسنترها از برجهای خنککننده تبخیری استفاده میکنند که روزانه میلیونها لیتر آب شرب را تبخیر میکنند. با توجه به بحران جهانی آب، کاهش شاخص WUE به یک الزام قانونی در بسیاری از کشورها تبدیل شده است.
شرکتهای زیرساخت باید تعادل ظریفی بین CAPEX (هزینههای سرمایهای برای خرید سرورهای گرانقیمت AI و سیستمهای خنککننده مایع) و OPEX (هزینههای عملیاتی شامل قبض سرسامآور برق، آب و نگهداری تخصصی سیستمهای مایع) برقرار کنند. این افزایش هزینهها در نهایت به مصرفکننده نهایی سرویسهای ابری و هوش مصنوعی منتقل خواهد شد.
تحلیل اختصاصی آلفاتک: آینده پایدار یا فروپاشی زیرساخت؟
بحران دیتاسنترها نشان میدهد که قانون مور (Moore’s Law) شاید در زمینه افزایش ترانزیستورها هنوز زنده باشد، اما در زمینه «قوانین فیزیک و ترمودینامیک» به یک بنبست سخت رسیده است. ما در آلفاتک معتقدیم که راهحل صرفاً در ارتقای سیستمهای خنککننده نیست. آینده صنعت IT نیازمند یک بازطراحی بنیادین در معماری تراشهها (تغییر از سیلیکون به مواد جدید مانند فوتونیک)، توسعه نرمافزارهای کممصرفتر، و مهمتر از همه، Edge Computing (رایانش مرزی) است. با توزیع بار پردازشی به جای تمرکز آن در ابر-دیتاسنترها (Hyperscalers)، میتوان بخشی از این فشار وحشتناک انرژی را مهار کرد. علاوه بر این، ترند استفاده از «گرمای بازیافتی» دیتاسنترها برای گرمایش شهرکهای مسکونی مجاور، میتواند بخشی از هزینههای زیستمحیطی را جبران کند.


