پایان بحران حرارتی در سرورهای هوش مصنوعی؛ اسکی هاینیکس از حافظه iHBM رونمایی کرد
- خنکسازی از درون سیلیکون: ادغام عناصر خنککننده (ICE) مستقیماً در لایه فیزیکی ارتباطی (D2D PHY) حافظه.
- کاهش ۳۰ درصدی مقاومت حرارتی: باز کردن مسیر جدید برای دفع گرما که سقف دمایی (Temperature Ceiling) را در سرورها به شدت به تعویق میاندازد.
- نقشه راه توسعه: برنامهریزی برای پیادهسازی این تکنولوژی در نسل آینده حافظهها یعنی HBM5 از سال ۲۰۲۹ به بعد.
- تحول بازار سختافزار: رشد سهم هزینههای حافظه HBM در دیتاسنترهای AI به ۶۳ درصد از کل بودجه تراشهها (پیشی گرفتن از خود GPUها).
هر چقدر که مدلهای هوش مصنوعی تشنهتر میشوند، دیتاسنترها گرمتر میشوند. در شبکه و دیتاسنتر مبتنی بر AI، حافظههای با پهنای باند بالا (HBM) برای افزایش چگالی و کاهش تاخیر به صورت عمودی روی هم چیده (Stack) میشوند. اما این معماری سهبعدی یک چالش مهلک دارد: گرمای محبوس شده در بین لایهها. تا به امروز، تمام راهکارهای خنککننده در خارج از پکیج پردازنده قرار داشتند. اما غول کرهای تولیدکننده نیمههادی، SK Hynix، با معرفی معماری iHBM (Integrated High Bandwidth Memory)، قوانین بازی را تغییر داده و سیستم خنککننده را به داخل خود تراشه برده است.
معماری iHBM؛ وقتی سیلیکون نفس میکشد
در نسلهای فعلی HBM، نقطه اتصال بین تراشه گرافیکی (GPU) و حافظه که به لایه D2D PHY (Die-to-Die Physical Layer) معروف است، داغترین بخش مدار محسوب میشود. اسکی هاینیکس در طراحی iHBM، عناصر خنککننده یکپارچه (ICE) را دقیقاً در همین لایه بحرانی تعبیه کرده است. این مسیر جدید دفع حرارت، مقاومت گرمایی ماژول را تا ۳۰ درصد کاهش میدهد.
«تکنولوژی iHBM یک راهکار بینقص برای مدیریت حرارتی است که توانمندیهای طراحی حافظه ما را با فناوریهای پیشرفته پکیجینگ (Packaging) ترکیب میکند.»
— کانگووک لی (Kangwook Lee)، معاون ارشد توسعه PKG در SK Hynix
این دستاورد به معنای آن است که طراحان سرور میتوانند فشار پردازشی بیشتری به ماژولهای HBM بیاورند، پیش از آنکه تراشه برای جلوگیری از سوختن، دچار افت عملکرد حرارتی (Thermal Throttling) شود. این تکنولوژی قرار است در حافظههای نسل HBM5 از سال ۲۰۲۹ تجاریسازی شود.
اقتصاد هوش مصنوعی؛ پادشاهی حافظه بر پردازندههای منطقی (Logic Dies)
شاید تا یک دهه پیش، حافظه تنها یک بخش جانبی در کنار قدرت پردازنده مرکزی به حساب میآمد، اما هوش مصنوعی این معادله را کاملاً وارونه کرده است. در پردازش مدلهای عظیم داده (LLM)، حجم دادهها اهمیت به مراتب بیشتری از سرعت پردازش خطی پیدا کرده است.
بر اساس دادههای موسسه Epoch AI، سهم حافظه HBM از کل هزینههای تراشههای هوش مصنوعی، از ۵۲ درصد در سهماهه اول ۲۰۲۴ به ۶۳ درصد در پایان سال ۲۰۲۵ خواهد رسید. در کمال تعجب، سهم پردازندههای منطقی (مانند GPUهای معروف انویدیا) در همین بازه زمانی از ۱۴.۲ درصد به ۱۲.۹ درصد کاهش یافته است. این هجوم سرمایه به سمت HBM باعث شده تا سازندگان، خطوط تولید خود را تغییر دهند که نتیجه آن کمبود شدید و گرانی حافظههای استاندارد مانند DDR5 در بازار جهانی بوده است.
«تقاضا برای سختافزارهای پردازش هوش مصنوعی به گونهای بر عرضه غلبه کرده است که دیگر با یک نوسان چرخهای روبرو نیستیم، بلکه شاهد یک تغییر ساختاری بلندمدت در صنعت هستیم.»
— چوی تائه-وون (Chey Tae-won)، رئیس هیئت مدیره گروه SK
مقایسه معماری خنکسازی: HBM سنتی در برابر iHBM
تغییر پارادایم از خنککنندههای خارجی به خنکسازی در سطح سیلیکون، مزایای فنی گستردهای دارد که در جدول زیر خلاصه شده است:
| ویژگی معماری | حافظه HBM فعلی (نسل ۳ و ۴) | حافظه یکپارچه iHBM (نسل ۵) |
|---|---|---|
| محل دفع حرارت (Heat Dissipation) | کاملاً خارجی (پس از خروج از پکیج تراشه) | داخلی (عناصر ICE درون لایه فیزیکی D2D) |
| مقاومت حرارتی | بالا (خطر ایجاد گلوگاه در فرکانسهای بالا) | کاهش ۳۰ درصدی مقاومت حرارتی |
| تاثیر بر طراحی سرور | نیاز به هیتسینکها و سیستمهای خنککننده مایع بسیار سنگین | سادهسازی طراحی برای System Builder ها و افزایش پایداری |
| زمان عرضه تخمینی | در حال تولید | سال ۲۰۲۹ به بعد |
واکنش رقبا: پروژه مشترک اینتل و سافتبنک (ZAM)
اسکی هاینیکس تنها بازیگر این میدان نیست. با درک اهمیت حیاتی حافظههای پشتهای (Stacked Memory)، شرکت اینتل (Intel) نیز در فوریه گذشته از همکاری استراتژیک خود با هلدینگ سافتبنک برای توسعه یک تکنولوژی جایگزین با نام Z-Angle Memory (ZAM) پرده برداشت. این معماری نیز بر پایه قرارگیری ماژولها روی یکدیگر استوار است و پیشبینی میشود تا سال ۲۰۳۰ وارد رقابت با سری HBM5 شود.
تحلیل اختصاصی آلفاتک: نجات دیتاسنترها از بحران انرژی
اهمیت معرفی iHBM فراتر از یک بنچمارک ساده است. در حال حاضر، دیتاسنترهای هوش مصنوعی در حال رسیدن به مرزهای بحرانی مصرف برق و محدودیتهای فیزیکی خنکسازی هستند. وقتی سیلیکون بتواند خودش را خنک کند، نیاز به پمپهای عظیم آب و چیلرهای پرمصرف در سطح رک کاهش مییابد. اگر SK Hynix بتواند وعده کاهش ۳۰ درصدی حرارت را در مقیاس صنعتی عملیاتی کند، نه تنها هزینههای OPEX (هزینههای عملیاتی) سازمانها به شدت کاهش مییابد، بلکه استهلاک حرارتی گرانترین قطعات سرور نیز مهار خواهد شد. این تکنولوژی میتواند تنها راه نجات صنعت برای ادامه روند قانون مور در عصر هوش مصنوعی باشد.


