بحران در معماری Rubin انویدیا؛ آیا AMD با MI500 پادشاهی هوش مصنوعی را تسخیر میکند؟
- چالشهای اساسی انویدیا: بروز ۵ مشکل حیاتی در پلتفرم Rubin شامل محدودیتهای HBM4، تاببرداشتن تراشه و چالشهای حرارتی.
- عقبنشینی در مشخصات: کاهش ظرفیت حافظه در Rubin Ultra از ۱ ترابایت به ۷۶۸ گیگابایت و تغییر معماری از ۴ دای به ۲ دای.
- خیزش ایامدی: آمادهسازی پردازنده MI500 با حافظه ۱۲ لایه HBM4E و فناوری فوتونیک سیلیکونی برای عرضه در سال ۲۰۲۷.
در حالی که جهان تکنولوژی هنوز درگیر هضم قدرت شگفتانگیز معماری Blackwell است، اخبار نگرانکنندهای از آزمایشگاههای توسعه انویدیا به گوش میرسد. پلتفرمهای نسل بعدی این شرکت، یعنی Rubin و Rubin Ultra، که قرار بود مرزهای پردازش هوش مصنوعی را جابهجا کنند، با موانع مهندسی پیچیدهای مواجه شدهاند. این چالشهای ساختاری، از مشکلات حافظه گرفته تا دفع حرارت، ممکن است برنامههای انویدیا را با تأخیر مواجه کرده و یک پنجره طلایی برای قدرتنمایی رقیب دیرینه یعنی AMD با پلتفرم هیولای MI500 باز کند. در این مقاله به کالبدشکافی دقیق این شایعات و تأثیر آن بر آینده بازار AI میپردازیم.
گلوگاه حافظه؛ افت سرعت و کاهش پشتههای HBM4
برنامهریزی اولیه انویدیا برای معماری Rubin بسیار جاهطلبانهتر از وضعیت فعلی بود. قرار بود پلتفرم پایه Rubin از ۲۸۸ گیگابایت حافظه HBM4 با پهنای باند خیرهکننده 22 ترابایت بر ثانیه پشتیبانی کند. با وجود اینکه شرکتهای مایکرون (Micron) و اسکی هاینیکس (SK Hynix) آمادگی خود را برای تولید پشتههای ۱۲ لایه (12-Hi) اعلام کرده بودند، اما گزارشها نشان میدهد دایهای پایه (Base Die) تولید شده کیفیت لازم برای همگامسازی با این پلتفرم را ندارند. این ناهماهنگی سرعت، انویدیا را مجبور به بازنگری جدی کرده است.
اما ضربه اصلی به نسخه قدرتمندتر، یعنی Rubin Ultra، وارد شده است. انویدیا قصد داشت در این تراشه از ۱ ترابایت حافظه فوقسریع HBM4E با پشتههای ۱۶ لایه استفاده کند. با این حال، افت شدید بازدهی تولید (Yield) باعث شد تا مهندسان به همان پشتههای ۱۲ لایه رضایت دهند. این تصمیم به معنای کاهش ۲۵ درصدی ظرفیت و رسیدن به عدد ۷۶۸ گیگابایت است؛ هرچند که این میزان همچنان حدود ۲.۶۶ برابر قدرتمندتر از نسخه استاندارد Rubin ارزیابی میشود.
تغییر استراتژی در معماری؛ کوچ اجباری از ۴ دای به ۲ دای
یکی دیگر از پیامدهای پیچیدگی بستهبندی پیشرفته TSMC با فناوری CoWoS-L، پدیده دردسرساز تاببرداشتن (Warpage) تراشههای بزرگ و متراکم است. انویدیا در ابتدا طراحی ۴ دای (Die) را برای هر پردازنده گرافیکی در نظر داشت، اما نرخ بالای خرابی در خط تولید، آنها را وادار به تغییر استراتژی و استفاده از راهکار ۲ دای کرد. برای جبران این کاهش تعداد ترانزیستور در هر پکیج، انویدیا ساختار مادربردها را تغییر خواهد داد.
در سرورهای نسل بعدی با اسم رمز Kyber، انویدیا از پیکربندی مونتاژ 2+2 بهره خواهد برد؛ به این معنی که هر سرور میزبان چهار پردازنده گرافیکی Rubin Ultra با طراحی جدید و مربعیشکل خواهد بود (برخلاف فرمفاکتور مستطیلی در نسلهای قبل که در رویداد GTC نیز اشاراتی به آن شده بود).
بحران حرارتی و توان مصرفی؛ خداحافظی با خمیرهای ایندیم
توان مصرفی ۱۸۰۰ تا ۲۳۰۰ واتی تراشههای جدید، چالشهای بیسابقهای در دفع حرارت ایجاد کرده است. طراحی اولیه انویدیا شامل دو پخشکننده حرارت (Heatspreader) مجزا بود، اما این رویکرد در مراحل پیشتولید باعث تشدید مشکل تاببرداشتن تراشه شد. در نتیجه، تیم مهندسی مجبور به طراحی مجدد و استفاده از یک پخشکننده یکپارچه شد که همین امر، زمانبندی پروژه را عقب انداخت.
علاوه بر این، استفاده از خمیر حرارتی (TIM) پیشرفته از جنس ایندیم-گرافیت با ناپایداری در دماهای بالا مواجه شد و تیم طراحی را ناچار به عقبنشینی و استفاده مجدد از خمیرهای حرارتی سنتی گرافیتی کرد. با اعمال این تغییرات، انتظار میرود نمونههای کیفی (QS) در ماه ژوئیه، تولید محدود در آگوست و تولید انبوه در سپتامبر آغاز شود تا رکهای نهایی تا ماه اکتبر آماده تحویل باشند.
نبرد غولها؛ آمادهباش AMD MI500 برای فتح بازار ۲۰۲۷
در حالی که انویدیا درگیر حل پازلهای مهندسی خود است، شرکت AMD در کمال آرامش در حال توسعه هیولای بعدی خود با نام MI500 است. این تراشه که مستقیماً Rubin Ultra را هدف قرار داده، قرار است با بستهبندی پیشرفته سهبعدی (2.5D/3D)، معماری کامل ۴ دای و حافظههای ۱۲ لایه HBM4E روانه بازار شود.
نکته هیجانانگیز این رقابت، استفاده هر دو شرکت از فناوری پیشگامانه «فوتونیک سیلیکونی» (Co-package optics) برای ارتباطات نوری درونتراشهای است. با توجه به اینکه MI500 برای نیمه دوم سال ۲۰۲۷ زمانبندی شده است، هرگونه لغزش بیشتر از سوی انویدیا میتواند تسلط مطلق آنها بر بازار شتابدهندههای هوش مصنوعی را به خطر بیندازد.
جدول مقایسه مشخصات فاششده (نسخههای اولیه در برابر نهایی)
در جدول زیر، تغییرات اعمال شده روی پلتفرم Rubin Ultra و مقایسه آن با رقیب آیندهاش یعنی AMD MI500 را مشاهده میکنید:
| مشخصه فنی | Nvidia Rubin Ultra (طراحی اولیه) | Nvidia Rubin Ultra (طراحی اصلاحشده) | AMD MI500 (تخمین ۲۰۲۷) |
|---|---|---|---|
| معماری چیپلت | ۴ دای (4-Die) | ۲ دای (2-Die) در ساختار 2+2 | ۴ دای (4-Die) با پکیج 3D |
| نوع و نسل حافظه | HBM4E (پشتههای ۱۶ لایه) | HBM4E (پشتههای ۱۲ لایه) | HBM4E (پشتههای ۱۲ لایه) |
| ظرفیت کل حافظه | ۱ ترابایت (1000GB) | ۷۶۸ گیگابایت | نامشخص (احتمالاً فراتر از ۸۰۰ گیگابایت) |
| فناوری ارتباطی | فوتونیک سیلیکونی | فوتونیک سیلیکونی | فوتونیک سیلیکونی |
| وضعیت سیستم حرارتی | دو هیتاسپریدر (TIM ایندیم) | هیتاسپریدر یکپارچه (TIM گرافیتی) | در دست توسعه |
تحلیل اختصاصی آلفاتک: آیا زنجیره تأمین انویدیا دوباره معجزه میکند؟
اخبار مربوط به تغییرات در لحظات آخر تولید (Late-stage redesigns) در صنعت نیمههادیها اتفاق جدیدی نیست. اگر به یاد داشته باشید، معماری Blackwell نیز در مراحل ابتدایی با مشکلاتی مشابه در زمینه بازدهی تولید TSMC روبهرو شد، اما قدرت زنجیره تأمین انویدیا توانست تمامی گرهها را باز کرده و محصول را سر وقت وارد فاز تولید انبوه کند. با این حال، کاهش مشخصات کلیدی مانند ظرفیت حافظه از ۱ ترابایت به ۷۶۸ گیگابایت، نشان میدهد که قانون مور و محدودیتهای فیزیکی سیلیکون در حال نشان دادن روی خشن خود هستند. ایامدی با پلتفرم MI500 یک فرصت استثنایی دارد، اما نباید فراموش کرد که اکوسیستم نرمافزاری CUDA همچنان قدرتمندترین سد دفاعی انویدیا در برابر رقباست. سالهای ۲۰۲۷ و ۲۰۲۸ قطعاً بیرحمانهترین دوران رقابت در تاریخ هوش مصنوعی خواهند بود.


