صفحه اصلی > اینترنت و شبکه و دیتاسنتر : پایان قطعی‌های مکرر شبکه؛ طراحی معماری افزونه (Redundancy) در سطح لایه ۲

پایان قطعی‌های مکرر شبکه؛ طراحی معماری افزونه (Redundancy) در سطح لایه ۲

پایان قطعی‌های مکرر شبکه؛ طراحی معماری افزونه (Redundancy) در سطح لایه ۲

قطعی ناگهانی شبکه در ساعات اوج کاری، کابوسی است که می‌تواند به قیمت از دست رفتن داده‌های حساس، توقف خطوط تولید و خسارت‌های مالی سنگین تمام شود. وقتی تنها یک سوئیچ مرکزی یا یک کابل فیبر نوری دچار اختلال می‌شود، آیا کل سازمان شما فلج می‌گردد؟ در دنیای فناوری اطلاعات امروز، تکیه بر یک مسیر واحد (Single Point of Failure) یک اشتباه استراتژیک نابخشودنی است. راهکار مهندسی برای این بحران، پیاده‌سازی معماری افزونه (Redundancy) است؛ ایجاد مسیرها و تجهیزات جایگزین که در کسری از ثانیه و بدون دخالت انسان، بار ترافیکی را بر عهده بگیرند.

با این حال، پیاده‌سازی افزونگی در لایه ۲ شبکه (Data Link Layer) یک شمشیر دو لبه است. اتصال چند سوئیچ به یکدیگر با کابل‌های اضافی، در صورت عدم پیکربندی صحیح، به جای ایجاد پایداری، باعث ایجاد پدیده‌ای مخرب به نام حلقه (Loop) می‌شود که می‌تواند کل تجهیزات شبکه و دیتاسنتر شما را در کمتر از چند ثانیه به مرز فروپاشی بکشاند. در این مقاله جامع، از مبانی تئوری تا پیشرفته‌ترین تکنولوژی‌های سیسکو برای طراحی یک شبکه لایه ۲ کاملاً پایدار، افزونه و بدون قطعی را کالبدشکافی خواهیم کرد.

بحران طوفان فراگیر (Broadcast Storm)؛ بهای سنگین افزونگی غیراصولی

در شبکه‌های مبتنی بر اترنت (Ethernet)، سوئیچ‌ها وظیفه دارند بسته‌های اطلاعاتی (فریم‌ها) را بر اساس آدرس MAC به مقصد برسانند. زمانی که یک سوئیچ فریمی با آدرس مقصد ناشناس (Unknown Unicast) یا یک فریم پخشی (Broadcast) مانند درخواست‌های ARP یا DHCP دریافت می‌کند، آن فریم را روی تمام پورت‌های خود (به جز پورتی که از آن دریافت کرده) ارسال می‌کند.

حالا تصور کنید برای ایجاد Redundancy، دو سوئیچ را با دو کابل مجزا به هم متصل کرده‌اید. سوئیچ الف فریم Broadcast را از کابل اول به سوئیچ ب می‌فرستد. سوئیچ ب آن را دریافت کرده و چون یک فریم Broadcast است، آن را از کابل دوم مجدداً به سوئیچ الف برمی‌گرداند! برخلاف بسته‌های لایه ۳ (IP) که دارای مکانیزم TTL (Time to Live) هستند تا پس از مدتی از بین بروند، فریم‌های لایه ۲ هیچ تاریخ انقضایی ندارند. این چرخه باطل در کسری از ثانیه هزاران بار تکرار می‌شود و پدیده‌ای به نام Broadcast Storm رخ می‌دهد. پردازنده سوئیچ‌ها (CPU) به ۱۰۰ درصد می‌رسد، جدول MAC Address دچار ناپایداری و اختلال (Flapping) می‌شود و شبکه به طور کامل از کار می‌افتد.

پروتکل درخت پوشا (STP و RSTP)؛ ناجی کلاسیک شبکه‌های لایه ۲

برای حل معمای لوپ در لایه ۲، پروتکل STP (Spanning Tree Protocol – استاندارد 802.1D) ابداع شد. منطق STP بسیار هوشمندانه است: اجازه می‌دهد شما از نظر فیزیکی هر تعداد کابل افزونه که می‌خواهید بین سوئیچ‌ها متصل کنید، اما از نظر منطقی (نرم‌افزاری) یک درخت بدون حلقه ایجاد می‌کند.

STP این کار را با تبادل پیام‌هایی به نام BPDU (Bridge Protocol Data Unit) بین سوئیچ‌ها انجام می‌دهد. طی این فرآیند، یک سوئیچ به عنوان “پل ریشه” (Root Bridge) انتخاب می‌شود که به عنوان مرکز شبکه عمل می‌کند. سپس، STP بهترین و کوتاه‌ترین مسیر را از هر سوئیچ به Root Bridge پیدا کرده و در حالت Forwarding (ارسال داده) قرار می‌دهد. پورت‌های اضافی که باعث ایجاد لوپ می‌شوند، به صورت هوشمند در حالت Blocking (مسدود) قرار می‌گیرند. اگر کابل اصلی قطع شود، STP متوجه قطعی شده و پورت مسدود شده را به حالت Forwarding برمی‌گرداند تا شبکه به کار خود ادامه دهد.

نسخه قدیمی STP برای همگرایی مجدد (Convergence) به حدود ۳۰ تا ۵۰ ثانیه زمان نیاز داشت که برای شبکه‌های امروزی فاجعه‌بار است. به همین دلیل، RSTP (Rapid Spanning Tree Protocol – استاندارد 802.1w) معرفی شد که زمان قطعی شبکه را در زمان تغییرات توپولوژی به کمتر از ۱ تا ۳ ثانیه کاهش داده است.

پروتکل STP با تمام مزایایی که دارد، یک نقطه ضعف بزرگ در طراحی ایجاد می‌کند: هدررفت پهنای باند. فرض کنید شما دو سوئیچ Core را با دو لینک ۱۰ گیگابیتی به هم متصل کرده‌اید. STP برای جلوگیری از لوپ، یکی از این لینک‌ها را مسدود می‌کند. در نتیجه، شما برای ۲۰ گیگابیت پهنای باند هزینه کرده‌اید، اما تنها از ۱۰ گیگابیت آن استفاده می‌کنید.

برای غلبه بر این محدودیت، تکنولوژی Link Aggregation یا در اصطلاح سیسکو EtherChannel به میدان آمد. با استفاده از پروتکل استاندارد LACP (استاندارد 802.3ad)، شما می‌توانید تا ۸ پورت فیزیکی مجزا را با یکدیگر ترکیب کرده و به یک پورت منطقی (Port-channel) تبدیل کنید. از نگاه پروتکل STP، این مجموعه اکنون تنها “یک لینک” است؛ بنابراین هیچ پورتی مسدود نمی‌شود. ترافیک به صورت هوشمند (بر اساس الگوریتم‌های Load Balancing مبتنی بر آدرس IP یا MAC) بین کابل‌های فیزیکی توزیع می‌شود. اگر یکی از کابل‌ها قطع شود، ترافیک بدون هیچ‌گونه قطعی محسوسی (Zero-second failover) روی کابل‌های باقی‌مانده هدایت می‌شود.

معماری‌های مدرن دیتاسنتر؛ انقلاب vPC و VSS در تجهیزات سیسکو

در حالی که EtherChannel مشکل پهنای باند بین دو سوئیچ را حل می‌کرد، همچنان یک محدودیت معماری وجود داشت: شما نمی‌توانستید یک EtherChannel را از یک سوئیچ مبدأ به دو سوئیچ مقصد متفاوت متصل کنید. در دیتاسنترهای حساس که سرورها نیاز دارند به دو سوئیچ مجزا (برای Redundancy کامل سخت‌افزاری) متصل شوند، STP مجدداً وارد عمل شده و یکی از مسیرها را مسدود می‌کرد.

سیسکو با معرفی تکنولوژی‌های پیشرفته در سطح لایه توزیع و هسته (Core/Distribution)، این پارادایم را تغییر داد:

  • VSS (Virtual Switching System): در سوئیچ‌های سری Catalyst، این تکنولوژی دو سوئیچ فیزیکی قدرتمند را با یکدیگر ترکیب کرده و یک سوئیچ منطقی واحد ایجاد می‌کند. از آنجایی که شبکه فقط یک سوئیچ می‌بیند، توپولوژی لایه ۲ عملاً عاری از لوپ (Loop-free) می‌شود و تمام لینک‌ها در حالت Active/Active کار می‌کنند.
  • vPC (Virtual PortChannel): در سوئیچ‌های دیتاسنتر خانواده Nexus (سیستم‌عامل NX-OS)، تکنولوژی vPC معرفی شد. در معماری vPC، دو سوئیچ نکسوس همچنان هویت کنترلی مجزای خود (Control Plane) را حفظ می‌کنند (برخلاف VSS)، اما به دستگاه‌های پایین‌دست (مانند سرورها یا سوئیچ‌های Access) این توهم را می‌دهند که به یک سوئیچ متصل هستند. این معماری مقیاس‌پذیری خیره‌کننده، زمان بازیابی زیر یک ثانیه و بهره‌وری ۱۰۰ درصدی از تمام لینک‌های شبکه را بدون وابستگی به مکانیزم مسدودسازی STP به ارمغان می‌آورد.

جدول مقایسه‌ای: تکامل تکنولوژی‌های افزونگی لایه ۲

برای تصمیم‌گیری بهتر در طراحی زیرساخت، ویژگی‌های این سه نسل از تکنولوژی‌های لایه ۲ را در جدول زیر مقایسه کرده‌ایم:

ویژگی معماری Spanning Tree (STP/RSTP) EtherChannel (LACP) Virtual PortChannel (vPC)
مکانیزم جلوگیری از لوپ مسدود کردن فیزیکی پورت‌ها (Blocking) ترکیب فیزیکی به عنوان یک پورت منطقی یکپارچه‌سازی لایه ۲ بین دو شاسی مجزا
بهره‌وری از پهنای باند فقط ۵۰٪ (یک لینک همیشه خاموش است) ۱۰۰٪ استفاده از ظرفیت لینک‌های تجمیع‌شده ۱۰۰٪ در تمام مسیرهای Active/Active بین سوئیچ‌ها
زمان همگرایی در زمان قطعی ۱ تا ۵۰ ثانیه (وابسته به پروتکل) کمتر از یک ثانیه (بدون قطعی ملموس) بدون قطعی (Zero-Downtime) در مسیرهای افزونه
محیط استفاده ایده‌آل سوئیچ‌های لایه Access و شبکه‌های قدیمی ارتباط بین سوئیچ‌ها یا اتصال سرورها به سوئیچ هسته دیتاسنتر و اتصالات سرورهای حساس (Blade Servers)
پشتیبانی از Multi-Chassis خیر خیر (مگر با استفاده از Stack) بله (قابلیت اصلی معماری vPC)

تحلیل اختصاصی آلفاتک: پاشنه آشیل شبکه‌های سازمانی در ایران

در ارزیابی‌های متعددی که کارشناسان آلفاتک از زیرساخت‌های شبکه‌ای سازمان‌های متوسط و بزرگ داشته‌اند، یک اشتباه مهندسی رایج به وفور دیده می‌شود: «رها کردن پروتکل STP در حالت پیش‌فرض (Default)». بسیاری از مدیران شبکه پس از نصب سوئیچ‌ها، تنظیمات Root Bridge را به صورت دستی (Manual Election) پیکربندی نمی‌کنند. این موضوع باعث می‌شود در زمان قطعی برق یا اضافه شدن یک سوئیچ ارزان‌قیمت جدید به شبکه، آن سوئیچ ضعیف به عنوان مرکز شبکه (Root) انتخاب شود و تمام ترافیک سنگین دیتاسنتر به سمت آن سرازیر گردد که نتیجه‌ای جز فلج شدن کل زیرساخت ندارد. پیاده‌سازی مکانیزم‌های دفاعی مانند BPDU Guard در پورت‌های متصل به کاربران و تنظیم دستی اولویت‌ها (Priority)، حداقل الزاماتی است که برای پایداری یک شبکه Redundant باید رعایت شود.

سوالات متداول (FAQ)

ویژگی BPDU Guard چیست و چرا استفاده از آن در لایه دسترسی (Access) الزامی است؟
ویژگی BPDU Guard یک لایه امنیتی است که روی پورت‌هایی که به کاربران یا سیستم‌های نهایی (مانند کامپیوترها و چاپگرها) متصل هستند فعال می‌شود. اگر کاربری به اشتباه یک سوئیچ خانگی را به شبکه سازمان متصل کند و آن سوئیچ پیام BPDU ارسال نماید، BPDU Guard بلافاصله پورت را خاموش (Err-Disable) می‌کند تا از دستکاری شدن توپولوژی STP و ایجاد طوفان Broadcast جلوگیری شود.
آیا می‌توان از پروتکل LACP برای اتصال سوئیچ سیسکو به سوئیچ برندهای دیگر (مانند HP یا Mikrotik) استفاده کرد؟
بله. پروتکل LACP (Link Aggregation Control Protocol) یک استاندارد صنعتی و متن‌باز (IEEE 802.3ad) است و برخلاف پروتکل اختصاصی PAgP سیسکو، بین تجهیزات تمام برندهای معتبر شبکه سازگاری (Interoperability) کامل دارد.
تفاوت اصلی بین Stacking فیزیکی و معماری vPC در چیست؟
در Stacking فیزیکی (مانند سوئیچ‌های کاتالیست 9300)، سوئیچ‌ها از طریق کابل‌های اختصاصی به یکدیگر متصل شده و Control Plane آن‌ها یکی می‌شود؛ یعنی اگر پردازنده اصلی (Master) هنگ کند یا نیاز به ریبوت نرم‌افزاری داشته باشد، کل استک تحت تاثیر قرار می‌گیرد. اما در vPC (مخصوص سوئیچ‌های Nexus)، هر سوئیچ پردازنده و سیستم‌عامل مستقل خود را حفظ می‌کند. بنابراین می‌توانید یکی از سوئیچ‌ها را برای بروزرسانی ریبوت کنید، در حالی که سوئیچ دوم ترافیک دیتاسنتر را بدون هیچ قطعی (Zero-Downtime) هدایت می‌کند.
تولید محتوا برای من فقط نوشتن نیست؛ ترجمه دنیای پیچیده فناوری به زبانی روشن، دقیق و قابل فهم است. به‌عنوان کارشناس تولید محتوا در حوزه فناوری اطلاعات و تکنولوژی، تمرکزم بر خلق محتوایی است که هم از نظر فنی معتبر باشد و هم برای مخاطب ارزش واقعی ایجاد کند. از مفاهیم تخصصی IT و زیرساخت‌های شبکه گرفته تا هوش مصنوعی، امنیت سایبری و تحولات دیجیتال، تلاش می‌کنم هر موضوع را با نگاهی تحلیلی و ساختاریافته ارائه دهم.
مقالات مرتبط

رمزنگاری ترافیک در بسترهای ناامن؛ راهنمای فنی پیاده‌سازی تونل‌های IPsec و VPN

رمزنگاری ترافیک در بسترهای ناامن؛ راهنمای فنی پیاده‌سازی تونل‌های IPsec و VPN…

باج‌افزارها، تهدیدی برای بقای سازمان؛ اجرای استراتژی ایزوله‌سازی شبکه (Air-Gapping)

باج‌افزارها، تهدیدی برای بقای سازمان؛ اجرای استراتژی ایزوله‌سازی شبکه (Air-Gapping) و پناهگاه…

خطر جبران‌ناپذیر از دست رفتن داده| استراتژی‌های نوین Backup و Disaster Recovery

خطر جبران‌ناپذیر از دست رفتن داده؛ استراتژی‌های نوین Backup و Disaster Recovery…

دیدگاهتان را بنویسید