سرورهای هوش مصنوعی قدرتمند مانند NVIDIA HGX H200 به عنوان زیرساخت اصلی آموزش مدلهای بزرگ و پردازش های پیچیده AI مورد استفاده قرار میگیرند. این سیستمها با وجود توان پردازشی فوقالعاده، چالشهای مهمی در هزینه، مصرف برق، خنک سازی، شبکه سازی و نگهداری دارند. در ادامه به بررسی نکات کلیدی و ملاحظات عملی مرتبط با این نوع سرور هوش مصنوعی میپردازیم.
برای مشاوره رایگان با متخصصان رسام تماس بگیرید
۱. هزینه و لجستیک بالای سرورهای هوش مصنوعی
- یک مجموعه Nvidia HGX H200 8-GPU (مانند AIver R 6288) قیمتی نزدیک به یک خودروی فراری مدل پایه دارد.
- این سرورها بسیار بزرگ هستند و بسته بندی و حمل و نقل آنها ساعتها طول می کشد.
هزینه و ظرفیت بالا
- یک سرور NVIDIA HGX H200 8-GPU (مانند AIver R 6288) تقریباً بهاندازه یک فراری مدل پایه قیمت دارد.
- هر GPU هاپر H200 دارای ۱۴۱ گیگابایت حافظه HBM3e است که در مجموع بیش از ۱.۱ ترابایت حافظه ارائه میدهد. (عدد ۱۴۱ گیگابایت به دلیل مسائل مربوط به بازده تولید انتخاب شده است.)
۲. مصرف برق و نوسانات شدید انرژی
- هر سرور میتواند بیش از ۱۰ کیلووات برق مصرف کند.
- هر GPU مدل SXM H200 به طور مستقل حدود ۷۰۰ وات انرژی مصرف میکند.
- اجزای دیگر مانند فنها (۱۵% مصرف انرژی)، کارتهای شبکه پرسرعت (مانند Nvidia BlueField 3 با مصرف ۱۵۰ وات) و حافظه سیستم نیز سهم بالایی در مصرف برق دارند.
- نوسانات شدید توان GPUها بین حالت کممصرف و تمامبار، برای مراکز داده قدیمی مشکلساز است.
تمام GPUها از طریق NVLink به هم متصل هستند؛ فناوریای که تنها در پلتفرمهای انویدیا وجود دارد و شامل چهار تراشه سوئیچ پرقدرت روی برد است. این طراحی، تبادل داده بین GPUها را بهشدت سریع و بدون نیاز به CPU انجام میدهد.
۳. خنک سازی و سر و صدای بالا
- این سرورها به شش ماژول فن قدرتمند برای خنکسازی نیاز دارند.
- محیط کاری در «راهروی داغ» بسیار پر سروصدا و نیازمند محافظ گوش دو لایه است.
طراحی ماژولار و ساده برای سرویسدهی
- سینی GPU از جلوی سرور بیرون کشیده میشود و نیازی به خارج کردن کل دستگاه از رک نیست.
- فنها، پاورها و حتی کارتهای شبکه بهراحتی از پشت سیستم تعویض میشوند و فرایند نگهداری را ساده میکنند.
۴. قابلیت نگهداری و سرویسدهی سادهتر
- سینی GPUها از جلو خارج میشود و نیاز به خارج کردن کل سرور نیست.
- فنها، منابع تغذیه و کارتهای شبکه بهصورت ماژولار از پشت سرور تعویض میشوند.
- وجود پورتهای VGA و USB امکان اتصال KVM را فراهم میکند.
این سرور قادر به ارائه ۳.۶ ترابیت بر ثانیه پهنای باند شبکه است.
هر GPU یک کارت شبکه ۴۰۰ گیگابیتی Nvidia ConnectX-7 دارد که از اترنت یا InfiniBand پشتیبانی میکند.
سوئیچهای PCIe داخلی امکان اتصال مستقیم GPUها به کارتهای شبکه را بدون عبور از CPU فراهم میکنند.
یک DPU Nvidia BlueField 3 با ۱۶ هسته ARM، مدیریت ارتباطات “شمال-جنوب” و کارهای پیچیده شبکه مانند بوت از طریق شبکه را انجام میدهد.
۵. شبکه سازی پیشرفته در سرورهای NVIDIA HGX H200
- هر سرور میتواند تا ۳.۶ ترابیت بر ثانیه پهنای باند شبکه ارائه دهد.
- شامل ۸ کارت شبکه Nvidia ConnectX-7 با سرعت ۴۰۰ گیگابیت بر ثانیه است.
- کارت Nvidia BlueField 3 DPU ارتباط CPU و خوشههای شبکه را مدیریت میکند.
طراحی برق ۵۴ ولتی با پاورهای اختصاصی، امکان تغذیه مستقیم برد GPU را فراهم کرده و کارایی بالاتری ارائه میدهد.
۶. ذخیره سازی و حافظه در سرورهای AI
- پشتیبانی از ۸ درگاه NVMe 2.5 اینچی و یک M.2 Riser برای بوت.
- استفاده از SSDهای پرسرعت برای دادههای موقت و ذخیرهسازی شبکهای برای دادههای پتابایتی.
- پشتیبانی از پردازندههای Intel Xeon نسل چهارم و پنجم و ۳۲ DIMM رم.
وجود ۸ درگاه NVMe پرسرعت در جلو، دسترسی سریع به دادههای حجیم را ممکن میکند. پشتیبانی از پردازندههای Intel Xeon نسل چهارم و پنجم و ۳۲ ماژول رم DIMM، انعطاف بالایی در ارتقا فراهم میکند.
۷. طراحی منبع تغذیه مدرن
- این سرورها دارای ۸ منبع تغذیه هستند.
- از طراحی ۵۴ ولتی جدید برای تغذیه مستقیم GPUها استفاده میشود که کارایی و پایداری را افزایش میدهد.
گزینه جایگزین: NVIDIA DGX A100
اگر به دنبال گزینهای آمادهتر هستید، سرور NVIDIA DGX A100 640GB با ۸ GPU A100 و توان پردازشی ۵ پتافلاپ میتواند انتخاب ایدهآلی باشد.
قبل از خرید بخوانید
برای آشنایی بیشتر با معیارهای انتخاب و هزینه های این سرورها، پیشنهاد می کنیم مقاله راهنمای جامع خرید سرور هوش مصنوعی را مطالعه کنید تا انتخابی آگاهانه تر داشته باشید.
قیمت سرور هوش مصنوعی را از رسام استعلام کنید!
اگر قصد خرید یا دریافت مشاوره تخصصی در مورد سرورهای هوش مصنوعی مانند NVIDIA HGX H200 یا NVIDIA DGX A100 640GB را دارید، تیم کارشناسان رسام آماده است تا شما را در انتخاب بهترین راهکار متناسب با نیازتان راهنمایی کند.