رک سرورهای گرافیکیNVIDIA GB200 NVL72

آموزش تریلیون پارامتر LLM و استنتاج بلادرنگ با NVIDIA GB200 NVL72 پیام بگذارید

NVIDIA GB200 NVL72 آموزش تریلیون پارامتر LLM و استنتاج بلادرنگ را ارائه می دهد.

علاقه به مدل های تریلیون پارامتری چیست؟ ما امروزه بسیاری از موارد استفاده را می شناسیم و علاقه به این مدل‌ها به دلیل ظرفیت بالاتر آن‌ها در حال افزایش است که شامل موارد زیر می‌شود:

  • پردازش زبان طبیعی: وظایفی مانند ترجمه، پاسخ به سوالات، خلاصه‌سازی و روان‌سازی متن.
  • حفظ زمینه و توانایی مکالمه بلندمدت: توانایی مدل در نگهداری اطلاعات طولانی‌مدت و مکالمات پیچیده.
  • کاربردهای چند‌مدلی: ترکیب زبان، بینایی و گفتار.
  • کاربردهای خلاقانه: مانند داستان‌نویسی، تولید شعر و تولید کد.
  • کاربردهای علمی: از جمله پیش‌بینی تاخوردگی پروتئین و کشف دارو.
  • شخصی‌سازی: با قابلیت ایجاد شخصیتی پایدار و به خاطر سپردن زمینه کاربر.

مزایای این مدل‌ها بسیار زیاد است، اما آموزش و پیاده‌سازی مدل‌های بزرگ می‌تواند بسیار پرهزینه و نیازمند منابع فراوان باشد. سیستم‌هایی که از نظر محاسباتی کارآمد، از نظر هزینه به‌صرفه و از نظر انرژی بهینه هستند و توانایی ارائه استنتاج در زمان واقعی را دارند، برای استفاده گسترده از این مدل‌ها ضروری خواهند بود. مدل NVIDIA GB200 NVL72 نمونه‌ای از چنین سیستمی است که برای این کار مناسب می‌باشد.

به عنوان مثال، مدل‌های “ترکیب کارشناسان” (Mixture of Experts) MoE را در نظر بگیرید. این مدل‌ها به توزیع بار محاسباتی بین چندین کارشناس کمک می‌کنند و با استفاده از چندین GPU از طریق موازی‌سازی مدل و موازی‌سازی خطوط، به آموزش پرداخته و سیستم را کارآمدتر می‌کنند.

با این حال، یک سطح جدید از محاسبات موازی، حافظه با سرعت بالا و ارتباطات با کارایی بالا می‌تواند به خوشه‌های GPU کمک کند تا این چالش فنی را قابل مدیریت کنند. معماری NVIDIA GB200 NVL72 در مقیاس رک به این هدف دست یافته است، که جزئیات آن را در این پست توضیح خواهیم داد.

طراحی در مقیاس رک برای یک ابررایانه هوش مصنوعی Exascale

قلب سیستم GB200 NVL72، تراشه NVIDIA GB200 Grace Blackwell Superchip است که دو GPU قدرتمند NVIDIA Blackwell Tensor Core و یک CPU از نوع NVIDIA Grace را با استفاده از رابط NVLink-Chip-to-Chip (C2C) به هم متصل می‌کند و پهنای باند دو‌طرفه‌ای معادل ۹۰۰ گیگابایت بر ثانیه ارائه می‌دهد. با استفاده از NVLink-C2C، برنامه‌ها به یک فضای حافظه یکپارچه دسترسی هماهنگ دارند. این ویژگی باعث ساده‌تر شدن برنامه‌نویسی و پشتیبانی از نیازهای حافظه بزرگ مدل‌های زبانی با تریلیون پارامتر، مدل‌های ترنسفورمر برای وظایف چند‌مدلی، مدل‌های شبیه‌سازی در مقیاس بزرگ، و مدل‌های تولیدی برای داده‌های سه‌بعدی می‌شود.

سینی محاسباتی GB200 بر اساس طراحی جدید NVIDIA MGX ساخته شده است و شامل دو CPU از نوع Grace و چهار GPU از نوع Blackwell می‌باشد. این سینی محاسباتی دارای صفحات سرد و اتصالات برای خنک‌سازی مایع، پشتیبانی از PCIe نسل ۶ برای شبکه‌سازی پرسرعت، و کانکتورهای NVLink برای کارتریج کابل NVLink است. سینی محاسباتی GB200 عملکردی معادل ۸۰ پتافلاپس در زمینه هوش مصنوعی و ۱.۷ ترابایت حافظه سریع ارائه می‌دهد.

سینی محاسباتی GB200 با خنک کننده مایع، چگالی محاسباتی با کارایی و توان بالا را امکان پذیر می کند.

بزرگ‌ترین مسائل نیازمند تعداد کافی از GPUهای پیشرفته Blackwell هستند تا به‌صورت موازی و کارآمد عمل کنند؛ بنابراین باید با پهنای باند بالا و تأخیر کم ارتباط برقرار کرده و به‌طور مداوم فعال بمانند. سیستم در مقیاس رک GB200 NVL72 با استفاده از سیستم سوئیچ NVIDIA NVLink و تعداد ۹ سینی سوئیچ NVLink، کارایی مدل‌های موازی را برای ۱۸ نود محاسباتی تسهیل می‌کند. همچنین، کارتریج‌های کابل برای اتصال GPUها و سوئیچ‌ها به کار گرفته می‌شوند تا ارتباط مؤثر میان آن‌ها برقرار شود.

مدل‌های NVIDIA GB200 NVL36 و NVL72

سیستم GB200 از ۳۶ و ۷۲ پردازنده گرافیکی GPU در دامنه‌های NVLink پشتیبانی می‌کند. هر رک شامل ۱۸ نود محاسباتی مبتنی بر طراحی مرجع MGX و سیستم سوئیچ NVLink است. پیکربندی GB200 NVL36 دارای 36x GPU در یک رک و ۹ نود محاسباتی دوگانه GB200 می‌باشد. مدل GB200 NVL72 به صورت 72x GPU در یک رک با ۱۸ نود محاسباتی دوگانه GB200 یا 72x GPU در دو رک با ۱۸ نود محاسباتی تک‌گانه GB200 تنظیم شده است.

مدل GB200 NVL72 به‌صورت متراکم GPUها را با استفاده از کارتریج کابل مسی برای سادگی عملیاتی به هم متصل می‌کند. همچنین از طراحی سیستم خنک‌کننده مایع استفاده می‌کند که ۲۵ برابر هزینه و مصرف انرژی کمتری دارد.

سیستم Nvlink-switch-system

سیستم سوئیچ NVLink و NVLink نسل پنجم

NVIDIA GB200 NVL72 نسل پنجم NVLink را معرفی می کند که تا ۵۷۶ پردازنده گرافیکی را در یک دامنه NVLink با بیش از پتابایت بر ثانیه 1PB/s پهنای باند کل و ۲۴۰ ترابایت حافظه سریع متصل می کند. هر سینی سوئیچ NVLink دارای ۱۴۴ پورت NVLink با سرعت ۱۰۰ گیگابایت است، بنابراین ۹ سوئیچ به‌طور کامل هر یک از ۱۸ پورت NVLink بر روی ۷۲ عدد GPU Blackwell را متصل می‌کنند.

توان عملیاتی دوطرفه ۱.۸ ترابایت بر ثانیه برای هر GPU، بیش از ۱۴ برابر پهنای باند PCIe نسل ۵ است و ارتباطات پرسرعت و بی‌وقفه‌ای را برای مدل‌های پیچیده امروزی فراهم می‌کند.

 اتصال سوئیچ NVLink پرسرعت 1PB/s از پهنای باند کل را به GPU ها ارائه می کند.

NVLink در طول نسل ها

نوآوری پیشرو NVIDIA در زمینه SerDes با سرعت بالا و مصرف کم، پیشرفت ارتباطات GPU به GPU را به جلو برده است و با معرفی NVLink برای تسریع ارتباطات چند GPU با سرعت بالا آغاز شده است. پهنای باند ارتباطات GPU به GPU در NVLink برابر با ۱.۸ ترابایت بر ثانیه است، که ۱۴ برابر پهنای باند PCIe می‌باشد. نسل پنجم NVLink با سرعت ۱۶۰ گیگابایت بر ثانیه، ۱۲ برابر سریع‌تر از نسل اول است که در سال ۲۰۱۴ معرفی شد. ارتباطات NVLink بین GPUها نقش مهمی در مقیاس‌دهی عملکرد چند GPU در هوش مصنوعی و محاسبات با کارایی بالا (HPC) داشته است.

پیشرفت در پهنای باند GPU به همراه گسترش نمایی اندازه دامنه NVLink، پهنای باند کل یک دامنه NVLink را از سال ۲۰۱۴ به میزان ۹۰۰ برابر افزایش داده است و برای یک دامنه NVLink با ۵۷۶ GPU Blackwell به ۱ پتابایت بر ثانیه رسیده است.

موارد استفاده GB200 NVL72 و نتایج عملکرد

توان محاسباتی و قابلیت‌های ارتباطی GB200 NVL72 بی‌نظیر است و چالش‌های بزرگ در حوزه هوش مصنوعی و محاسبات با کارایی بالا (HPC) را به دسترس عملی نزدیک می‌کند.

آموزش هوش مصنوعی

مدل GB200 شامل موتور ترانسفورمر نسل دوم سریع‌تر با دقت FP8 است. این مدل با استفاده از ۳۲ هزار GB200 NVL72، عملکرد آموزش را برای مدل‌های زبانی بزرگ مانند GPT-MoE-1.8T چهار برابر سریع‌تر از تعداد مشابه GPUهای NVIDIA H100 ارائه می‌دهد.

استنتاج هوش مصنوعی

مدل GB200 قابلیت‌های پیشرفته‌ای را همراه با موتور ترانسفورمر نسل دوم ارائه می‌دهد که باعث تسریع بارهای کاری استنتاج مدل‌های زبانی بزرگ (LLM) می‌شود. این مدل ۳۰ برابر افزایش سرعت برای کاربردهای پردازش فشرده مانند GPT-MoE با ۱.۸ تریلیون پارامتر نسبت به نسل قبلی H100 ارائه می‌دهد. این پیشرفت با نسل جدید Tensor Cores که دقت FP4 و مزایای بسیاری همراه با نسل پنجم NVLink را معرفی می‌کند، امکان‌پذیر شده است.

GPT-MoE-1.8T Real-Time Throughput
نتایج براساس تأخیر توکن به توکن = 50 میلی‌ثانیه؛ تأخیر توکن اول در زمان واقعی = 5,۰۰۰ میلی‌ثانیه؛ طول دنباله ورودی = 32,۷۶۸؛ طول دنباله خروجی = 1,۰۲۴. مقایسه عملکرد بین ۹ مجموعه هشت‌تایی HGX H100 با خنک‌کننده هوا: شبکه IB با پهنای باند ۴۰۰ گیگابایت در برابر ۱۸ سوپرچیپ GB200 با خنک‌کننده مایع: NVL72. مقایسه عملکرد برای هر GPU انجام شده است. عملکرد پیش‌بینی‌شده ممکن است تغییر کند.

این مقایسه به وضوح نشان می‌دهد که GB200 با استفاده از خنک‌کننده مایع و معماری پیشرفته‌تر NVLink NVL72 قادر به ارائه عملکرد به مراتب بهتر در شرایط پردازش واقعی و تأخیر کمتر در استنتاج مدل‌های هوش مصنوعی است.

پردازش داده ها

تحلیل داده‌های بزرگ به سازمان‌ها کمک می‌کند تا با کشف بینش‌ها تصمیمات بهتری بگیرند. سازمان‌ها به طور مداوم داده‌ها را در مقیاس بزرگ تولید می‌کنند و از تکنیک‌های فشرده‌سازی مختلف برای کاهش تنگناها و صرفه‌جویی در هزینه‌های ذخیره‌سازی استفاده می‌کنند. برای پردازش کارآمد این داده‌ها بر روی پردازنده‌های گرافیکی، معماری Blackwell یک موتور سخت‌افزاری برای رفع فشرده‌سازی داده‌ها معرفی کرده است که می‌تواند داده‌های فشرده را در مقیاس وسیع به صورت بومی رفع فشرده‌سازی کند و کل فرایند تجزیه و تحلیل را تسریع کند. این موتور از فرمت‌های فشرده‌سازی LZ4، Deflate و Snappy به صورت بومی پشتیبانی می‌کند.

این موتور عملکرد عملیات محدود به حافظه را تسریع می‌کند و تا ۸۰۰ گیگابایت بر ثانیه عملکرد ارائه می‌دهد. این ویژگی باعث می‌شود که Grace Blackwell تا ۱۸ برابر سریع‌تر از پردازنده‌های مرکزی (Sapphire Rapids) و ۶ برابر سریع‌تر از پردازنده‌های گرافیکی NVIDIA H100 Tensor Core در بنچمارک‌های پرس‌وجو عمل کند.

با پهنای باند حافظه خیره‌کننده ۸ ترابایت بر ثانیه و NVLink-Chip-to-Chip (C2C) پرسرعت پردازنده Grace، این موتور فرایند کامل پرس‌وجوهای پایگاه داده را تسریع می‌کند. این امر منجر به عملکرد برتر در کاربردهای تحلیل داده و علم داده می‌شود و به سازمان‌ها امکان می‌دهد تا با کاهش هزینه‌ها به سرعت به بینش‌های مورد نیاز دست یابند.

Database join Query

شبیه سازی های مبتنی بر فیزیک

شبیه‌سازی‌های مبتنی بر فیزیک همچنان اساس طراحی و توسعه محصولات هستند. از هواپیما و قطار گرفته تا پل‌ها، تراشه‌های سیلیکونی و حتی داروها، تست و بهبود محصولات از طریق شبیه‌سازی می‌تواند میلیاردها دلار صرفه‌جویی کند.

مدارهای مجتمع خاص کاربرد (ASIC) تقریباً به طور کامل بر روی پردازنده‌های مرکزی طراحی می‌شوند، که شامل یک جریان کاری طولانی و پیچیده برای تحلیل آنالوگ به منظور شناسایی ولتاژها و جریان‌ها است. شبیه‌ساز Cadence SpectreX یکی از مثال‌های حل‌کننده‌ها در این زمینه است. پیش‌بینی می‌شود که شبیه‌سازی‌های مدار با SpectreX روی یک ابرتراشه GB200 Grace Blackwell—که پردازنده‌های گرافیکی Blackwell و پردازنده‌های Grace را به هم متصل می‌کند—تا ۱۳ برابر سریع‌تر از پردازنده‌های مرکزی سنتی اجرا شود.

Cadence Simulation Performance
Cadence SpectreX (شبیه‌ساز Spice) | پردازنده: ۱۶ هسته پردازنده x86 | مجموعه داده: طراحی KeithC TSMC N5 | Cadence Fidelity (حل‌کننده CFD LES) | پردازنده: ۱۶ هسته پردازنده x86 | مجموعه داده: GearPump 2M سلول | پیش‌بینی‌های عملکرد برای GB200 ممکن است تغییر کند.

در دو سال گذشته، صنعت به طور فزاینده‌ای به دینامیک سیالات محاسباتی (CFD) با شتاب‌دهنده‌های GPU به عنوان ابزاری کلیدی روی آورده است. مهندسان و طراحان تجهیزات از آن برای مطالعه و پیش‌بینی رفتار طراحی‌های خود استفاده می‌کنند. شبیه‌سازی‌های Cadence Fidelity در سیستم‌های GB200 پیش‌بینی می‌شود که تا ۲۲ برابر سریع‌تر از سیستم‌های سنتی مبتنی بر CPU اجرا شوند.

ما مشتاقیم که امکانات Cadence Fidelity را روی GB200 NVL72 بررسی کنیم. با قابلیت مقیاس‌پذیری موازی و ۳۰ ترابایت حافظه در هر رک، هدف ما این است که جزئیات جریان‌هایی را به دست آوریم که هرگز پیش از این ثبت نشده‌اند.

خلاصه

برای جمع‌بندی، طراحی رک مقیاس GB200 NVL72 را مرور کردیم و به ویژه از قابلیت منحصر به فرد آن برای اتصال ۷۲ پردازنده گرافیکی Blackwell بر روی یک دامنه NVIDIA NVLink آگاه شدیم. این قابلیت، بار ارتباطات را که هنگام مقیاس‌بندی در شبکه‌های سنتی تجربه می‌شود، کاهش می‌دهد. به این ترتیب، استنتاج در زمان واقعی برای یک مدل زبان بزرگ MoE با ۱.۸ تریلیون پارامتر امکان‌پذیر است و آموزش آن مدل ۴ برابر سریع‌تر است.

عملکرد ۷۲ پردازنده گرافیکی Blackwell متصل به NVLink با ۳۰ ترابایت حافظه یکپارچه بر روی یک ساختار محاسباتی با سرعت ۱۳۰ ترابایت در ثانیه، یک سوپرکامپیوتر AI با توان محاسباتی اگزافلاپ در یک رک ایجاد می‌کند. این همان NVIDIA GB200 NVL72 است.


منبع: بلاگ انودیا

دیدگاهتان را بنویسید

سبد خرید

close