معماری بلک ول انویدیا؛ موتور انقلاب صنعتی جدید

شکستن مرزها در محاسبات شتاب‌داده‌شده و هوش مصنوعی مولد

با پیشرفت‌های شگرفی که معماری بلک ول NVIDIA Blackwell Architecture در هوش مصنوعی مولد و محاسبات شتاب‌داده‌شده ایجاد می‌کند، آشنا شوید. Blackwell با تکیه بر نسل‌های متوالی از فناوری‌های NVIDIA، فصل تازه‌ای را در هوش مصنوعی مولد رقم می‌زند و عملکرد، بهره‌وری، و مقیاسی بی‌سابقه ارائه می‌دهد. معماری Blackwell انویدیا با معرفی پیشرفت‌های تحول‌آفرین برای هوش مصنوعی مولد و محاسبات شتاب‌داده‌شده، مرکز داده‌ها را وارد عصری جدید می‌کند. استفاده از موتور تبدیل نسل دوم و رابط‌های سریع‌تر و پهنای بیشتر NVIDIA NVLink عملکردی بسیار بالاتر نسبت به نسل قبلی این معماری ارائه می‌دهد.

به‌علاوه، پیشرفت‌های جدید در فناوری NVIDIA Confidential Computing سطح امنیت را برای استنتاج بلادرنگ هوش مصنوعی مولد در مقیاس بزرگ بدون کاهش عملکرد افزایش می‌دهد. همچنین موتور کاهش فشرده‌سازی جدید Blackwell به همراه کتابخانه‌های Spark RAPIDS عملکرد بی‌نظیری در پایگاه‌داده‌ها برای کاربردهای تحلیل داده فراهم می‌کند. این نوآوری‌ها که بر پایه‌ی چندین نسل از فناوری‌های محاسبات شتاب‌داده‌شده انویدیا بنا شده‌اند، عملکرد، کارایی و مقیاس‌پذیری بی‌سابقه‌ای را در نسل جدید هوش مصنوعی مولد تعریف می‌کنند.

نگاهی به نوآوری‌های تکنولوژیکی معماری بلک ول Blackwell انودیا

کلاس جدیدی از سوپرچیپ‌های هوش مصنوعی

پردازنده‌های گرافیکی با معماری Blackwell با داشتن ۲۰۸ میلیارد ترانزیستور، یعنی بیش از ۲.۵ برابر تعداد ترانزیستورهای موجود در پردازنده‌های گرافیکی NVIDIA Hopper و با بهره‌گیری از فرآیند 4NP شرکت TSMC که به‌طور ویژه برای NVIDIA بهینه‌سازی شده است، Blackwell به بزرگ‌ترین پردازنده گرافیکی ساخته‌شده تاکنون تبدیل شده است. این تراشه به بالاترین توان محاسباتی در یک چیپ واحد دست یافته و عملکردی بالغ بر ۲۰ پتا فلاپس ارائه می‌دهد. (فناوری TSMC 4NP یک فرآیند ساخت نیمه‌هادی سفارشی است که توسط شرکت TSMC (شرکت تولید مدارهای مجتمع تایوان) برای تولید تراشه‌های پیشرفته مانند معماری Blackwell انویدیا استفاده می‌شود. این فناوری با طراحی‌های بسیار فشرده و بهینه‌سازی‌شده، عملکرد و کارایی بالاتری را فراهم می‌کند و تعداد ترانزیستورها را تا مقیاس ۲۰۸ میلیارد ترانزیستور در هر تراشه افزایش می‌دهد.)

این معماری با ترکیب دو قالب یا دو دای محدود به رتیکل (Reticle-limited die) در یک پردازنده گرافیکی یکپارچه، توان محاسباتی چشمگیری را به دست آورده است. هرکدام از این دو قالب به بزرگ‌ترین ابعاد ممکن در حد نهایی ماسک ریخته‌گری ساخته شده‌اند. این دو قالب با استفاده از رابط NVIDIA High-Bandwidth Interface (NV-HBI) با پهنای باند ۱۰ ترابایت بر ثانیه به یکدیگر متصل شده‌اند و یک پردازنده گرافیکی یکپارچه و همبسته ایجاد می‌کنند. معماری Blackwell فراتر از تراشه‌ای با نرخ عملیات محاسباتی بالاست. این معماری از اکوسیستم غنی توسعه ابزارهای NVIDIA، کتابخانه‌های CUDA-X™، بیش از چهار میلیون توسعه‌دهنده و بیش از ۳۰۰۰ برنامه که عملکرد را در هزاران نود گسترش می‌دهند، بهره‌مند است.

موتور تبدیل نسل دوم Second-Generation Transformer Engine

Blackwell با معرفی موتور ترنسفورمر نسل دوم، جهشی جدید در بهبود سرعت پردازش و آموزش مدل‌های زبان بزرگ (LLM) و مدل‌های Mixture-of-Experts (MoE) ایجاد کرده است. این موتور جدید از فناوری اختصاصی Blackwell Tensor Core به همراه نوآوری‌های TensorRT-LLM و پلتفرم Nemo استفاده می‌کند تا قابلیت استنتاج و آموزش مدل‌های پیچیده را به شکل بی‌سابقه‌ای تسریع کند.

برای تقویت استنتاج مدل‌های بزرگ MoE، هسته‌های Tensor در Blackwell از دقت‌های جدید از جمله قالب‌های میکروسکیلینگ تعریف‌شده توسط جامعه استفاده می‌کنند تا دقت بالا و توان عملیاتی بهتری ارائه دهند. موتور ترنسفورمر Blackwell با استفاده از الگوریتم‌های مدیریت محدوده دینامیکی پیشرفته و تکنیک‌های مقیاس‌بندی ریزدانه، به نام مقیاس‌بندی میکرو-تنظیم، عملکرد و دقت را بهینه‌سازی کرده و از FP4 در هوش مصنوعی پشتیبانی می‌کند. این امر عملکرد را با هسته FP4 Blackwell دو برابر می‌کند و پهنای باند پارامترها را به حافظه HBM دو برابر کرده و اندازه مدل‌های نسل بعدی را برای هر پردازنده گرافیکی دو برابر می‌سازد. فناوری TensorRT-LLM نوآوری‌های بیشتری مانند کوانت‌سازی به دقت ۴ بیت و کرنل‌های سفارشی با نقشه‌برداری از موازی‌سازی خبره را ارائه می‌دهد. این ویژگی‌ها استنتاج لحظه‌ای مدل‌های MoE را با سخت‌افزار و انرژی کمتر و هزینه کمتر ممکن می‌سازد.

برای آموزش، موتور ترنسفورمر نسل دوم با استفاده از چارچوب Nemo و Megatron-Core از تکنیک‌های جدید موازی‌سازی خبره بهره می‌برد که با سایر روش‌های موازی‌سازی و NVLink نسل پنجم ترکیب می‌شوند تا عملکرد مدل را به‌طور بی‌سابقه‌ای بهبود بخشند. فرمت‌های دقت پایین‌تر، امکان شتاب بیشتر در آموزش مدل‌های بزرگ‌مقیاس را فراهم می‌کنند. با موتور ترنسفورمر نسل دوم Blackwell، سازمان‌ها می‌توانند مدل‌های MoE پیشرفته را با اقتصادی‌ترین روش‌ها پیاده‌سازی کرده و با استفاده از هوش مصنوعی مولد، بهینه‌سازی کسب‌وکار خود را ممکن سازند. NVIDIA Blackwell دور جدیدی از مدل‌های MoE را ممکن می‌سازد و از آموزش و استنتاج لحظه‌ای مدل‌هایی با بیش از ۱۰ تریلیون پارامتر پشتیبانی می‌کند.

محاسبات امن با عملکرد بالا و هوش مصنوعی امن در معماری بلک ول Blackwell

هوش مصنوعی مولد، فرصت‌های زیادی برای کسب‌وکارها فراهم می‌کند؛ از بهینه‌سازی درآمد و ارائه بینش‌های تجاری گرفته تا تولید محتوای مولد. با این حال، پذیرش این فناوری برای کسب‌وکارهایی که نیاز به آموزش مدل‌های بزرگ روی داده‌های خصوصی دارند و ممکن است تحت مقررات حریم خصوصی یا دارای اطلاعات محرمانه باشند، چالش‌برانگیز است. قابلیت‌های NVIDIA Confidential Computing محدوده محیط اجرای قابل‌اعتماد (TEE) را فراتر از CPU‌ها به GPU‌ها گسترش داده است. رایانش محرمانه در NVIDIA Blackwell به گونه‌ای طراحی شده که بالاترین سطح امنیت و حفاظت‌های مبتنی بر شواهد (attestable) را برای مدل‌های زبانی بزرگ (LLMs) و سایر داده‌های حساس ارائه کند. Blackwell اولین پردازنده گرافیکی با قابلیت TEE-I/O در صنعت را معرفی می‌کند، که همراه با میزبانی‌های سازگار با TEE-I/O و محافظت‌های درون‌خطی در NVLink، بالاترین سطح محرمانگی و یکپارچگی را فراهم می‌آورد.

رایانش محرمانه یا Confidential Computing در Blackwell تقریباً همان عملکرد از نظر کارایی را به‌صورت رمزگذاری‌شده و غیررمزگذاری‌شده ارائه می‌دهد. حالا مشتریان می‌توانند حتی بزرگ‌ترین مدل‌ها را به روشی امن و با عملکرد بالا محافظت کرده و همچنین از مالکیت فکری (IP) هوش مصنوعی محافظت کنند. این امکان، آموزش، استنتاج و یادگیری فدرال هوش مصنوعی محرمانه را به‌طور امن ممکن می‌سازد.

نسل پنجم NVLink و NVLink Switch

برای بهره‌برداری کامل از توان رایانش در مقیاس اگزافلاپ و مدل‌های هوش مصنوعی چندتریلیون‌پارامتری، نیاز به ارتباط سریع و یکپارچه بین تمامی پردازنده‌های گرافیکی در یک کلاستر سروری است. نسل پنجم NVLink با استفاده از ASIC سوئیچ NVLink و سوئیچ‌های طراحی‌شده بر پایه آن، تا ۵۷۶ پردازنده گرافیکی را برای شتاب‌دهی به عملکرد مدل‌های هوش مصنوعی چندتریلیون‌پارامتری مقیاس‌پذیر می‌کند و دو برابر پهنای باند NVLink نسل چهارم را در NVIDIA Hopper ارائه می‌دهد. پردازنده‌های گرافیکی Blackwell با استفاده از جفت‌های دیفرانسیلی در هر جهت، همانند Hopper، پهنای باند لینک‌ها را دو برابر کرده و به ۵۰ گیگابایت بر ثانیه در هر جهت می‌رسانند.

پردازنده‌های گرافیکی Blackwell مجهز به ۱۸ لینک NVLink نسل پنجم هستند که در مجموع پهنای باند ۱.۸ ترابایت بر ثانیه، یا ۹۰۰ گیگابایت بر ثانیه در هر جهت، را فراهم می‌کنند. این پهنای باند ۱.۸ ترابایت بر ثانیه‌ای بیش از ۱۴ برابر پهنای باند PCIe Gen5 است و امکان ارتباط با سرعت بالا را برای پیچیده‌ترین مدل‌های بزرگ فراهم می‌کند. این سرعت انتقال، معادل هفت پتابایت داده در هر ساعت از یک GPU است و قادر است بیشتر از کل پهنای باند اینترنت را تنها با استفاده از ۱۱ پردازنده گرافیکی Blackwell پردازش کند.

سوئیچ NVIDIA NVLink پهنای باند ۱۳۰ ترابایت بر ثانیه را در یک دامنه NVLink با ۷۲ پردازنده گرافیکی (NVL72) برای موازی‌سازی مدل‌ها فراهم می‌کند و با بهره‌وری پهنای باند ۴ برابری از طریق پشتیبانی از SHARP™ FP8، امکان‌پذیر می‌سازد. ترکیب NVLink و NVLink Switch امکان ارتباط بین سرورهای متعدد با همان پهنای باند ۱.۸ ترابایت بر ثانیه را فراهم می‌کند و این ترکیب به کلاسترهای چندسروری امکان می‌دهد که ارتباطات پردازنده‌های گرافیکی را در تعادل با محاسبات افزایش‌یافته مقیاس دهند.

سوئیچ NVLink همراه با NVIDIA Unified Fabric Manager (UFM®) مدیریت پیشرفته و آزمایش‌شده در تولید برای این زیرساخت محاسباتی را فراهم می‌آورد.

موتور کاهش فشرده سازی Decompression در Blackwell

تحلیل داده‌ها و جریان‌های کاری پایگاه‌های داده که معمولاً بر پردازشگرهای CPU متکی هستند، کند و پرهزینه بوده‌اند. علم داده شتاب‌دهی شده می‌تواند به طرز چشمگیری عملکرد تحلیل‌های سرتاسری را بهبود داده، سرعت دست‌یابی به نتایج را افزایش دهد و هزینه‌ها را کاهش دهد. پایگاه‌های داده مانند Apache Spark نقش مهمی در پردازش و تحلیل حجم بالای داده‌ها برای تحلیل داده‌ها ایفا می‌کنند. موتور Decompression اختصاصی جدید Blackwell قادر است داده‌ها را با سرعتی تا ۸۰۰ گیگابایت بر ثانیه از حالت فشرده خارج کند و با بهره‌گیری از پهنای باند ۸ ترابایت بر ثانیه‌ای حافظه HBM3e در یک GPU از GB200 و ارتباط سریع NVLink-C2C (ارتباط چیپ به چیپ) پردازنده Grace، کل خط لوله جستجوهای پایگاه داده را به سریع‌ترین سطح برای تحلیل داده‌ها و علم داده می‌رساند. این موتور، با پشتیبانی از جدیدترین فرمت‌های فشرده‌سازی از جمله LZ4، Snappy، و Deflate، عملکردی ۱۸ برابر سریع‌تر نسبت به CPUها و ۶ برابر سریع‌تر از پردازنده‌های گرافیکی NVIDIA H100 Tensor Core در بنچمارک‌های جستجو ارائه می‌دهد.

موتور RAS در معماری بلک ول Blackwell

معماری Blackwell از طریق افزودن موتور مخصوص قابلیت اطمینان، دسترس‌پذیری، و سرویس‌دهی (Reliability, Availability, Serviceability – RAS) به مقاوم‌سازی هوشمند مجهز شده است که به شناسایی خطاهای بالقوه از مراحل ابتدایی پرداخته و به این ترتیب زمان خرابی را به حداقل می‌رساند. قابلیت‌های مدیریت پیش‌بینی مبتنی بر هوش مصنوعی انویدیا، به طور پیوسته هزاران داده‌ی مربوط به سلامت سخت‌افزار و نرم‌افزار را برای شناسایی و ممانعت از منابع احتمالی خرابی و ناکارآمدی پایش می‌کنند و این امکان را فراهم می‌آورند تا با هوشمندی، زمان و هزینه‌های محاسباتی کاهش یابد.

موتور RAS اطلاعات تشخیصی عمیقی ارائه می‌دهد که می‌تواند مشکلات احتمالی را شناسایی و به برنامه‌ریزی برای نگهداری کمک کند. این موتور با شناسایی سریع منبع مشکلات، زمان پاسخ‌دهی را کاهش داده و با تسهیل راهکارهای کارآمد، زمان خرابی را به حداقل می‌رساند. مدیران سیستم می‌توانند منابع محاسباتی را تنظیم کرده و استراتژی‌های بهینه‌سازی ذخیره‌سازی را برای تداوم عملیات آموزشی در مقیاس بزرگ به کار بگیرند. اگر موتور RAS تشخیص دهد که نیاز به تعویض یک قطعه وجود دارد، ظرفیت پشتیبان فعال می‌شود تا اطمینان حاصل شود که کار بدون افت عملکرد به موقع به پایان می‌رسد و تعویض قطعات سخت‌افزاری مورد نیاز به گونه‌ای زمان‌بندی می‌شود که از بروز خرابی‌های برنامه‌ریزی نشده جلوگیری شود.

نمونه استفاده شده از معماری بلک ول Blackwell در آموزش مدل‌های تریلیون‌ پارامتری است که به‌طور آنی با NVIDIA GB200 NVL72 می توانید آن را باز کنید، NVIDIA GB200 NVL72 با اتصال ۳۶ سوپرچیپ Grace Blackwell و ۳۶ پردازنده Grace و ۷۲ پردازنده گرافیکی Blackwell در یک طراحی مقیاس رک، ارائه می‌شود. GB200 NVL72 یک راه‌حل با خنک‌سازی مایع است که دارای دامنه NVLink ۷۲-GPU است و به‌عنوان یک GPU بزرگ واحد عمل می‌کند—و ۳۰ برابر سریع‌تر از قبل، استنباط آنی برای مدل‌های زبان بزرگ با تریلیون پارامتر را ارائه می‌دهد.

لپ تاپ براساس برند

لپ تاپ براساس کاربری

لپ تاپ بر اساس اندازه صفحه نمایش

کیس دسکتاپ براساس برند

کیس دسکتاپ براساس کاربری

کیس دسکتاپ براساس اندازه

مانیتور براساس برند

لوازم جانبی

انواع قطعات

قلم نوری و تبلت گرافیکی

لپ تاپ براساس برند

لپ تاپ براساس کاربری

لپ تاپ بر اساس اندازه صفحه نمایش

کیس دسکتاپ براساس برند

کیس دسکتاپ براساس کاربری

کیس دسکتاپ براساس اندازه

مانیتور براساس برند

لوازم جانبی

انواع قطعات

قلم نوری و تبلت گرافیکی

لپ تاپ براساس برند

لپ تاپ براساس کاربری

لپ تاپ بر اساس اندازه صفحه نمایش

کیس دسکتاپ براساس برند

کیس دسکتاپ براساس کاربری

کیس دسکتاپ براساس اندازه

مانیتور براساس برند

لوازم جانبی

انواع قطعات

قلم نوری و تبلت گرافیکی

لپ تاپ براساس برند

لپ تاپ براساس کاربری

لپ تاپ بر اساس اندازه صفحه نمایش

کیس دسکتاپ براساس برند

کیس دسکتاپ براساس کاربری

کیس دسکتاپ براساس اندازه

مانیتور براساس برند

لوازم جانبی

انواع قطعات

قلم نوری و تبلت گرافیکی

شکستن مرزها در محاسبات شتاب‌داده‌شده و هوش مصنوعی مولد

نگاهی به نوآوری‌های تکنولوژیکی معماری بلک ول Blackwell انودیا

کلاس جدیدی از سوپرچیپ‌های هوش مصنوعی

موتور تبدیل نسل دوم Second-Generation Transformer Engine

محاسبات امن با عملکرد بالا و هوش مصنوعی امن در معماری بلک ول Blackwell

نسل پنجم NVLink و NVLink Switch

موتور کاهش فشرده سازی Decompression در Blackwell

موتور RAS در معماری بلک ول Blackwell

مرتضی رضائی

دیدگاهتان را بنویسید لغو پاسخ