معماری آمپر انویدیا (NVIDIA Ampere Architecture) پیام بگذارید

معماری آمپر انویدیا (NVIDIA Ampere Architecture)

آمپر Ampere کد نام یک ریزمعماری (microarchitecture) واحد پردازش گرافیکی (GPU) است که توسط انویدیا (NVIDIA) به عنوان جانشین دو معماری قبلی این شرکت یعنی کد نام های ولتا (Volta) و تورینگ (Turing) توسعه یافته است و رسماً در ۱۴ مه ۲۰۲۰ اعلام شد.

نام معماری آمپر از نام ریاضیدان و فیزیکدان فرانسوی آندره-ماری آمپر (André-Marie Ampère) گرفته شده است. انویدیا نسل بعدی پردازنده‌های گرافیکی مصرفی سری GeForce 30 را در رویداد ویژه GeForce در ۱ سپتامبر ۲۰۲۰ معرفی کرد. Nvidia A100 80GB GPU را در SC20 در ۱۶ نوامبر ۲۰۲۰ معرفی کرد. کارت‌های گرافیک موبایل RTX و RTX 3060 در ۱۲ ژانویه ۲۰۲۱ معرفی شدند. انویدیا همچنین جانشین‌های Ampere را با نام آزمایشی “Ampere Next” برای نسخه ۲۰۲۲ و “Ampere Next Next” برای انتشار در سال ۲۰۲۴ در کنفرانس فناوری GPU 2021 معرفی کرد.

عکس بالا: A100 Tensor Core در مقایسه با V100 Tensor Core و عملیات استاندارد برای انواع داده های(FP16، TensorFloat-32 (TF32), FP64, INT8) در دو معماری آمپر و ولتا.

جزئیات معماری آمپر انویدیا :

بعضی از گزینه های بهبود در معماری Ampere نسبت به معماری تورینگ Turing شامل موارد زیر است:

  • CUDA Compute Capability 8.0 برای A100 و ۸.۶ برای سری GeForce 30
  • فرآیند FinFET 7 نانومتری TSMC برای A100
  • نسخه سفارشی فرآیند ۸ نانومتری سامسونگ (8N) برای سری GeForce 30
  • هسته های تانسور نسل سوم با پشتیبانی از FP16، bfloat16، TensorFloat-32 (TF32) و FP64 و شتاب پراکنده. تک هسته‌های Tensor با ۲۵۶ عملیات FP16 FMA در هر ثانیه ۴ برابر قدرت پردازش (فقط GA100، ۲ برابر در GA10x) در مقایسه با نسل‌های قبلی Tensor Core دارند. تعداد هسته تانسور به یک در هر SM کاهش می یابد.
  • هسته های ردیابی پرتوی (ray tracing) نسل دوم؛ ردیابی پرتو، سایه‌زنی و محاسبه همزمان برای سری GeForce 30
  • حافظه با پهنای باند بالا نسل دوم High Bandwidth Memory 2 به اختصار (HBM2) در کارت های A100 40GB و A100 80GB، و حافظه GDDR6X برای GeForce RTX 3090، RTX 3080 Ti، RTX 3080، RTX 3070 Ti
  • دو هسته FP32 در هر SM در پردازنده‌های گرافیکی GA10x
  • NVLink 3.0 با توان خروجی ۵۰ گیگابیت بر ثانیه در هر جفت
  • PCI Express 4.0 با پشتیبانی از SR-IOV (SR-IOV فقط برای A100 رزرو شده است)
  • ویژگی مجازی سازی چند نمونه ای GPU (MIG) و پارتیشن بندی GPU در A100 با پشتیبانی از هفت نمونه
  • مجموعه ویژگی های PureVideo رمزگشایی ویدیوی سخت افزاری K با رمزگشایی سخت افزاری AV1 برای سری GeForce 30 و مجموعه ویژگی های J برای A100
  • ۵ NVDEC برای A100
  • رمزگشایی جدید ۵ هسته ای JPEG (NVJPG) مبتنی بر سخت افزار را با YUV420، YUV422، YUV444، YUV400، RGBA اضافه می کند. نباید با Nvidia NVJPEG اشتباه گرفته شود (کتابخانه با شتاب GPU برای JPEG رمزگذاری/رمزگشایی)

کد نام تراشه ها (Chips) در معماری آمپر انویدیا :

چیپ‌های انویدیا به دستگاه‌های نیمه‌رسانا اشاره دارند که توسط انویدیا برای استفاده در پردازنده‌های گرافیکی (GPU) توسعه داده می‌شوند. این چیپ‌ها یا تراشه‌ها بخش اصلی کارت‌های گرافیک انویدیا هستند و مسئول اجرای محاسبات موازی پرسرعتی هستند که برای بازی‌ها، ایستگاه‌های کاری حرفه‌ای، محاسبات مرکز داده و وظایف مبتنی بر هوش مصنوعی (AI) مورد نیاز است. لیست کد نام (Codename) چیپ های انویدیا (Nvidia Architecture Chips) که با معماری آمپر(Ampere Architecture) توسعه یافته اند به شرح زیر است.

  • GA100
  • GA102
  • GA104
  • GA106
  • GA107
  • GA10B

مقایسه توان محاسباتی: P100 در مقابل GV100 و A100

مقایسه دقت ماتریس پشتیبانی

Legend:

  • FPnn: floating point with nn bits
  • INTn: integer with n bits
  • INT1: binary
  • TF32: TensorFloat32
  • BF16: bfloat16

مقایسه عملکرد رمزگشایی

شتاب دهنده A100 و DGX A100

شتاب دهنده A100 مبتنی بر آمپر که در ۱۴ می ۲۰۲۰ معرفی و عرضه شد. A100 دارای ۱۹.۵ ترافلاپس عملکرد FP32 است. ۶۹۱۲ هسته CUDA و ۴۰ گیگابایت حافظه و ۱.۶ ترابایت بر ثانیه پهنای باند حافظه گرافیکی دارد. شتاب دهنده A100 در ابتدا فقط در نسل سوم سرور DGX شامل ۸ عدد A100 موجود بود. همچنین در DGX A100 حجم ۱۵ ترابایت حافظه PCIe نسل ۴ NVMe گنجانده شده است، دو پردازنده ۶۴ هسته ای AMD Rome 7742 به همراه ۱ ترابایت حافظه رم، و مجهز به اتصال HDR InfiniBand قدرت گرفته از ملانوکس. که قیمت اولیه DGX A100 از ۱۹۹۰۰۰ دلار شروع شده.

Comparison of accelerators used in DGX:

کارت گرافیک هایی که از معماری آمپر استفاده می کنند به همراه کد نام و ریز معماری:

محصولات گرافیکی NVIDIA Ampere در سری‌های مختلفی از لپ‌تاپ‌ها، دسکتاپ‌ها و سرورها مورد استفاده قرار می‌گیرند و هر کدام با چیپ‌های مختلف تولید می‌شوند. در ادامه به معرفی این محصولات بر اساس کاربرد آن‌ها در دستگاه‌های مختلف می‌پردازیم:

سری GeForce MX:

  • GeForce MX570 mobile Embedded (GA107)

سری GeForce 20:

  • GeForce RTX 2050 mobile Embedded (GA107)

کارت گرافیک های گیمینگ سری جیفورس انویدیا:

Nvidia GeForce RTX 30 Series Graphics Card:

لپ‌تاپ‌ها:

دسکتاپ‌ها:

کارت گرافیک ورک استیشن حرفه ای انویدیا:

Nvidia Professional Workstations GPU (پیش‌تر به نام Quadro شناخته می‌شدند):

لپ‌تاپ‌ها:

دسکتاپ‌ها:

پردازنده‌های گرافیکی مراکز داده انویدیا:

Nvidia Data Center (پیش‌تر به نام Tesla شناخته می‌شدند):

  • Nvidia A2 (GA107)
  • Nvidia A10 (GA102)
  • Nvidia A16 (4 × GA107)
  • Nvidia A30 (GA100)
  • Nvidia A40 (GA102)
  • Nvidia A100 (GA100)
  • Nvidia A100 80GB (GA100)

تراشه‌های سامانه‌های روی تراشه (SoCs):

  • AGX Orin (GA10B)
  • Orin NX (GA10B)
  • Orin Nano (GA10B)

این محصولات با توجه به کاربردهای مختلف در ایستگاه‌های کاری، لپ‌تاپ‌ها و مراکز داده از چیپ‌های متنوعی مانند GA100، GA102، GA103، GA104، GA106، GA107 و GA10B استفاده می‌کنند و هر کدام برای نیازهای پردازشی و گرافیکی خاصی طراحی شده‌اند.

NVIDIA AMPERE ARCHITECTURE

قلب مراکز داده با بالاترین عملکرد و انعطاف پذیری جهان.

هسته هوش مصنوعی و HPC در مرکز داده مدرن

حل مهمترین چالش های علمی، صنعتی و تجاری جهان با هوش مصنوعی و HPC. تجسم محتوای پیچیده برای ایجاد محصولات پیشرفته، گفتن داستان های همه جانبه و تصور مجدد شهرهای آینده. استخراج بینش جدید از مجموعه داده های عظیم. معماری NVIDIA Ampere که برای عصر محاسبات الاستیک طراحی شده است، با تمام این چالش ها مقابله می کند و شتاب بی نظیری را در هر مقیاسی ارائه می دهد.

ادامه به زودی…

نوآوری های بنیادی

معماری NVIDIA Ampere که با ۵۴ میلیارد ترانزیستور ساخته شده است، بزرگترین تراشه ۷ نانومتری (nm) است که تا کنون ساخته شده است و دارای شش نوآوری کلیدی است.

هسته های تانسوری نسل سوم

فناوری NVIDIA Tensor Core که برای اولین بار در معماری NVIDIA Volta معرفی شد، سرعت‌های چشمگیری را برای هوش مصنوعی به ارمغان آورده است، زمان‌های تمرین را از هفته‌ها به ساعت‌ها کاهش می‌دهد و شتاب عظیمی را برای استنتاج فراهم می‌کند. معماری NVIDIA Ampere بر اساس این نوآوری‌ها با ارائه دقت‌های جدید – Tensor Float 32 (TF32) و floating Point 64 (FP64) – برای تسریع و ساده‌سازی پذیرش هوش مصنوعی و گسترش قدرت Tensor Cores به HPC است.

TF32 درست مانند FP32 کار می کند در حالی که بدون نیاز به تغییر کد، سرعت هایی تا ۲۰ برابر برای هوش مصنوعی ارائه می دهد. با استفاده از NVIDIA Automatic Mixed Precision، محققان می‌توانند با افزودن چند خط کد، عملکرد ۲ برابری با دقت ترکیبی خودکار و FP16 به دست آورند. و با پشتیبانی از bfloat16، INT8 و INT4، هسته‌های Tensor در معماری NVIDIA Ampere Tensor Core GPU یک شتاب‌دهنده فوق‌العاده همه کاره برای آموزش و استنتاج هوش مصنوعی ایجاد می‌کنند. آوردن قدرت هسته‌های Tensor به پردازنده‌های گرافیکی HPC، A100 و A30، عملیات ماتریسی را با دقت کامل FP64 با گواهینامه IEEE امکان‌پذیر می‌کند.

پردازنده گرافیکی چند واحدی Multi-Instance GPU (MIG)

هر برنامه AI و HPC می تواند از شتاب بهره مند شود، اما هر برنامه ای به عملکرد یک پردازنده گرافیکی (GPU) کامل نیاز ندارد. پردازنده گرافیکی چند واحدی (MIG) یک ویژگی است که در پردازنده های گرافیکی A100 و A30 پشتیبانی می شود که  اجازه می دهد تا پردازنده گرافیکی واحد به چندین گرافیک واحد برای انجام کار سهیم شود. با MIG، هر GPU را می توان به چند نمونه GPU به صورت کاملا ایزوله تقسیم کرد ;i در سطح سخت افزار ایمن شده است، یعنی با پهنای باند حافظه مجزا و حافظه نهان cache و هسته های محاسباتی. حالا، توسعه‌دهندگان می‌توانند برای همه برنامه‌های کاربردی خود، بزرگ و کوچک، به شتابی غیرمنتظره دسترسی داشته باشند و کیفیت خدمات تضمین شده را دریافت کنند. و مدیران فناوری اطلاعات می توانند شتاب GPU با اندازه مناسب را برای استفاده بهینه ارائه دهند و دسترسی به هر کاربر و برنامه را در هر دو گزینه یعنی فقط سخت افزار کامپیوتر یا محیط مجازی سازی شده گسترش دهند.

درباره MIG بیشتر بدانید.

NVLink نسل سوم

مقیاس‌گذاری برنامه‌ها در چندین پردازنده گرافیکی به حرکت بسیار سریع داده‌ها نیاز دارد. نسل سوم NVIDIA® NVLink در معماری NVIDIA Ampere پهنای باند مستقیم GPU به GPU را دو برابر کرده و به ۶۰۰ گیگابایت در ثانیه (GB/s) می رساند که بنا به مقایسه ساده با درگاه های رایج، تقریباً ۱۰ برابر بیشتر از نسل آخر PCIe یعنی PCIe Gen4 است. با این حال وقتی با جدیدترین نسل NVIDIA NVSwitch™ جفت شود، همه پردازنده‌های گرافیکی موجود در سرور می‌توانند با سرعت کامل NVLink برای انتقال داده‌های فوق‌العاده سریع با یکدیگر متصل می‌شوند. در سرور NVIDIA DGX™A100 و سرورهای دیگر سازندگان پیشرو رایانه از فناوری NVLink و NVSwitch از طریق پایه‌های NVIDIA HGX™ A100 برای ارائه مقیاس‌پذیری بیشتر حجم کاری (پردازش‌های) HPC و AI بهره می‌برند.

درباره NVLINK و NVSWITCH بیشتر بدانید.

پراکندگی سازه

شبکه‌های هوش مصنوعی مدرن با میلیون‌ها و در برخی موارد میلیاردها پارامتر بزرگ و بزرگ‌تر می‌شوند. همه این پارامترها برای پیش بینی و استنتاج دقیق مورد نیاز نیستند و برخی را می توان به صفر تبدیل کرد تا مدل‌ها بدون کاهش دقت، «پراکنده» شوند. هسته های Tensor می توانند تا ۲ برابر عملکرد بالاتری برای مدل های “پراکنده” ارائه دهند. در حالی که ویژگی پراکندگی به راحتی از استنتاج هوش مصنوعی سود می برد، همچنین می توان از آن برای بهبود عملکرد آموزش مدل استفاده کرد.

درباره SPARSITY بیشتر بیاموزید

هسته های RT نسل دوم / Second-Generation RT Cores

RT* Cores نسل دوم با معماری انویدیا آمپر در کارت NVIDIA A40 سرعت‌ بیشتری را برای حجم‌های کاری مانند رندر لحظه ای محتوای فیلم، ارزیابی‌ طراحی های معماری، و مدل سازی مجازی طرح‌ محصول ارائه می‌کند. هسته های ردیابی پرتو یا RT Cores همچنین رندر تاری حرکتی ردیابی پرتو را برای نتایج سریع‌تر با دقت بصری بیشتر سرعت می‌بخشند و می‌توانند به طور همزمان ردیابی پرتو RT را با قابلیت سایه‌زنی (shading)  یا حذف نویز (denoising) اجرا کرد.

*در گرافیک کامپیوتری سه بعدی، ردیابی پرتو (Ray tracing) به اختصار (RT) تکنیکی برای مدل‌سازی انتقال نور برای استفاده در طیف گسترده‌ای از الگوریتم‌های رندر برای تولید تصاویر دیجیتال است.

درباره ردیابی پرتو Ray tracing بیشتر بدانید

حافظه هوشمندتر و سریعتر

A100 حجم عظیمی از محاسبات را برای مراکز داده ارائه می کند. برای استفاده کامل از این موتورهای محاسباتی، پهنای باند حافظه ۲ ترابایت بر ثانیه (TB/sec) پیشرو در کلاس کاری خود دارد، این بیش از دو برابر نسل قبلی است. علاوه بر این، A100 دارای حافظه روی تراشه بسیار بیشتری است، از جمله حافظه نهان سطح دوم (level 2 cache) با ۴۰ مگابایت (MB) – 7 برابر بزرگتر از نسل قبلی – برای به حداکثر رساندن عملکرد محاسباتی.

بهینه شده برای مقیاس پذیری بالا

به شکل کلی هدف پردازنده های گرافیکی و پیشنهاد شتاب دهنده های همگرا توسط NVIDIA برای نصب در مقیاس یا تعداد بالا، ساختن شبکه ها، امنیت، و رد پای کوچکی در مفهوم ابری، مراکز داده و لبه پیشرفت داده و نقطه حرکتی جدید در مسیر تکثیر و ارتباط پرسرعت در حجم پردازش باور نکردنی بوده است.

قدرت بهینه شده برای هر سرور

پردازنده گرافیکی NVIDIA A2 برای حجم کاری در رابط های کاربری کاری (حرفه ای) مثل هوش مصنوعی روی هر سروری در هر ابعادی، بهینه شده است. ارائه کوچکترین سایز در مجموعه و نصب در سرورهای کوچک و کم مصرف با توجه به فضا و نیازهای حرارتی، برای گزینه هایی مانند تکنولوژی 5G و محیط های صنعتی بهینه شده. کارت A2 در یک فرم فاکتور کوچک LowProfile مشخصاتی را ارائه می دهد که در یک بسته کم مصرف کار می کند، از توان طراحی حرارتی (TDP) 60 وات تا ۴۰ وات، که آن را برای هر سرور کوچک و نازکی ایده آل می کند. یعنی هزینه کم در مجموعه های صنعتی کوچک، که تا قبل این گزینه امکان نداشت.

درباره NVIDIA A2 بیشتر بدانیم

محاسبه یکپارچه و شتاب شبکه

در شتاب دهنده‌های همگرا ی NVIDIA با معماری انویدیا آمپر AMPER و واحد پردازش داده NVIDIA BlueField®-۲ data processing unit (DPU) گرد هم می‌آیند تا عملکرد بی‌سابقه‌ای را با امنیت و شبکه‌سازی پیشرفته برای حجم های کاری (Workload) مبتنی بر GPU در Edge computing، مخابرات و امنیت شبکه به ارمغان بیاورند. BlueField-2 قدرت NVIDIA ConnectX®-۶ Dx را با هسته‌های Arm® قابل برنامه‌ریزی و بارگذاری‌های سخت‌افزاری برای ذخیره‌سازی، شبکه، امنیت و مدیریت تعریف‌شده توسط نرم‌افزار ترکیب می‌کند. شتاب‌دهنده‌های همگرا ی NVIDIA سطح جدیدی از کارایی و امنیت مرکز داده را برای حجم های کاری (Workload) پرشتاب با پردازنده گرافیکی و شبکه فشرده فراهم می‌کنند.

درباره شتاب دهنده های همگرا NVIDIA بیشتر بدانید.

طراحی بهینه تراکم / Density Optimized Design

پردازنده گرافیکی NVIDIA A16 دارای طراحی برد چهارگانه واحد پردازش گرافیکی (quad-GPU) است که برای تراکم کاربران بهینه شده و در ترکیب با نرم افزار NVIDIA Virtual PC (vPC)، رایانه های مجازی (vPC) غنی از گرافیک (graphics-rich) را قادر می سازد از هر کجا قابل دسترسی باشند. با NVIDIA A16 نرخ فریم افزایش یافته و تأخیر کاربر نهایی در مقابل VDI که فقط با CPU ارائه می‌شود کمتر شده که منجر به برنامه‌های پاسخگوی کاربردی‌تر و تجربه کاربری غیرقابل تشخیص از رایانه شخصی می‌شود.

درباره NVIDIA A16 بیشتر بدانید.

آرایش یا استقرارهای ایمن / Secure Deployments

آرایش یا استقرار ایمن برای عملیات تجاری سازمانی حیاتی است، بخصوص در بخش “اطلاعات” که همه چیز شرکت های نوین است. معماری NVIDIA Ampere راه‌اندازی ایمن را از طریق احراز هویت کد قابل اعتماد و محافظت‌های برگشتی سخت‌شده برای مقابله در برابر حملات بدافزارهای مخرب، جلوگیری از درز اطلاعات و اطمینان از تسریع حجم کاری (workload)  ارائه می‌کند.

درباره محاسبات امن لبه* (SECURE EDGE COMPUTING) بیشتر بدانید.

*Edge computing: محاسبات لبه یک الگوی محاسباتی توزیع شده است که محاسبات و ذخیره سازی داده ها را به منابع داده نزدیک می کند. انتظار می رود که این باعث بهبود زمان پاسخ و صرفه جویی در پهنای باند شود.

درون معماری آمپر انویدیا (NVIDIA Ampere Architecture)

کاوش در پیشرفته ترین مرحله توسعه تکنولوژی معماری آمپر انویدیا و ترکیب کامل پردازنده های گرافیکی آن.

نمونه کارها را ببینید.

 



		

دیدگاهتان را بنویسید

سبد خرید

close