معماری آمپر انویدیا (NVIDIA Ampere Architecture)
آمپر Ampere کد نام یک ریزمعماری (microarchitecture) واحد پردازش گرافیکی (GPU) است که توسط انویدیا (NVIDIA) به عنوان جانشین دو معماری قبلی این شرکت یعنی کد نام های ولتا (Volta) و تورینگ (Turing) توسعه یافته است و رسماً در ۱۴ مه ۲۰۲۰ اعلام شد.
نام معماری آمپر از نام ریاضیدان و فیزیکدان فرانسوی آندره-ماری آمپر (André-Marie Ampère) گرفته شده است. انویدیا نسل بعدی پردازندههای گرافیکی مصرفی سری GeForce 30 را در رویداد ویژه GeForce در ۱ سپتامبر ۲۰۲۰ معرفی کرد. Nvidia A100 80GB GPU را در SC20 در ۱۶ نوامبر ۲۰۲۰ معرفی کرد. کارتهای گرافیک موبایل RTX و RTX 3060 در ۱۲ ژانویه ۲۰۲۱ معرفی شدند. انویدیا همچنین جانشینهای Ampere را با نام آزمایشی “Ampere Next” برای نسخه ۲۰۲۲ و “Ampere Next Next” برای انتشار در سال ۲۰۲۴ در کنفرانس فناوری GPU 2021 معرفی کرد.
عکس بالا: A100 Tensor Core در مقایسه با V100 Tensor Core و عملیات استاندارد برای انواع داده های(FP16، TensorFloat-32 (TF32), FP64, INT8) در دو معماری آمپر و ولتا.
جزئیات معماری آمپر انویدیا :
بعضی از گزینه های بهبود در معماری Ampere نسبت به معماری تورینگ Turing شامل موارد زیر است:
- CUDA Compute Capability 8.0 برای A100 و ۸.۶ برای سری GeForce 30
- فرآیند FinFET 7 نانومتری TSMC برای A100
- نسخه سفارشی فرآیند ۸ نانومتری سامسونگ (8N) برای سری GeForce 30
- هسته های تانسور نسل سوم با پشتیبانی از FP16، bfloat16، TensorFloat-32 (TF32) و FP64 و شتاب پراکنده. تک هستههای Tensor با ۲۵۶ عملیات FP16 FMA در هر ثانیه ۴ برابر قدرت پردازش (فقط GA100، ۲ برابر در GA10x) در مقایسه با نسلهای قبلی Tensor Core دارند. تعداد هسته تانسور به یک در هر SM کاهش می یابد.
- هسته های ردیابی پرتوی (ray tracing) نسل دوم؛ ردیابی پرتو، سایهزنی و محاسبه همزمان برای سری GeForce 30
- حافظه با پهنای باند بالا نسل دوم High Bandwidth Memory 2 به اختصار (HBM2) در کارت های A100 40GB و A100 80GB، و حافظه GDDR6X برای GeForce RTX 3090، RTX 3080 Ti، RTX 3080، RTX 3070 Ti
- دو هسته FP32 در هر SM در پردازندههای گرافیکی GA10x
- NVLink 3.0 با توان خروجی ۵۰ گیگابیت بر ثانیه در هر جفت
- PCI Express 4.0 با پشتیبانی از SR-IOV (SR-IOV فقط برای A100 رزرو شده است)
- ویژگی مجازی سازی چند نمونه ای GPU (MIG) و پارتیشن بندی GPU در A100 با پشتیبانی از هفت نمونه
- مجموعه ویژگی های PureVideo رمزگشایی ویدیوی سخت افزاری K با رمزگشایی سخت افزاری AV1 برای سری GeForce 30 و مجموعه ویژگی های J برای A100
- ۵ NVDEC برای A100
- رمزگشایی جدید ۵ هسته ای JPEG (NVJPG) مبتنی بر سخت افزار را با YUV420، YUV422، YUV444، YUV400، RGBA اضافه می کند. نباید با Nvidia NVJPEG اشتباه گرفته شود (کتابخانه با شتاب GPU برای JPEG رمزگذاری/رمزگشایی)
کد نام تراشه ها (Chips) در معماری آمپر انویدیا :
چیپهای انویدیا به دستگاههای نیمهرسانا اشاره دارند که توسط انویدیا برای استفاده در پردازندههای گرافیکی (GPU) توسعه داده میشوند. این چیپها یا تراشهها بخش اصلی کارتهای گرافیک انویدیا هستند و مسئول اجرای محاسبات موازی پرسرعتی هستند که برای بازیها، ایستگاههای کاری حرفهای، محاسبات مرکز داده و وظایف مبتنی بر هوش مصنوعی (AI) مورد نیاز است. لیست کد نام (Codename) چیپ های انویدیا (Nvidia Architecture Chips) که با معماری آمپر(Ampere Architecture) توسعه یافته اند به شرح زیر است.
- GA100
- GA102
- GA104
- GA106
- GA107
- GA10B
مقایسه توان محاسباتی: P100 در مقابل GV100 و A100
مقایسه دقت ماتریس پشتیبانی
Legend:
- FPnn: floating point with nn bits
- INTn: integer with n bits
- INT1: binary
- TF32: TensorFloat32
- BF16: bfloat16
مقایسه عملکرد رمزگشایی
شتاب دهنده A100 و DGX A100
شتاب دهنده A100 مبتنی بر آمپر که در ۱۴ می ۲۰۲۰ معرفی و عرضه شد. A100 دارای ۱۹.۵ ترافلاپس عملکرد FP32 است. ۶۹۱۲ هسته CUDA و ۴۰ گیگابایت حافظه و ۱.۶ ترابایت بر ثانیه پهنای باند حافظه گرافیکی دارد. شتاب دهنده A100 در ابتدا فقط در نسل سوم سرور DGX شامل ۸ عدد A100 موجود بود. همچنین در DGX A100 حجم ۱۵ ترابایت حافظه PCIe نسل ۴ NVMe گنجانده شده است، دو پردازنده ۶۴ هسته ای AMD Rome 7742 به همراه ۱ ترابایت حافظه رم، و مجهز به اتصال HDR InfiniBand قدرت گرفته از ملانوکس. که قیمت اولیه DGX A100 از ۱۹۹۰۰۰ دلار شروع شده.
Comparison of accelerators used in DGX:
کارت گرافیک هایی که از معماری آمپر استفاده می کنند به همراه کد نام و ریز معماری:
محصولات گرافیکی NVIDIA Ampere در سریهای مختلفی از لپتاپها، دسکتاپها و سرورها مورد استفاده قرار میگیرند و هر کدام با چیپهای مختلف تولید میشوند. در ادامه به معرفی این محصولات بر اساس کاربرد آنها در دستگاههای مختلف میپردازیم:
سری GeForce MX:
- GeForce MX570 mobile Embedded (GA107)
سری GeForce 20:
- GeForce RTX 2050 mobile Embedded (GA107)
کارت گرافیک های گیمینگ سری جیفورس انویدیا:
Nvidia GeForce RTX 30 Series Graphics Card:
لپتاپها:
- GeForce RTX 3050 mobile Embedded (GA106)
- GeForce RTX 3050 Ti mobile Embedded (GA106)
- GeForce RTX 3060 6GB mobile Embedded (GA106)
- GeForce RTX 3070Ti 8GB mobile Embedded (GA104)
- GeForce RTX 3080Ti 16GB mobile Embedded (GA103)
دسکتاپها:
- GeForce RTX 3050 (GA106)
- GeForce RTX 3060 (GA106)
- GeForce RTX 3060 Ti (GA104)
- GeForce RTX 3070 (GA104)
- GeForce RTX 3070 Ti (GA104)
- GeForce RTX 3080 10GB (GA102)
- GeForce RTX 3080 12GB (GA102)
- GeForce RTX 3080 Ti 12GB (GA102)
- GeForce RTX 3090 (GA102)
- GeForce RTX 3090 Ti (GA102)
کارت گرافیک ورک استیشن حرفه ای انویدیا:
Nvidia Professional Workstations GPU (پیشتر به نام Quadro شناخته میشدند):
لپتاپها:
- RTX A500 Embedded (mobile) (GA107s)
- RTX A1000 4GB Embedded (mobile) (GA107)
- RTX A1000 6GB Embedded (mobile) (GA107)
- RTX A2000 4GB Embedded (mobile) (GA107)
- RTX A2000 8GB Embedded (mobile) (GA107)
- RTX A3000 6GB Embedded (mobile) (GA104)
- RTX A3000 12GB Embedded (mobile) (GA104)
- RTX A4000 8GB Embedded (mobile) (GA104)
- RTX A4500 16GB Embedded (mobile) (GA104)
- RTX A5000 16GB Embedded (mobile) (GA104)
- RTX A5500 16GB Embedded (mobile) (GA104)
دسکتاپها:
- RTX A2000 6GB (GA106)
- RTX A2000 12GB (GA106)
- RTX A4000 (GA104)
- RTX A4500 (GA102)
- RTX A5000 (GA102)
- RTX A5500 (GA102)
- RTX A6000 (GA102)
پردازندههای گرافیکی مراکز داده انویدیا:
Nvidia Data Center (پیشتر به نام Tesla شناخته میشدند):
- Nvidia A2 (GA107)
- Nvidia A10 (GA102)
- Nvidia A16 (4 × GA107)
- Nvidia A30 (GA100)
- Nvidia A40 (GA102)
- Nvidia A100 (GA100)
- Nvidia A100 80GB (GA100)
تراشههای سامانههای روی تراشه (SoCs):
- AGX Orin (GA10B)
- Orin NX (GA10B)
- Orin Nano (GA10B)
این محصولات با توجه به کاربردهای مختلف در ایستگاههای کاری، لپتاپها و مراکز داده از چیپهای متنوعی مانند GA100، GA102، GA103، GA104، GA106، GA107 و GA10B استفاده میکنند و هر کدام برای نیازهای پردازشی و گرافیکی خاصی طراحی شدهاند.
NVIDIA AMPERE ARCHITECTURE
قلب مراکز داده با بالاترین عملکرد و انعطاف پذیری جهان.
هسته هوش مصنوعی و HPC در مرکز داده مدرن
حل مهمترین چالش های علمی، صنعتی و تجاری جهان با هوش مصنوعی و HPC. تجسم محتوای پیچیده برای ایجاد محصولات پیشرفته، گفتن داستان های همه جانبه و تصور مجدد شهرهای آینده. استخراج بینش جدید از مجموعه داده های عظیم. معماری NVIDIA Ampere که برای عصر محاسبات الاستیک طراحی شده است، با تمام این چالش ها مقابله می کند و شتاب بی نظیری را در هر مقیاسی ارائه می دهد.
ادامه به زودی…
نوآوری های بنیادی
معماری NVIDIA Ampere که با ۵۴ میلیارد ترانزیستور ساخته شده است، بزرگترین تراشه ۷ نانومتری (nm) است که تا کنون ساخته شده است و دارای شش نوآوری کلیدی است.
هسته های تانسوری نسل سوم
فناوری NVIDIA Tensor Core که برای اولین بار در معماری NVIDIA Volta معرفی شد، سرعتهای چشمگیری را برای هوش مصنوعی به ارمغان آورده است، زمانهای تمرین را از هفتهها به ساعتها کاهش میدهد و شتاب عظیمی را برای استنتاج فراهم میکند. معماری NVIDIA Ampere بر اساس این نوآوریها با ارائه دقتهای جدید – Tensor Float 32 (TF32) و floating Point 64 (FP64) – برای تسریع و سادهسازی پذیرش هوش مصنوعی و گسترش قدرت Tensor Cores به HPC است.
TF32 درست مانند FP32 کار می کند در حالی که بدون نیاز به تغییر کد، سرعت هایی تا ۲۰ برابر برای هوش مصنوعی ارائه می دهد. با استفاده از NVIDIA Automatic Mixed Precision، محققان میتوانند با افزودن چند خط کد، عملکرد ۲ برابری با دقت ترکیبی خودکار و FP16 به دست آورند. و با پشتیبانی از bfloat16، INT8 و INT4، هستههای Tensor در معماری NVIDIA Ampere Tensor Core GPU یک شتابدهنده فوقالعاده همه کاره برای آموزش و استنتاج هوش مصنوعی ایجاد میکنند. آوردن قدرت هستههای Tensor به پردازندههای گرافیکی HPC، A100 و A30، عملیات ماتریسی را با دقت کامل FP64 با گواهینامه IEEE امکانپذیر میکند.
پردازنده گرافیکی چند واحدی Multi-Instance GPU (MIG)
هر برنامه AI و HPC می تواند از شتاب بهره مند شود، اما هر برنامه ای به عملکرد یک پردازنده گرافیکی (GPU) کامل نیاز ندارد. پردازنده گرافیکی چند واحدی (MIG) یک ویژگی است که در پردازنده های گرافیکی A100 و A30 پشتیبانی می شود که اجازه می دهد تا پردازنده گرافیکی واحد به چندین گرافیک واحد برای انجام کار سهیم شود. با MIG، هر GPU را می توان به چند نمونه GPU به صورت کاملا ایزوله تقسیم کرد ;i در سطح سخت افزار ایمن شده است، یعنی با پهنای باند حافظه مجزا و حافظه نهان cache و هسته های محاسباتی. حالا، توسعهدهندگان میتوانند برای همه برنامههای کاربردی خود، بزرگ و کوچک، به شتابی غیرمنتظره دسترسی داشته باشند و کیفیت خدمات تضمین شده را دریافت کنند. و مدیران فناوری اطلاعات می توانند شتاب GPU با اندازه مناسب را برای استفاده بهینه ارائه دهند و دسترسی به هر کاربر و برنامه را در هر دو گزینه یعنی فقط سخت افزار کامپیوتر یا محیط مجازی سازی شده گسترش دهند.
NVLink نسل سوم
مقیاسگذاری برنامهها در چندین پردازنده گرافیکی به حرکت بسیار سریع دادهها نیاز دارد. نسل سوم NVIDIA® NVLink در معماری NVIDIA Ampere پهنای باند مستقیم GPU به GPU را دو برابر کرده و به ۶۰۰ گیگابایت در ثانیه (GB/s) می رساند که بنا به مقایسه ساده با درگاه های رایج، تقریباً ۱۰ برابر بیشتر از نسل آخر PCIe یعنی PCIe Gen4 است. با این حال وقتی با جدیدترین نسل NVIDIA NVSwitch™ جفت شود، همه پردازندههای گرافیکی موجود در سرور میتوانند با سرعت کامل NVLink برای انتقال دادههای فوقالعاده سریع با یکدیگر متصل میشوند. در سرور NVIDIA DGX™A100 و سرورهای دیگر سازندگان پیشرو رایانه از فناوری NVLink و NVSwitch از طریق پایههای NVIDIA HGX™ A100 برای ارائه مقیاسپذیری بیشتر حجم کاری (پردازشهای) HPC و AI بهره میبرند.
پراکندگی سازه
شبکههای هوش مصنوعی مدرن با میلیونها و در برخی موارد میلیاردها پارامتر بزرگ و بزرگتر میشوند. همه این پارامترها برای پیش بینی و استنتاج دقیق مورد نیاز نیستند و برخی را می توان به صفر تبدیل کرد تا مدلها بدون کاهش دقت، «پراکنده» شوند. هسته های Tensor می توانند تا ۲ برابر عملکرد بالاتری برای مدل های “پراکنده” ارائه دهند. در حالی که ویژگی پراکندگی به راحتی از استنتاج هوش مصنوعی سود می برد، همچنین می توان از آن برای بهبود عملکرد آموزش مدل استفاده کرد.
هسته های RT نسل دوم / Second-Generation RT Cores
RT* Cores نسل دوم با معماری انویدیا آمپر در کارت NVIDIA A40 سرعت بیشتری را برای حجمهای کاری مانند رندر لحظه ای محتوای فیلم، ارزیابی طراحی های معماری، و مدل سازی مجازی طرح محصول ارائه میکند. هسته های ردیابی پرتو یا RT Cores همچنین رندر تاری حرکتی ردیابی پرتو را برای نتایج سریعتر با دقت بصری بیشتر سرعت میبخشند و میتوانند به طور همزمان ردیابی پرتو RT را با قابلیت سایهزنی (shading) یا حذف نویز (denoising) اجرا کرد.
*در گرافیک کامپیوتری سه بعدی، ردیابی پرتو (Ray tracing) به اختصار (RT) تکنیکی برای مدلسازی انتقال نور برای استفاده در طیف گستردهای از الگوریتمهای رندر برای تولید تصاویر دیجیتال است.
حافظه هوشمندتر و سریعتر
A100 حجم عظیمی از محاسبات را برای مراکز داده ارائه می کند. برای استفاده کامل از این موتورهای محاسباتی، پهنای باند حافظه ۲ ترابایت بر ثانیه (TB/sec) پیشرو در کلاس کاری خود دارد، این بیش از دو برابر نسل قبلی است. علاوه بر این، A100 دارای حافظه روی تراشه بسیار بیشتری است، از جمله حافظه نهان سطح دوم (level 2 cache) با ۴۰ مگابایت (MB) – 7 برابر بزرگتر از نسل قبلی – برای به حداکثر رساندن عملکرد محاسباتی.
بهینه شده برای مقیاس پذیری بالا
به شکل کلی هدف پردازنده های گرافیکی و پیشنهاد شتاب دهنده های همگرا توسط NVIDIA برای نصب در مقیاس یا تعداد بالا، ساختن شبکه ها، امنیت، و رد پای کوچکی در مفهوم ابری، مراکز داده و لبه پیشرفت داده و نقطه حرکتی جدید در مسیر تکثیر و ارتباط پرسرعت در حجم پردازش باور نکردنی بوده است.
قدرت بهینه شده برای هر سرور
پردازنده گرافیکی NVIDIA A2 برای حجم کاری در رابط های کاربری کاری (حرفه ای) مثل هوش مصنوعی روی هر سروری در هر ابعادی، بهینه شده است. ارائه کوچکترین سایز در مجموعه و نصب در سرورهای کوچک و کم مصرف با توجه به فضا و نیازهای حرارتی، برای گزینه هایی مانند تکنولوژی 5G و محیط های صنعتی بهینه شده. کارت A2 در یک فرم فاکتور کوچک LowProfile مشخصاتی را ارائه می دهد که در یک بسته کم مصرف کار می کند، از توان طراحی حرارتی (TDP) 60 وات تا ۴۰ وات، که آن را برای هر سرور کوچک و نازکی ایده آل می کند. یعنی هزینه کم در مجموعه های صنعتی کوچک، که تا قبل این گزینه امکان نداشت.
محاسبه یکپارچه و شتاب شبکه
در شتاب دهندههای همگرا ی NVIDIA با معماری انویدیا آمپر AMPER و واحد پردازش داده NVIDIA BlueField®-۲ data processing unit (DPU) گرد هم میآیند تا عملکرد بیسابقهای را با امنیت و شبکهسازی پیشرفته برای حجم های کاری (Workload) مبتنی بر GPU در Edge computing، مخابرات و امنیت شبکه به ارمغان بیاورند. BlueField-2 قدرت NVIDIA ConnectX®-۶ Dx را با هستههای Arm® قابل برنامهریزی و بارگذاریهای سختافزاری برای ذخیرهسازی، شبکه، امنیت و مدیریت تعریفشده توسط نرمافزار ترکیب میکند. شتابدهندههای همگرا ی NVIDIA سطح جدیدی از کارایی و امنیت مرکز داده را برای حجم های کاری (Workload) پرشتاب با پردازنده گرافیکی و شبکه فشرده فراهم میکنند.
طراحی بهینه تراکم / Density Optimized Design
پردازنده گرافیکی NVIDIA A16 دارای طراحی برد چهارگانه واحد پردازش گرافیکی (quad-GPU) است که برای تراکم کاربران بهینه شده و در ترکیب با نرم افزار NVIDIA Virtual PC (vPC)، رایانه های مجازی (vPC) غنی از گرافیک (graphics-rich) را قادر می سازد از هر کجا قابل دسترسی باشند. با NVIDIA A16 نرخ فریم افزایش یافته و تأخیر کاربر نهایی در مقابل VDI که فقط با CPU ارائه میشود کمتر شده که منجر به برنامههای پاسخگوی کاربردیتر و تجربه کاربری غیرقابل تشخیص از رایانه شخصی میشود.
آرایش یا استقرارهای ایمن / Secure Deployments
آرایش یا استقرار ایمن برای عملیات تجاری سازمانی حیاتی است، بخصوص در بخش “اطلاعات” که همه چیز شرکت های نوین است. معماری NVIDIA Ampere راهاندازی ایمن را از طریق احراز هویت کد قابل اعتماد و محافظتهای برگشتی سختشده برای مقابله در برابر حملات بدافزارهای مخرب، جلوگیری از درز اطلاعات و اطمینان از تسریع حجم کاری (workload) ارائه میکند.
درباره محاسبات امن لبه* (SECURE EDGE COMPUTING) بیشتر بدانید.
*Edge computing: محاسبات لبه یک الگوی محاسباتی توزیع شده است که محاسبات و ذخیره سازی داده ها را به منابع داده نزدیک می کند. انتظار می رود که این باعث بهبود زمان پاسخ و صرفه جویی در پهنای باند شود.
درون معماری آمپر انویدیا (NVIDIA Ampere Architecture)