, , ,

کارت گرافیگ دیتا‌سنتر انویدیا NVIDIA L40S 48GB

NVIDIANVIDIA Data Center GPUs

برند و مدل: NVIDIA L40S 48GB ECC GDDR6 Data Center PCIe GPU Accelerator
کاربری: ورک استیشن، سرور، رندرینگ، شبیه سازی، Ai/DL/ML ،vGPU ،HDCP

ارسال کالا: حدود 1تا‌3 روز کاری.
وضعیت محصول: آکبند(رنگی/خاکی/بالک)
گارانتی: تا‌36 ماه گارانتی.
سرویس طلایی دکمه ها: مهلت تست و برگشت 7‌روزه.
قابلیت ارتقا: تا چهار عدد در ورک‌استیشن, هشت عدد در سرور.

۹۱۹,۰۰۰,۰۰۰ تومان

کارت گرافیگ دیتا‌سنتر انویدیا NVIDIA L40S 48GB

معرفی کارت گرافیگ دیتا‌سنتر انویدیا NVIDIA L40S 48GB

عملکرد بی‌نظیر AI و گرافیک برای مرکز داده‌ها.

قدرتمندترین GPU عمومی:
با کارت گرافیک NVIDIA L40S، تجربه عملکرد انقلابی در چندین بار کاری مختلف را داشته باشید. این کارت گرافیک ترکیبی از محاسبات قدرتمند AI و بهترین شتاب دهنده گرافیکی(GPU Accelerator) و رسانه‌ای در کلاس خود است و برای پشتیبانی از نسل بعدی بارهای کاری مرکز داده، از جمله هوش‌مصنوعی مولد(Generative AI )، استنتاج (inference) و آموزش مدل‌های زبان بزرگ (LLM)، گرافیک 3D، شبیه‌سازی (CFD)، رندرینگ و ویدیو ساخته شده است.

تولیدکنندگان سیستم‌های مرکز داده جهانی برای شتاب دادن به AI مولد و دیجیتالی‌سازی صنعتی انویدیا:
سرورهای NVIDIA OVX™ که از جدیدترین GPU‌های NVIDIA بهره‌ می‌برند، برای شتاب‌دهی به آموزش و استنتاج، و همچنین بارهای کاری گرافیکی پیچیده، به زودی از شرکت‌هایی همچون Dell، Hewlett Packard Enterprise، Lenovo، Supermicro و سایرین عرضه می‌شود.

NVIDIA L40S مبتنی بر معماری Ada Lovelace است و با ویژگی‌های بی‌نظیری همچون هسته‌های تنسور نسل چهارم، هسته‌های RT نسل سوم و موتور Transformer، شتاب‌دهی(NVIDIA L40S GPU Accelerator) قابل توجهی را در زمینه‌های مختلف فراهم می‌آورد. این کارت گرافیک برای عملیات ۲۴/۷ در مراکز داده‌ها بهینه‌شده و از قابلیت‌هایی همچون امنیت بالا و مصرف انرژی بهینه برخوردار است.

ویژگی‌های کلیدی NVIDIA L40S:

  1. هسته‌های تنسور نسل چهارم:
    با پشتیبانی از FP8 و بهره‌گیری از قابلیت‌های سخت‌افزاری از پراکندگی ساختاری و فرمت بهینه‌سازی شده TF32 باعث بهبود عملکرد برای آموزش مدل‌های AI و علوم داده می‌شود. شتاب‌دادن به قابلیت‌های گرافیکی تقویت‌شده AI با DLSS برای ارتقاء وضوح و عملکرد بهتر در برخی از برنامه‌ها.

  2. هسته‌های RT نسل سوم:
    این کارت گرافیک به هسته‌های RT نسل سوم مجهز است که بهبود عملکرد ردیابی پرتو در زمان واقعی را تا دو برابر نسل قبلی افزایش می‌دهند. افزایش عملکرد و قابلیت‌های همزمان ردیابی پرتو و شیدینگ، عملکرد ردیابی پرتو را بهبود می‌بخشد و رندرینگ طراحی محصول و جریان‌های کاری مهندسی و معماری را شتاب می‌بخشد.

  3. موتور Transformer:
    موتور Transformer با استفاده از هسته‌های تنسور نسل چهارم و قابلیت‌های پردازش دقیق، به‌طور خودکار دقت‌های FP8 و FP16 را بین لایه‌های شبکه‌های عصبی معماری ترنسفورمر تغییر می‌دهد، که این باعث شتاب‌دهی به عملکرد AI و بهبود بهره‌برداری از حافظه می‌شود.

  4. DLSS 3:
    این فناوری با استفاده از یادگیری عمیق و شتاب‌دهی سخت‌افزاری، رندرینگ سریع‌تر و نرخ فریم‌های بالاتری را برای برنامه‌های گرافیکی فراهم می‌کند.

  5. هسته‌های CUDA:
    شتاب‌دهی عبور از فرمول‌های عددی تک‌دقتی (FP32) و بهره‌وری انرژی به طور چشمگیری عملکرد را در شبیه‌سازی‌های مهندسی و مدل‌سازی سه‌بعدی بهبود می‌بخشد.
  6. امنیت و بهره‌وری:
    کارت L40S با طراحی بهینه برای عملیات ۲۴/۷ در مراکز داده‌ها، امنیت بالا و فناوری‌های نوین همچون بوت امن و ریشه اعتماد برای تأمین امنیت داده‌ها در محیط‌های شرکتی، عملکرد پایدار و طول عمر بالاتری را ارائه می‌دهد.

کاربردها و مخاطبین NVIDIA L40S:

  1. AI مولد و پردازش‌های یادگیری ماشین:
    کارت L40S برای توسعه‌دهندگان و محققان AI که به دنبال شتاب‌دهی به آموزش و استنتاج مدل‌های پیچیده مولد هستند، بسیار مناسب است. به عنوان مثال، شرکت‌های فعال در حوزه پردازش زبان طبیعی (NLP) و شبیه‌سازی‌های هوش مصنوعی می‌توانند از قدرت این کارت برای آموزش مدل‌های زبان بزرگ استفاده کنند.

  2. رندرینگ و گرافیک 3D:
    طراحان گرافیک و توسعه‌دهندگان بازی که نیاز به رندرینگ واقعی‌زمان و تولید محتوای گرافیکی با کیفیت بالا دارند، می‌توانند از L40S بهره‌مند شوند. کارت L40S شتاب‌دهی ردیابی پرتو و شبیه‌سازی‌های فیزیکی را به طرز چشمگیری افزایش می‌دهد.

  3. شبیه‌سازی‌های صنعتی و مهندسی:
    در صنایع مهندسی، معماری، و ساخت‌وساز، کارت L40S می‌تواند در شبیه‌سازی‌های پیچیده فیزیکی و مهندسی برای تسریع رندرینگ و شبیه‌سازی‌های دقیق استفاده شود.

  4. ساخت و مدیریت متاورس:
    توسعه‌دهندگان و کسب‌وکارهایی که به دنبال ایجاد و مدیریت برنامه‌های متاورس و شبیه‌سازی‌های دیجیتال هستند، می‌توانند از کارت L40S برای اجرای برنامه‌های مبتنی بر Omniverse و OpenUSD استفاده کنند.

  5. داده‌های کلان و علوم داده:
    محققان داده و متخصصان علوم داده می‌توانند از کارت L40S برای پردازش داده‌های کلان و تحلیل‌های پیچیده استفاده کنند، به‌ویژه در کاربردهایی که به پردازش سریع داده‌های AI و یادگیری ماشین نیاز دارند.

مثال‌های کاربردی:

  1. AI مولد:
    یک استارتاپ که در حال توسعه مدل‌های زبان طبیعی است، می‌تواند با استفاده از کارت L40S، آموزش مدل‌های زبانی بزرگ و همچنین بهبود عملکرد استنتاج مدل‌ها را تا ۵ برابر افزایش دهد.

  2. رندرینگ 3D و شبیه‌سازی‌های مهندسی:
    شرکت‌های طراحی محصولات صنعتی می‌توانند از کارت L40S برای رندرینگ واقع‌گرایانه و شبیه‌سازی‌های معماری و مهندسی استفاده کنند، به‌ویژه برای تحلیل‌های زمانی واقعی در پروژه‌های ساختمانی بزرگ.

  3. متاورس و شبیه‌سازی‌های دیجیتال:
    یک استودیو توسعه‌دهنده بازی و برنامه‌های متاورس می‌تواند از L40S برای خلق تجربه‌های واقع‌گرایانه در دنیای مجازی و شبیه‌سازی‌های دقیق استفاده کند.

NVIDIA L40S با ارائه عملکرد بی‌نظیر در زمینه‌های مختلف مانند AI، گرافیک و شبیه‌سازی، به ابزاری ایده‌آل برای توسعه‌دهندگان، محققان و صنایع پیشرفته تبدیل شده است.

مواردی که NVIDIA L40S ممکن است مناسب نباشد

۱. کاربردهای سبک یا عمومی: برای وظایف روزمره یا کاربردهای سبک، استفاده از L40S به دلیل هزینه بالا مقرون‌به‌صرفه نیست.

۲. بازی‌های رایانه‌ای: اگرچه L40S توانایی پردازش گرافیکی بالایی دارد، اما برای کاربردهای گیمینگ طراحی نشده است.

۳. سیستم‌های با محدودیت مصرف انرژی: با مصرف توان ۳۵۰ وات، L40S ممکن است برای سیستم‌هایی با محدودیت مصرف انرژی مناسب نباشد.

۴. بودجه محدود: با توجه به هزینه‌ی بالای NVIDIA L40S، ممکن است برای پروژه‌هایی با بودجه‌ی محدود گزینه‌های اقتصادی‌تری در دسترس باشد. با این حال، این موضوع بستگی به نیازهای محاسباتی و نوع پروژه دارد.

برای افرادی که به دقت و توان پردازشی بالا در حوزه‌هایی مانند هوش مصنوعی مولد (Generative AI)، آموزش و استنتاج مدل‌های زبانی بزرگ (LLM)، رندرینگ و گرافیک سه‌بعدی، شبیه‌سازی‌های صنعتی و علمی (مانند CFD و FEA) و همچنین توسعه و اجرای برنامه‌های متاورس با NVIDIA Omniverse نیاز دارند، کارت گرافیک NVIDIA L40S 48GB به دلیل انعطاف‌پذیری بالا، کارایی بهینه در پردازش‌های موازی و قیمت مناسب نسبت به رقبا، می‌تواند یکی از مقرون‌به‌صرفه‌ترین انتخاب‌ها باشد.

انتخاب این کارت گرافیک به جزئیات پروژه و پیچیدگی پردازش‌های موردنیاز بستگی دارد و در برخی موارد، ممکن است نیازمند بررسی بیشتر یا دریافت مشاوره تخصصی باشد. بخش مشاوره دکمه‌ها، با آگاهی از گواهی‌های انویدیا و نمونه‌های اجرایی موفق، می‌تواند در تصمیم‌گیری بهتر به شما کمک کند. همین حالا تماس بگیرید.

نسل بعدی ایستگاه‌های کاری اینجاست

پردازنده‌های Intel و AMD، همراه با کارت‌های گرافیک NVIDIA، نسل بعدی پلتفرم‌های ایستگاه کاری OEM را معرفی می‌کنند. این ایستگاه‌های کاری جدید که توسط پردازنده‌های پیشرفته Intel® Xeon Scalable و AMD EPYC، کارت‌های گرافیک NVIDIA L40S و کارت‌های شبکه هوشمند NVIDIA ConnectX® تامین می‌شوند، عملکردی بی‌سابقه برای حرفه‌ای‌های خلاق را به ارمغان می‌آورند.

بارهای کاری: شتاب‌دهی چندین بار کاری

AI مولد:
با قابلیت‌های شتاب‌دهی AI، گرافیک و رسانه نسل بعدی، L40S تا ۵ برابر عملکرد استنتاج بالاتری نسبت به کارت NVIDIA A40 نسل قبلی ارائه می‌دهد.

آموزش و استنتاج LLM:
هسته‌های تنسور نسل چهارم با پشتیبانی از FP8 عملکرد محاسباتی AI استثنائی برای شتاب‌دهی به آموزش و استنتاج مدل‌های LLM و AI مولد فراهم می‌کنند.

رندرینگ و گرافیک 3D:
با هسته‌های RT نسل سوم که عملکرد ردیابی پرتو در زمان واقعی را تا دو برابر افزایش می‌دهند، کارت L40S برای تولید محتوای بصری خیره‌کننده و جریان‌های کاری خلاقانه با کیفیت بالا مناسب است.

NVIDIA Omniverse:
برای ایجاد و اجرای برنامه‌های متاورس. کارت L40S عملکرد بی‌نظیری را برای شبیه‌سازی 3D و جریان‌های کاری مبتنی بر OpenUSD فراهم می‌کند.

NVIDIA OVX L40S:
این ترکیب با فناوری‌های NVIDIA Spectrum-X Ethernet و نرم‌افزار NVIDIA AI Enterprise، عملکرد پیشرفته‌ای را برای شتاب‌دهی به تحول دیجیتال با AI مولد در مراکز داده‌ها فراهم می‌آورد.

توضیحات تکمیلی برای بررسی عملکرد و دقت محاسباتی:

در ادامه، توضیحات تکمیلی برای بررسی عملکرد و دقت محاسباتی کارت گرافیک NVIDIA L40S ارائه شده است. این بخش شامل تحلیل، مثال‌های دقیق و مقایسه‌های کاربردی برای ارزیابی کارایی این کارت گرافیک در سطوح مختلف دقت محاسباتی است. هدف این متن، ارائه‌ی اطلاعاتی ارزشمند و دقیق برای متخصصان حوزه‌ی پردازش و هوش مصنوعی است تا بتوانند با درک بهتری از قابلیت‌های این سخت‌افزار، تصمیمات بهینه‌تری اتخاذ کنند.

بررسی عملکرد و دقت محاسباتی NVIDIA L40S

کارت گرافیک NVIDIA L40S دارای مشخصات پردازشی بالایی است که برای کاربردهای محاسباتی، یادگیری ماشین، رندرینگ و پردازش‌های هوش مصنوعی طراحی شده است. مشخصات ذکر شده در مورد عملکرد این کارت عمدتاً به واحدهای پردازش تنسور (Tensor Cores) و عملکرد عمومی در دقت‌های مختلف محاسباتی مربوط می‌شوند. در ادامه، هر یک از این مشخصات را توضیح می‌دهیم.


۱. RT Core Performance – 209 TFLOPS

(عملکرد هسته‌های رهگیری پرتو – ۲۰۹ ترافلاپس)

  • هسته‌های RT Cores یا Ray Tracing Cores به طور خاص برای پردازش نورپردازی فیزیکی و بازتاب‌ها در گرافیک‌های سه‌بعدی و شبیه‌سازی‌های تصویری طراحی شده‌اند.
  • مقدار ۲۰۹ TFLOPS نشان می‌دهد که این کارت قادر است ۲۰۹ تریلیون عملیات محاسباتی مربوط به رهگیری پرتو را در ثانیه انجام دهد.
  • چرا مهم است؟ این ویژگی باعث می‌شود رندرینگ واقع‌گرایانه، بازی‌های با گرافیک بالا، و شبیه‌سازی‌های صنعتی دقیق‌تر و سریع‌تر اجرا شوند.

۲. FP32 TFLOPS – 91.6

(عملکرد FP32 – 91.6 ترافلاپس)

  • FP32 (Floating Point 32-bit) یک دقت محاسباتی معمول در پردازنده‌های گرافیکی است که برای بسیاری از کاربردهای علمی، مهندسی و هوش مصنوعی استفاده می‌شود.
  • مقدار ۹۱.۶ TFLOPS نشان می‌دهد که L40S قادر است ۹۱.۶ تریلیون عملیات ممیز شناور ۳۲ بیتی را در ثانیه انجام دهد.
  • چرا مهم است؟ FP32 یکی از دقت‌های استاندارد در پردازش گرافیکی و شبیه‌سازی‌های عددی است و عملکرد بالا در این سطح، برای توسعه‌دهندگان گرافیک و علوم داده بسیار مهم است.

۳. TF32 Tensor Core TFLOPS – 183 | 366*

(عملکرد هسته‌های تنسور در دقت TF32 – بین ۱۸۳ و ۳۶۶ ترافلاپس)

  • TF32 (Tensor Float 32) یک دقت محاسباتی است که NVIDIA برای یادگیری ماشین و مدل‌های هوش مصنوعی معرفی کرده است.
  • مقدار ۱۸۳ TFLOPS بدون پراکندگی (Sparsity) و ۳۶۶ TFLOPS با پراکندگی (Sparsity) نشان می‌دهد که در حالت بهینه، عملکرد این هسته‌ها دو برابر می‌شود.
  • چرا مهم است؟ این دقت در مدل‌های یادگیری ماشین و آموزش شبکه‌های عصبی بسیار کاربرد دارد و باعث افزایش سرعت آموزش مدل‌ها می‌شود.

۴. BFLOAT16 Tensor Core TFLOPS – 362.05 | 733*

(عملکرد هسته‌های تنسور در دقت BFLOAT16 – بین ۳۶۲ و ۷۳۳ ترافلاپس)

  • BFLOAT16 (Brain Floating Point 16-bit) نوعی دقت محاسباتی نیمه‌دقیق (۱۶ بیتی) است که توسط Google برای شتاب‌دهی به یادگیری عمیق و شبکه‌های عصبی توسعه داده شد.
  • مقدار ۳۶۲.۰۵ TFLOPS بدون پراکندگی و ۷۳۳ TFLOPS با پراکندگی نشان می‌دهد که این کارت برای استنتاج مدل‌های یادگیری عمیق و پردازش‌های مرتبط با هوش مصنوعی بسیار قدرتمند است.
  • چرا مهم است؟ این دقت برای آموزش و استنتاج مدل‌های بزرگ زبانی (LLM) مانند GPT و Llama 2 بسیار مناسب است، زیرا باعث بهینه‌سازی مصرف حافظه و افزایش سرعت پردازش می‌شود.

عملکرد در مدل‌های تولید تصویر (Image Generative AI)

مفهوم اندازه‌گیری: Stable Diffusion (تصاویر در دقیقه)

  • Stable Diffusion یکی از مدل‌های محبوب برای تولید تصویر از طریق هوش مصنوعی است که میزان پردازش آن به تعداد تصاویر پردازش‌شده در دقیقه اندازه‌گیری شده است.
  • پردازش در سه تنظیم مختلف اندازه تصویر بررسی شده است:
    • SD (512×512) → تولید تصاویر کوچک
    • SD (1024×1024) → تولید تصاویر با وضوح بالا
    • SDXL (1024×1024) → مدل Stable Diffusion XL که پردازش سنگین‌تری دارد

تحلیل نتایج عملکرد:

  1. SD (512×512) → عملکرد بالاتر از بقیه، نزدیک به ۸۰-۹۰ تصویر در دقیقه
  2. SD (1024×1024) → کاهش عملکرد، تقریباً یک‌سوم کمتر از حالت ۵۱۲×۵۱۲
  3. SDXL (1024×1024) → کاهش بیشتر عملکرد، زیرا SDXL یک مدل پیچیده‌تر با نیاز پردازشی بالاتر است.

نتیجه‌گیری:

  • هرچه اندازه تصویر بزرگ‌تر باشد، تعداد تصاویر پردازش‌شده در دقیقه کاهش می‌یابد.
  • مدل SDXL به دلیل پیچیدگی بالاتر و تعداد پارامترهای بیشتر، سرعت پردازش کمتری دارد.
  • استفاده از FP16 و TensorRT 8.6.1 نشان می‌دهد که پردازش با دقت کاهش‌یافته انجام شده، که باعث بهبود کارایی می‌شود.

عملکرد در استنتاج مدل‌های زبانی بزرگ (LLM Inference)

مفهوم اندازه‌گیری: تاخیر در پردازش اولین توکن (1st Token Latency)

  • در مدل‌های زبانی، تأخیر در تولید اولین توکن (کلمه/حرف) بسیار مهم است.
  • این آزمایش برای سه مدل از خانواده Llama 2 انجام شده است:
    • Llama 2 – 7B → کوچک‌ترین مدل با ۷ میلیارد پارامتر
    • Llama 2 – 13B → مدل میانی با ۱۳ میلیارد پارامتر
    • Llama 2 – 70B → بزرگ‌ترین مدل با ۷۰ میلیارد پارامتر

تحلیل نتایج عملکرد:

  1. Llama 2 – 7B → کمترین تأخیر، در محدوده زیر ۵۰ میلی‌ثانیه
  2. Llama 2 – 13B → افزایش تأخیر، در محدوده بین ۱۰۰-۱۵۰ میلی‌ثانیه
  3. Llama 2 – 70B → تأخیر بسیار زیاد، نزدیک به ۷۰۰-۷۵۰ میلی‌ثانیه

نتیجه‌گیری:

  • هرچه مدل بزرگ‌تر باشد، زمان تولید اولین توکن بیشتر می‌شود.
  • Llama 2 – 70B بسیار سنگین‌تر از سایر مدل‌ها است و نیاز پردازشی بیشتری دارد.
  • استفاده از FP8 برای پردازش مدل‌ها نشان می‌دهد که NVIDIA L40S از دقت پایین‌تر برای افزایش سرعت استفاده کرده است.

۵. FP16 Tensor Core TFLOPS – 362.05 | 733*

(عملکرد هسته‌های تنسور در دقت FP16 – بین ۳۶۲ و ۷۳۳ ترافلاپس)

  • FP16 (Floating Point 16-bit) یک دقت محاسباتی است که بین سرعت پردازش و دقت محاسباتی تعادل ایجاد می‌کند.
  • مقدار ۳۶۲.۰۵ TFLOPS بدون پراکندگی و ۷۳۳ TFLOPS با پراکندگی نشان می‌دهد که این کارت در این دقت نیز عملکرد بسیار بالایی دارد.
  • چرا مهم است؟ FP16 معمولاً در یادگیری ماشین، رندرینگ، و پردازش‌های گرافیکی برای کاهش مصرف حافظه و افزایش سرعت پردازش استفاده می‌شود.

۶. FP8 Tensor Core TFLOPS – 733 | 1,466*

(عملکرد هسته‌های تنسور در دقت FP8 – بین ۷۳۳ و ۱,۴۶۶ ترافلاپس)

  • FP8 (Floating Point 8-bit) یک دقت محاسباتی کم‌حجم‌تر از FP16 است که برای بهینه‌سازی سرعت در پردازش‌های یادگیری عمیق معرفی شده است.
  • مقدار ۷۳۳ TFLOPS بدون پراکندگی و ۱,۴۶۶ TFLOPS با پراکندگی نشان می‌دهد که L40S در این دقت عملکرد فوق‌العاده‌ای دارد.
  • چرا مهم است؟ در مدل‌های Transformer، GPT و LLMهای بزرگ، استفاده از FP8 باعث افزایش سرعت استنتاج مدل‌ها با حداقل افت دقت در پردازش می‌شود.

۷. Peak INT8 Tensor TOPS – 733 | 1,466*

(عملکرد هسته‌های تنسور در دقت INT8 – بین ۷۳۳ و ۱,۴۶۶ ترافلاپس)

  • INT8 (Integer 8-bit) یک دقت محاسباتی عدد صحیح است که برای استنتاج مدل‌های یادگیری ماشین استفاده می‌شود.
  • مقدار ۷۳۳ TOPS بدون پراکندگی و ۱,۴۶۶ TOPS با پراکندگی نشان می‌دهد که L40S در استنتاج مدل‌های کم‌حجم‌شده (Quantized Models) فوق‌العاده عمل می‌کند.
  • چرا مهم است؟ INT8 در پردازش‌های تشخیص تصویر، NLP و AI روی دستگاه‌های کم‌مصرف بسیار کاربرد دارد.

۸. Peak INT4 Tensor TOPS – 733 | 1,466*

(عملکرد هسته‌های تنسور در دقت INT4 – بین ۷۳۳ و ۱,۴۶۶ ترافلاپس)

  • INT4 (Integer 4-bit) یک دقت محاسباتی فوق‌العاده کم‌حجم است که معمولاً برای مدل‌های بهینه‌سازی‌شده و شبکه‌های عصبی سبک استفاده می‌شود.
  • مقدار ۷۳۳ TOPS بدون پراکندگی و ۱,۴۶۶ TOPS با پراکندگی نشان می‌دهد که L40S می‌تواند با کاهش دقت، سرعت پردازش را دو برابر کند.
  • چرا مهم است؟ این دقت برای پردازش‌های AI با سخت‌افزارهای کم‌مصرف و اجرای مدل‌های هوش مصنوعی روی دستگاه‌های محدود از نظر قدرت پردازش مفید است.

*مفهوم (Sparsity) چیست؟

عبارت “Sparsity” به بهینه‌سازی محاسبات از طریق حذف مقادیر صفر یا کم‌اهمیت در عملیات ریاضی شبکه‌های عصبی اشاره دارد.

  • در یادگیری ماشین، بسیاری از وزن‌های شبکه عصبی مقادیر بسیار کوچک یا صفر دارند که می‌توان آن‌ها را حذف کرد.
  • NVIDIA با استفاده از تکنیک “Structured Sparsity” این امکان را فراهم می‌کند که برخی از مقادیر را حذف کند و در نتیجه، سرعت پردازش را تقریباً دو برابر افزایش دهد.
  • به همین دلیل، مقادیر عملکرد با پراکندگی (Sparsity) تقریباً ۲ برابر مقدار بدون پراکندگی هستند.

جمع‌بندی

  • کارت گرافیک NVIDIA L40S دارای دقت‌های مختلف پردازشی (FP32, TF32, BFLOAT16, FP16, FP8, INT8, INT4) برای پردازش‌های گرافیکی، یادگیری ماشین و مدل‌های هوش مصنوعی است.
  • مقدار TFLOPS و TOPS نشان‌دهنده تعداد عملیات پردازشی در ثانیه است.
  • تکنیک Sparsity باعث افزایش دو برابری عملکرد در برخی دقت‌های پردازشی می‌شود.

اطلاعات فنی کارت گرافیگ دیتا‌سنتر انویدیا NVIDIA L40S 48GB ECC GDDR6 Data Center PCIe GPU Accelerator

وزن 3 کیلوگرم
کارایی و رده بندی

, , , , , , , , , , ,

برند و سری

,

مدل

NVIDIA L40S 48GB ECC GDDR6 Data Center PCIe GPU Accelerator

وضعیت محصول

, ,

کارت گرافیک / Graphics Card

Release Date: Oct 13th, 2022
Availability: 2022
Generation: Tesla Ada(Lxx)
Predecessor: Tesla Ampere
Successor: Tesla Hopper
Production: Active
Launch Price: 649 USD
Bus Interface: PCIe 4.0 x16

پردازنده گرافیکی / Graphics Processor

GPU Name : AD102
Architecture : Ada Lovelace
Foundry : TSMC
Process Size : 5 nm
Transistors : 76,300 million
Density : 125.3M / mm²
Die Size : 609 mm²

AD107 GPU Notes:

Ray Tracing Cores: 3rd Gen
Tensor Cores: 4th Gen
NVENC: 8th Gen
NVDEC: 5th Gen
PureVideo HD: VP12
VDPAU: Feature Set L

پیکربندی رندر / Render Config

Shading Units : 18176
TMUs : 568
ROPs : 192
SM Count : 142
568Cores : 88
RT Cores : 142
L1 Cache : 128 KB (per SM)
L2 Cache : 48 MB

حافظه / Memory

Memory Size : 48 GB
Memory Type : GDDR6 with error-correction code (ECC)
Memory Bus : 384 bit
Bandwidth : 864.0 GB/s

سرعت اجرای پردازنده / Clock Speeds

Base Clock : 1110 MHz
Boost Clock : 2520 MHz
Memory Clock : 2250MHz 18 Gbps effective

صفحه نمایش / Display

Display Connectors : 4x mini-DisplayPort 1.4a
Max Simultaneous Displays : 4 direct, 4x mini-DisplayPort Up to four display outputs can be used simultaneously for multi-monitors
Display Resolution : 4K displays at 120Hz, 5K and 8K displays at 60Hz
4x 3840×2160 @ 120 Hz
4x 5120×2880 @ 60 Hz
2x 7680×4320 @ 60 Hz

عملکرد نظری / Theoretical Performance

Pixel Rate: 483.8 GPixel/s
Texture Rate; 1,431 GTexel/s
FP16 (half): 91.61 TFLOPS (1:1)
FP32 (float): 91.61 TFLOPS
FP64 (double): 1,431 GFLOPS (1:64)

RT Core Performance TFLOPS: 209 
TF32 Tensor Core TFLOPS: 183 I 366*
BFLOAT16 Tensor Core TFLOPS: 362.05 I 733*
FP16 Tensor Core: 362.05 I 733*
FP8 Tensor Core: 733 I 1,466*
Peak INT8 Tensor TOPS: 733 I 1,466*
Peak INT4 Tensor TOPS: 733 I 1,466*

ویژگی های گرافیک / Graphics Features

DirectX : 12 Ultimate (12_2)
OpenGL : 4.6
OpenCL : 3.0
Vulkan : 1.3
CUDA : 8.9
Shader Model : 6.8

برخورداری از APIهای محاسباتی

vGPU software support

Virtual GPU (vGPU) Software Support: Yes
Supports vGPU 16.1 (R535 GA6) or later: NVIDIA Virtual Compute
Server Edition
NVIDIA RTX Virtual Workstation
NVIDIA Virtual Compute Server

vGPU profiles supported

vGPU Profiles Supported: See the virtual GPU licensing guide
NVIDIA L40/L40S
Framebuer (GB) : 1x 48
Recommended vGPU Software: NVIDIA vWS (High-end)

پشتیبانی از تکنولوژیهای و ویژگی ها

> PCIe Gen 4
> Four DisplayPort 1.4a connectors
> AV1 encode and decode support
> Encode/decode engines: 3x encode, 3x decode (+AV1 encode and decode)
> DisplayPort with audio
> 3D stereo support with stereo connector
> NVIDIA GPUDirect® for Video support
> NVIDIA GPUDirect Remote Direct Memory Access (RDMA) support
> NVIDIA virtual GPU (vGPU) software support
> NVIDIA Quadro® Sync II compatibility
> NVIDIA RTX Experience™
> NVIDIA RTX Desktop Manager software
> NVIDIA RTX IO support
> HDCP 2.2 support
> NVIDIA Mosaic technology
> VR ready: Yes

طراحی برد / Board Design

Slot Width : Dual-slot
TDP: 350 W
Suggested PSU : 800 W
Outputs : 4x DisplayPort 1.4a
Power Connectors : 1x PCIe CEM5 16-pin

ابعاد

Slot Width : Dual-slot
Length : 267 mm – 10.5 inches
Width : 111 mm – 4.4 inches

نوع رابط

گارانتی

, ,

اطلاعات PDF:

تعداد نظرات 0

0.0 میانگین نظرات
0
0
0
0
0

اولین نفری باشید که نظری را برای “کارت گرافیگ دیتا‌سنتر انویدیا NVIDIA L40S 48GB” می نویسید.

هنوز دیدگاه یا پرسشی ثبت نشده است.

سبد خرید

close