NVIDIA CUDA

最新 CUDA 发布
数学库
技术
历史版本

NVIDIA CUDA 工具包为 C 和 C++ 开发者构建 GPU 加速应用提供了全面的开发环境。借助 CUDA 工具包，你可以在 GPU 加速的嵌入式系统、桌面工作站、企业数据中心、云平台和 HPC 超级计算机上开发、优化和部署应用程序。该工具包包括 GPU 加速库、调试和优化工具、C/C++ 编译器以及用于部署应用程序的运行时库。

利用在多 GPU 配置之间分配计算的内置功能，科学家和研究人员可以开发从单个 GPU 工作站扩展到具有数千个 GPU 的云安装的应用。

浏览

NVIDIA cuBLAS

cuBLAS 库是 NVIDIA CUDA 运行时上的基本线性代数子程序 (BLAS) 的实现。它使用户能够访问 NVIDIA GPU 的计算资源。

浏览

NVIDIA cuFFT

NVIDIA CUDA 快速里叶变换 (cuFFT) 库包含两个组件：cuFFT 和 cuFFTW。cuFFT 库可在 NVIDIA GPU 上提供高性能，而 cuFFTW 库是在 NVIDIA GPU 上使用西部最快里叶变换 (FFTW) 的移植工具。

浏览

NVIDIA cuFFTDx

借助 cuFFT 设备扩展程序 (cuFFTDx) 库，您可以在 CUDA 内核中执行快速里叶变换 (FFT) 计算。将 FFT 与其他运算融合可以降低延迟并提高应用程序的性能。

浏览

NVIDIA cuRAND

NVIDIA CUDA 随机数生成 (cuRAND) 库提供了一个 API，可轻松高效地生成高质量的伪随机数和准随机数。

浏览

NVIDIA cuSPARSE

cuSPARSE 库包含一组用于处理稀疏矩阵的基本线性代数子程序。它在 NVIDIA CUDA 运行时上实现，旨在从 C 和 C++ 进行调用。

浏览

nvCOMP

nvCOMP 库使用 GPU 提供快速无损数据压缩和解压缩。它具有通用压缩接口，使开发者能够在其应用程序中使用高性能 GPU 压缩器。

浏览

NVIDIA cuTENSOR

cuTENSOR 库是首个 GPU 加速的张量线性代数库，可提供高性能张量收缩、归约和元素级运算。cuTENSOR 用于加速深度学习训练和推理、计算机视觉、量子化学和计算物理学领域的应用。

浏览

NVIDIA NPP

NVIDIA 性能基元 (NPP) 是一个函数库，用于执行 CUDA 加速的 2D 图像和信号处理。此库广泛适用于这些领域的开发者，旨在更大限度地提高灵活性，同时保持高性能。

浏览

nvJPEG

nvJPEG 库提供 GPU 加速的高性能 JPEG 编码和解码功能。此库适用于深度学习和超大规模多媒体应用中常用的图像格式。

浏览

nvJPEG2000

nvJPEG2000 库提供 GPU 加速的高性能 JPEG2000 解码功能。此库适用于深度学习、医学成像、遥感和数字电影应用中常用的 JPEG2000 格式图像。

浏览

nvTIFF

nvTIFF 库可加速在 NVIDIA GPU 上使用 LZW 压缩的 TIFF 图像的解码和编码。该库基于 CUDA® 平台构建，并支持 Volta™ GPU 架构。

浏览

NVIDIA cuSOLVER

cuSOLVER 库是基于 cuBLAS 和 cuSPARSE 库的高级软件包。它提供类似于线性代数包 (LAPACK) 的功能，例如适用于密集矩阵的常见矩阵分解和三角形求解例程。

浏览

NVIDIA cuPQC

借助 cuPQC 库，您可以直接在 CUDA 内核中执行后量子加密 (PQC) 算法。将 PQC 运算与其他计算融合可以减少延迟并提高应用程序的性能。

浏览

NVIDIA cuBLASDx

借助 cuBLAS 设备扩展程序 (cuBLASDx) 库，您可以在 CUDA 内核中执行 cuBLAS 已知的选定线性代数函数。目前仅适用于通用矩阵乘法 (GEMM)。将线性代数例程与其他运算融合可以降低延迟并提高应用程序的整体性能。

浏览

NVIDIA cuBLASMp

NVIDIA cuBLASMp 是一个高性能、多进程、GPU 加速的库，用于分布式基本密集线性代数。

浏览

NVIDIA cuDSS

NVIDIA cuDSS (预览版) 是一个具有稀疏矩阵的 GPU 加速线性求解器库。它提供了用于求解以下类型线性系统的算法：具有稀疏矩阵 A 的 AX = B、右侧 B 和未知解 X (可以是矩阵或向量)。cuDSS 功能允许灵活处理矩阵属性和求解器配置，以及 CUDA 流等执行参数。

浏览

NVIDIA cuEquivariance

cuEquivariance 是一个 Python 库，旨在使用分段张量产品促进构建高性能等方差神经网络。cuEquivariance 提供了一个全面的 API，用于描述分段张量乘积，并针对其执行优化 CUDA 内核。此外，cuEquivariance 还提供 PyTorch 和 JAX 的绑定，确保广泛的兼容性和易于集成。

浏览

NVIDIA cuQuantum

NVIDIA cuQuantum SDK 是适用于量子信息科学及其他领域的高性能库。

浏览

nvImageCodec

nvImageCodec 是一个具有统一接口的加速编解码器库。它被设计为提供编解码器插件的扩展模块框架。

浏览

nvmath-python

nvmath-python 是一个 Python 库，通过 NVIDIA 的高性能数学库，在 Python 计算生态系统中实现先进的性能、生产力和互操作性。

浏览

NVIDIA cuSOLVERMp

NVIDIA cuSOLVERMp 是一个高性能分布式内存 GPU 加速库，可提供用于解决密集线性系统和特征值问题的工具。