NVIDIA CUDA
NVIDIA CUDA 工具包为 C 和 C++ 开发者构建 GPU 加速应用提供了全面的开发环境。借助 CUDA 工具包,你可以在 GPU 加速的嵌入式系统、桌面工作站、企业数据中心、云平台和 HPC 超级计算机上开发、优化和部署应用程序。该工具包包括 GPU 加速库、调试和优化工具、C/C++ 编译器以及用于部署应用程序的运行时库。
利用在多 GPU 配置之间分配计算的内置功能,科学家和研究人员可以开发从单个 GPU 工作站扩展到具有数千个 GPU 的云安装的应用。
利用在多 GPU 配置之间分配计算的内置功能,科学家和研究人员可以开发从单个 GPU 工作站扩展到具有数千个 GPU 的云安装的应用。
cuBLAS 库是 NVIDIA CUDA 运行时上的基本线性代数子程序 (BLAS) 的实现。它使用户能够访问 NVIDIA GPU 的计算资源。
NVIDIA CUDA 快速里叶变换 (cuFFT) 库包含两个组件:cuFFT 和 cuFFTW。cuFFT 库可在 NVIDIA GPU 上提供高性能,而 cuFFTW 库是在 NVIDIA GPU 上使用西部最快里叶变换 (FFTW) 的移植工具。
借助 cuFFT 设备扩展程序 (cuFFTDx) 库,您可以在 CUDA 内核中执行快速里叶变换 (FFT) 计算。将 FFT 与其他运算融合可以降低延迟并提高应用程序的性能。
NVIDIA CUDA 随机数生成 (cuRAND) 库提供了一个 API,可轻松高效地生成高质量的伪随机数和准随机数。
cuSPARSE 库包含一组用于处理稀疏矩阵的基本线性代数子程序。它在 NVIDIA CUDA 运行时上实现,旨在从 C 和 C++ 进行调用。
cuTENSOR 库是首个 GPU 加速的张量线性代数库,可提供高性能张量收缩、归约和元素级运算。cuTENSOR 用于加速深度学习训练和推理、计算机视觉、量子化学和计算物理学领域的应用。
NVIDIA 性能基元 (NPP) 是一个函数库,用于执行 CUDA 加速的 2D 图像和信号处理。此库广泛适用于这些领域的开发者,旨在更大限度地提高灵活性,同时保持高性能。
nvJPEG2000 库提供 GPU 加速的高性能 JPEG2000 解码功能。此库适用于深度学习、医学成像、遥感和数字电影应用中常用的 JPEG2000 格式图像。
cuSOLVER 库是基于 cuBLAS 和 cuSPARSE 库的高级软件包。它提供类似于线性代数包 (LAPACK) 的功能,例如适用于密集矩阵的常见矩阵分解和三角形求解例程。
借助 cuPQC 库,您可以直接在 CUDA 内核中执行后量子加密 (PQC) 算法。将 PQC 运算与其他计算融合可以减少延迟并提高应用程序的性能。
借助 cuBLAS 设备扩展程序 (cuBLASDx) 库,您可以在 CUDA 内核中执行 cuBLAS 已知的选定线性代数函数。目前仅适用于通用矩阵乘法 (GEMM)。将线性代数例程与其他运算融合可以降低延迟并提高应用程序的整体性能。
NVIDIA cuBLASMp 是一个高性能、多进程、GPU 加速的库,用于分布式基本密集线性代数。
NVIDIA cuDSS (预览版) 是一个具有稀疏矩阵的 GPU 加速线性求解器库。它提供了用于求解以下类型线性系统的算法:具有稀疏矩阵 A 的 AX = B、右侧 B 和未知解 X (可以是矩阵或向量)。cuDSS 功能允许灵活处理矩阵属性和求解器配置,以及 CUDA 流等执行参数。
cuEquivariance 是一个 Python 库,旨在使用分段张量产品促进构建高性能等方差神经网络。cuEquivariance 提供了一个全面的 API,用于描述分段张量乘积,并针对其执行优化 CUDA 内核。此外,cuEquivariance 还提供 PyTorch 和 JAX 的绑定,确保广泛的兼容性和易于集成。
NVIDIA cuQuantum SDK 是适用于量子信息科学及其他领域的高性能库。
nvImageCodec 是一个具有统一接口的加速编解码器库。它被设计为提供编解码器插件的扩展模块框架。
nvmath-python 是一个 Python 库,通过 NVIDIA 的高性能数学库,在 Python 计算生态系统中实现先进的性能、生产力和互操作性。
NVIDIA cuSOLVERMp 是一个高性能分布式内存 GPU 加速库,可提供用于解决密集线性系统和特征值问题的工具。
cuSPARSELt 库提供高性能、结构化的矩阵密集型矩阵乘法功能。cuSPARSELt 允许用户利用最新 NVIDIA GPU 的计算资源。
NVIDIA GPUDirect Storage (GDS) 为 GPU 显存和存储之间的直接内存访问 (DMA) 传输提供直接数据路径,从而避免 CPU 反弹缓冲区。这种直接路径可增加系统带宽,并减少 CPU 上的延迟和利用率负载。
查找 CUDA 工具包的历史版本文档。这些历史版本包含以往发布的 CUDA 文档版本。