CUDA工具包文档-11.6.1版(较老的)-上次更新时间：2022年2月22日-发送反馈

CUDA工具包文档11.6.1版

发行说明: CUDA工具包的发行说明。
CUDA功能存档: CUDA功能的发布列表。
EULA协议: CUDA工具包最终用户许可协议适用于NVIDIA CUDA工具包NVIDIA CUDA示例、NVIDIA显示驱动程序、NVIDI Nsight工具（Visual Studio版本），以及有关CUDA API、编程模型和开发工具。如果您不同意许可证的条款和条件同意，则不要下载或使用该软件。

安装指南

快速入门指南: 本指南提供了在标准系统上安装和验证CUDA的基本第一步说明。
安装指南窗口: 本指南讨论如何在Microsoft Windows系统上安装和检查CUDA开发工具的正确操作。
Linux安装指南: 本指南讨论如何在GNU/Linux系统上安装和检查CUDA开发工具的正确操作。

编程指南

编程指南: 本指南详细讨论了CUDA编程模型和编程接口。然后描述硬件实现，并提供如何实现的指导最大性能。附录中列出了所有启用CUDA的设备，对C++语言的所有扩展的详细描述，支持的数学函数列表，中支持的C++功能主机和设备代码，纹理提取的详细信息，技术各种设备的规格，并通过介绍低级驱动程序API。
最佳实践指南: 本指南介绍了已建立的并行化和优化技术及编码解释可以大大简化编程的隐喻和习惯用法支持CUDA的GPU体系结构。其目的是为使用CUDA从NVIDIA GPU获得最佳性能工具包。
麦克斯韦兼容性指南: 本应用说明旨在帮助开发商确保其NVIDIA CUDA应用程序能够运行在基于NVIDIA Maxwell架构的GPU上正确运行。这个文档提供了指导，以确保您的软件应用程序与Maxwell兼容。
Pascal兼容性指南: 本应用说明旨在帮助开发人员确保他们的NVIDIA CUDA应用程序能够运行基于NVIDIA Pascal架构的GPU。这个文档提供了指导，以确保您的软件应用程序与Pascal兼容。
Volta兼容性指南: 本应用说明旨在帮助开发商确保其NVIDIA CUDA应用程序能够运行正确安装在基于NVIDIA Volta架构的GPU上。这个文档提供了指导，以确保您的软件应用程序与Volta兼容。
图灵兼容性指南: 本应用说明旨在帮助开发商确保其NVIDIA CUDA应用程序能够运行在基于NVIDIA Turing架构的GPU上正确运行。这个该文档提供了指导，以确保您的软件应用程序与图灵兼容。
NVIDIA Ampere GPU体系结构兼容性指南: 本应用说明旨在帮助开发商确保其NVIDIA CUDA应用程序能够运行在基于NVIDIA安培GPU架构的GPU上正确安装。这个文档提供了指导，以确保您的软件应用程序与NVIDIA Ampere GPU架构兼容。
开普勒调优指南: 开普勒是NVIDIA的第三代CUDA计算应用程序的体系结构。以下应用程序费米体系结构的最佳实践通常应该查看开普勒架构的加速功能，无需更改任何代码。这个指南总结了应用程序可以进行微调以获得的方法通过利用开普勒体系结构功能实现额外的加速。
麦克斯韦调谐指南: 麦克斯韦是NVIDIA的第四代CUDA计算应用程序的体系结构。以下应用程序开普勒体系结构的最佳实践通常应该看到在没有任何代码更改的情况下，加快了Maxwell体系结构的速度。这个指南总结了应用程序可以进行微调以获得的方法通过利用Maxwell体系结构功能实现额外的加速。
Pascal调谐指南: 帕斯卡是NVIDIA的第五代CUDA计算应用程序的体系结构。以下应用程序Maxwell体系结构的最佳实践通常应该看到Pascal架构上的加速，而不需要任何代码更改。这个指南总结了应用程序可以进行微调以获得的方法通过利用Pascal体系结构功能实现额外的加速。
Volta调谐指南: 沃尔特是NVIDIA的第六代CUDA计算应用程序的体系结构。以下应用程序Pascal体系结构的最佳实践通常应该看到在没有任何代码更改的情况下，加快了Volta架构的速度。这个指南总结了应用程序可以进行微调以获得的方法通过利用Volta体系结构功能实现额外的加速。
图灵调优指南: 图灵是NVIDIA的第7代CUDA计算应用程序的体系结构。接下来的应用程序Pascal体系结构的最佳实践通常应该看到在没有任何代码更改的情况下，加快了图灵体系结构的速度。这个指南总结了应用程序可以进行微调以获得的方法通过利用图灵体系结构特性实现额外的加速。
NVIDIA Ampere GPU体系结构调整指南: NVIDIA安培GPU架构是NVIDIA的第八代CUDA计算应用程序的体系结构。以下应用程序NVIDIA Volta架构的最佳实践通常应该看到NVIDIA安培GPU架构上的加速，无需任何代码更改。这个指南总结了应用程序可以进行微调以获得的方法通过利用NVIDIA Ampere GPU架构的功能实现额外的加速。
PTX ISA公司: 本指南提供了有关使用PTX，一个低级并行线程执行虚拟机和指令集体系结构（ISA）。PTX将GPU暴露为数据并行计算设备。
Optimus开发人员指南: 本文档解释了如何使用CUDA API查询NVIDIA Optimus系统中的GPU功能。
视频解码器: NVIDIA视频解码器（NVCUVID）已弃用。相反，使用NVIDIA视频编解码器SDK(https://developer.nvidia.com/nvidia-video-codec-sdk).
PTX互操作性: 本文档介绍如何编写PTX，即符合ABI并可与其他CUDA代码互操作。
嵌入式PTX组件: 本文档显示了如何内联PTX（并行线程执行）将语言语句汇编为CUDA代码。它描述可用的汇编语句参数和约束，以及该文档还提供了一些您可能会遇到的陷阱列表遭遇。
CUDA占用计算器: CUDA占用计算器允许您计算给定CUDA内核对GPU的多处理器占用。

CUDA API参考

CUDA运行时API: 结构中的字段可能以不同于声明顺序的顺序出现。
CUDA驱动程序API: 结构中的字段可能以不同于声明顺序的顺序出现。
CUDA数学API: CUDA数学API。
cuBLAS公司: cuBLAS库是在NVIDIA CUDA运行时之上实现的BLAS（基本线性代数子程序）。它允许用户可以访问NVIDIA图形处理单元（GPU）的计算资源，但不能在多个GPU。
cuDLA API: cuDLA API。
NVBLAS公司: NVBLAS库是一个基于NVIDIA的多GPU加速的嵌入式BLAS（基本线性代数子程序）cuBLAS图书馆。
nvJPEG格式: nvJPEG库提供高性能GPU加速JPEG深度学习和超尺度中常用图像格式的解码功能多媒体应用程序。
袖口: cuFFT库用户指南。
幼兽: CUB用户指南。
CUDA C++标准库: libcu++（CUDA C++标准库）的API引用。
cuFile API参考指南: NVIDIA®GPUDirect®Storage cuFile API参考指南提供了有关cuFile API参考指南初版的信息它在应用程序和框架中用于利用GDS技术，并描述了这些API是GDS技术的一部分。
cuRAND公司: cuRAND库用户指南。
cuSPARSE公司: cuSPARSE库用户指南。
核电站: NVIDIA NPP是一个功能库，用于执行CUDA加速处理。库中的初始功能集中于图像和视频处理，广泛适用于这些区域。NPP将随着时间的推移而发展，以包含更多的计算各种问题领域的繁重任务。编写NPP库最大限度地提高灵活性，同时保持高性能。
NVRTC（运行时编译）: NVRTC是CUDA C++的运行时编译库。它接受字符串形式的CUDA C++源代码，并创建可用于获取PTX的手柄。NVRTC生成的PTX字符串可以通过cuModuleLoadData和cuModuleLoadDataEx，并通过的cuLinkAddData与其他模块链接CUDA驱动程序API。此工具通常可以提供优化，而性能不能可以在纯脱机静态编译中进行。
推力: 推力入门指南。
cuSOLVER公司: cuSOLVER库用户指南。

PTX编译器API参考

PTX编译器API: 本指南介绍如何使用将PTX程序编译为GPU汇编代码静态PTX编译器库提供的API。

其他

CUDA样本: 本文档包含以下代码示例的完整列表包含在NVIDIA CUDA工具包中。它描述了每个代码示例，列出了最低GPU规范，并提供了到源代码的链接代码和白皮书（如有）。
CUDA演示套件: 本文档介绍CUDA demo Suite附带的演示应用程序。
WSL上的CUDA: 本指南旨在帮助用户开始在Windows Subsystem for Linux（WSL 2）上使用NVIDIA CUDA。本指南涵盖CUDA应用程序和容器的安装和运行在这种环境中。
多仪表GPU（MIG）: 本版用户指南介绍了NVIDIA®A100 GPU的多实例GPU功能。
CUDA兼容性: 本文档介绍CUDA兼容性，包括CUDA增强兼容性和CUDA正向兼容升级。
CUPTI公司: CUPTI-API。CUDA分析工具界面（CUPTI）支持创建针对CUDA应用程序的分析和跟踪工具。
调试器API: CUDA调试器API。
GPU直接RDMA: 开普勒级GPU和CUDA 5.0中引入的技术，为GPU和第三方对等机之间的通信启用直接路径当设备共享同一上游时，PCI Express总线上的设备根复合体使用PCI Express的标准功能。本文件介绍了该技术并描述了启用GPUDirect RDMA连接到Linux设备中的NVIDIA GPU驾驶员模型。
GPU直接存储: GPUDirect Storage的文档。
vGPU: 支持CUDA的vGPU。

工具

NVCC公司: 这是nvcc的参考文件，CUDA编译器驱动程序。nvcc接受一系列常规编译器选项，例如，用于定义宏和include/library路径，以及用于指导编译过程。
CUDA-GDB公司: NVIDIA工具用于调试运行在Linux和QNX上的CUDA应用程序，为开发人员提供了一种调试机制CUDA应用程序在实际硬件上运行。CUDA-GDB是GDB（GNU项目调试器）的x86-64端口的扩展。
梅奇克CUDA-MEMCHECK: CUDA-MEMCHECK是一套能够精确检测越界和未对齐内存访问错误，检查设备分配泄漏、报告硬件错误和识别共享内存数据进入危险。
电脑消毒剂: 计算机消毒剂用户指南。
Nsight Eclipse插件安装指南: Nsight Eclipse插件安装指南
Nsight Eclipse插件版: Nsight Eclipse插件版入门指南
Nsight系统: Nsight Systems的文档。
Nsight计算: NVIDIA Nsight Compute是CUDA应用程序的下一代交互式内核分析器。它提供了详细的性能通过用户界面和命令行工具进行度量和API调试。
Nsight Visual Studio版: Nsight Visual Studio Edition的文档。
探查器: 这是探查器指南。
CUDA二进制实用程序: cuobjdump、nvdissm和nvprune的应用程序注释。

白皮书

浮点与IEEE 754: 与浮点精度和合规性相关的一些问题包括CPU和GPU上的常见混淆源。这个的目的白皮书旨在讨论与NVIDIA GPU相关的最常见问题并补充CUDA C++编程指南中的文档。
不完全LU和Cholesky预条件迭代方法: 在本白皮书中，我们展示了如何使用cuSPARSE和cuBLAS库，在不完全LU和Cholesky预条件迭代方法。我们专注于双共轭梯度稳定和共轭梯度迭代方法，可用于解决大型稀疏非对称和对称正定线性系统。此外，我们评并行稀疏三角求解这些算法中的构建块。

应用程序注释

Tegra的CUDA: 本应用说明概述了NVIDIA®Tegra®内存体系结构和从离散GPU（dGPU）移植代码的注意事项连接到x86系统到Tegra®集成GPU（iGPU）。它还讨论了EGL互操作性。

编译器SDK

libNVVM API: libNVVM API。
libdevice用户指南: libdevice库是LLVM位代码库实现GPU内核的通用函数。
NVVM红外: NVVM IR是编译器IR（中间表示）。NVVM IR设计用于表示GPU计算内核（例如，CUDA内核）。高级与CUDA C编译器前端一样，语言front-ens可以生成NVVM红外。