实现CUDA Graph功能并执行相关重构

目前，GROMACS独立启动每个CUDA活动。对于较小的情况，与启动相关的CPU开销位于关键路径上，因此GPU“缺少”工作。

CUDA Graphs旨在通过允许将多个活动作为单个“图”启动来解决此问题，这样一个CPU API调用就可以启动多个GPU活动。GPU方面也有潜在的好处：由于CUDA对工作流有更多的了解，它可以优化执行并减少GPU方面的启动延迟。

图形支持完全异步的情况：

~~调查“39b9e167号使用PmeForceSenderGpu中现有的PME f ready事件“更改中断跨多个GPU捕获图形的能力~~
~~将原型重新绑定到最新的GROMACS。~~
~~允许每个图形跨越多个步骤，避免步骤之间跨GPU的不必要障碍。~~[相反，我们通过奇数步和偶数步上的单独图形重叠每个步骤的开始和结束，见下文]
~~为多GPU案例实施图形更新功能，以避免每一个NS/DD步骤都需要昂贵的重新实例化。~~[将在未来的CUDA版本中得到适当支持，并将使用与单GPU相同的代码路径，我们只需要在可能的情况下启用一些小功能]
~~调查节点级优先级~~
~~清理和重构所有代码，将标准提升到可以向上传输的水平。~~
~~为新的MD Graphs类创建单元测试~~
~~每当MdGpuGraph公司从“使用”更改为“录制”，再更改为“已录制但尚未创建”，最后更改为“创建”等。~~
~~添加简单测试，通过检查调用的有效/无效顺序，可以进一步验证上述点~~

扩展以允许CPU占用情况：Prototype at Prototype-at0030776天

已编辑2024年1月15日通过阿兰·格雷

受让人

选择受让人

时间跟踪