越来越多的计算体系结构推动了对仿真算法新的可移植实现的探索。此外,高性能计算系统的混合带来了额外的限制,因为需要异构计算来有效地使用处理器和大规模并行加速器。这反过来又涉及不同的并行范式和计算框架,并要求计算单元之间进行复杂的数据交换。通常,模拟代码依赖于复杂的数据结构和计算子程序,即所谓的内核,这使得可移植性非常麻烦。因此,实现可移植性的一种自然方法是显著降低数据结构和计算内核的复杂性。在我们基于代数的方法中,非结构化网格上不可压缩湍流的尺度重解模拟依赖于三个基本核:稀疏矩阵-矢量积、矢量线性组合和点积。值得注意的是,这种方法并不局限于一种特定的数值方法或一组控制方程。在我们的代码中,一个自动平衡的多级分区在不同体系结构的计算设备之间分配工作负载。计算和多级通信的重叠有效地隐藏了大规模超级计算机模拟中的数据交换开销。除了在加速器上进行计算外,还特别关注多核处理器在具有显著非均匀内存访问因子的多处理器节点上的效率。本文详细研究了使用多达9600个处理器核和多达256个图形处理器单元的各种超级计算机上不同执行模式的并行效率和性能。本工作中描述的异构实现模型是一种通用方法,非常适合于数值模拟代码中的各种子程序。