3.6 CUDA+MPIによる高速化

3.6.1 CUDA+MPIプログラム

3.4のMPIによる並列化と3.5のCUDAによるGPU対応が適切に実装されていれば、 CUDA+MPIプログラムは形式的な変更ですみます。

3.6.2 CUDA+MPIの計算時間

表3-6-1に前節の1GPUと本節の2GPUの計算時間を示します。 2GPUは1GPUの2倍弱速くなります。
matrixモードの方が少し速いですが、GPUではメモリーが限られていますので、 使用メモリーの少ないnomatrixモードを推奨します。

表3-6-1 CUDA+MPIの計算時間(()内は1ノードとの速度比)
ノード数benchmark100benchmark200benchmark300
nomatrixmatrixnomatrixmatrixnomatrixmatrix
17.9秒 (1.0) 7.0秒 (1.0) 55.7秒 (1.0)50.2秒 (1.0)189.8秒 (1.0)メモリー不足
24.6秒 (1.71)4.0秒 (1.67)30.0秒 (1.85)27.1秒 (1.84)104.5秒 (1.82)94.5秒