<div dir="ltr"><div>Hi everyone,</div><div><br></div><div>I have noticed that in some cases cp2k is not effectively using the GPUs present on the node, while for similar atom configurations (and identical input file, attached below) the GPUs are used. I wonder what causes these differences?<br></div><div><br></div><div>Both simulationens are performed using the psmp version with 256 MPI ranks and 3 OMP threads each, and 64 GPUs on the Piz Daint cluster. The number of atoms (3655 and 3746) is slightly different but the species are the same, Pt, Hf and O. The size of the matrix blocks to process is also the same. From the summary at the end of the output we see the that in the first simulation the GPUs account for 99.9% of the flops while in the second one only 6% of the flops are performed on the GPU.<br></div><div><br></div><div></div><div> COUNTER                                         TOTAL       BLAS       SMM       ACC</div><div>...<br></div><div> flops    32 x    32 x    13      100202445398016       0.0%      0.0%    100.0%<br> flops    10 x    32 x    32      182711840276480       0.0%      0.4%     99.6%<br> flops    10 x    32 x    10      217680464691200       0.0%      0.0%    100.0%<br> flops    32 x    32 x    10      296933113405440       0.0%      0.0%    100.0%<br> flops inhomo. stacks                                   0       0.0%      0.0%       0.0%<br> flops total                                1.179570E+15       0.0%      0.1%     99.9%<br> flops max/rank                         4.725263E+12       0.0%      0.1%     99.9%<br> matmuls inhomo. stacks                              0       0.0%      0.0%      0.0%<br> matmuls total                            95474737068       0.0%      0.0%    100.0%<br> number of processed stacks              3880884       0.0%      0.1%     99.9%<br> average stack size                                               0.0   20228.0   24603.7</div><div><br></div><div>while here they are not:</div><div><div> COUNTER                                         TOTAL       BLAS       SMM       ACC</div>...</div><div> flops    32 x    32 x    13       86563418093568       0.0%    100.0%      0.0%<br> flops    10 x    32 x    32      178933868625920       0.0%    100.0%      0.0%<br> flops    10 x    32 x    10      229355051443200       0.0%     90.9%      9.1%<br> flops    32 x    32 x    10      290793635389440       0.0%    100.0%      0.0%<br> flops inhomo. stacks                                   0       0.0%        0.0%      0.0%<br> flops total                                1.134639E+15       0.0%      94.0%      6.0%<br> flops max/rank                         4.704995E+12       0.0%      92.0%      8.0%<br> matmuls inhomo. stacks                              0       0.0%        0.0%      0.0%<br> matmuls total                            93442871379       0.0%       94.0%      6.0%<br> number of processed stacks              3893648       0.0%       93.3%      6.7%<br> average stack size                                               0.0   24183.7   21442.3</div><div><br></div><div><br></div><div>I have some GPU related GLOBAL settings:</div><div>&GLOBAL<br>  PROJECT negf-step-282<br>  RUN_TYPE ENERGY<br>  PRINT_LEVEL MEDIUM<br>  EXTENDED_FFT_LENGTHS<br>  WALLTIME 17600<br>  &FM<br>    FORCE_BLOCK_SIZE<br>    TYPE_OF_MATRIX_MULTIPLICATION DBCSR_MM<br>  &END FM<br>&END GLOBAL</div><div><br></div><div>the full input file is attached as are the outputs for both simulations.</div><div><br></div><div>I am glad for any pointer to how I should change the settings.</div><div><br></div><div>Best,</div><div>Fabian</div><div><br></div></div>