<div dir="ltr">1. I think CP2K needs at least one MPI rank per GPU. So if you want to have multiple GPU you should run a popt or psmp build not sopt. Also a single core would likely not be able to fully load 4 GPUs.<br>2. There are currently no kernels for your block sizes. If you go to the cp2k/src/dbcsr/libsmm_acc/libcusmm/generate.py file you will have to add there: triples += combinations(1, 4,8, 16)<br>3. Some of your blocks are extremely small (with one of the dimensions beeing 1), this might lead to poor performance of the GPU code.<br></div>