<div dir="ltr">HI,<div><br></div><div>How is the CP2K performance on GPUs in general?</div><div><br></div><div>I'm getting very low performance on GPUs(Nvidia V100 SXM2). It is a single node benchmark with 8 GPUs and Intel Skylake Gold 6148 dual processors. </div><div><br></div><div>The CP2K time on 8 GPUs (CP2K-6.1 psmp version, ifort-2017, CUDA-9.2, 8mpi ranks + 5 threads per rank) is still slower than CP2K time of CPU only benchmark.</div><div><br></div><div>For CPU runs, the CP2K-6.1 is built with LIBXSMM-1.8.3.</div><div><br></div><div>For GPU runs, have tried both with and without LIBXSMM. There is no performance difference. But both's performance is still slower than CPU only benchmark even after using all the 8 GPUs & all 40 cores of CPU. Can some one please share their experience on CP2K performance with GPUs.</div><div><br></div><div>The CUDA specific DFLAGS used are: -D__ACC -D__DBCSR_ACC -D__PW_CUDA.</div><div><br></div></div>