<div dir="ltr">You may take a look at this issue on github: https://github.com/cp2k/cp2k/issues/73<div><br></div><div>In your particular case, your setup of 8 V100 is pretty extreme and it would require a large computation. Which test are you using for benchmarking?</div><div><br></div><div>Then, your setup of 8 ranks + 5 threads should be OK. CP2K attaches ranks to GPU in a round-robin manner, therefore in your case there is a rank talking to each GPU.</div><div>We don't have a large experience of multi-gpu nodes, hence I would suggest to do some scalability test by running 1 rank, 2 ranks, ... 8 ranks (always 5 threads) to check how the performance scales. BTW, make sure CP2K is able to recognize 8 GPUs by checking the following output at the beginning:</div><div><br></div><div> DBCSR| ACC: Number of devices/node                                            1</div><div><br></div><div>Eventually, you might consider reoptimizing the kernels for the V100, but this is not a priority...</div><div><br></div><div>Alfio</div><div><br></div><div><br><br>Il giorno sabato 3 novembre 2018 07:55:09 UTC+1, for...@gmail.com ha scritto:<blockquote class="gmail_quote" style="margin: 0;margin-left: 0.8ex;border-left: 1px #ccc solid;padding-left: 1ex;"><div dir="ltr">HI,<div><br></div><div>How is the CP2K performance on GPUs in general?</div><div><br></div><div>I'm getting very low performance on GPUs(Nvidia V100 SXM2). It is a single node benchmark with 8 GPUs and Intel Skylake Gold 6148 dual processors. </div><div><br></div><div>The CP2K time on 8 GPUs (CP2K-6.1 psmp version, ifort-2017, CUDA-9.2, 8mpi ranks + 5 threads per rank) is still slower than CP2K time of CPU only benchmark.</div><div><br></div><div>For CPU runs, the CP2K-6.1 is built with LIBXSMM-1.8.3.</div><div><br></div><div>For GPU runs, have tried both with and without LIBXSMM. There is no performance difference. But both's performance is still slower than CPU only benchmark even after using all the 8 GPUs & all 40 cores of CPU. Can some one please share their experience on CP2K performance with GPUs.</div><div><br></div><div>The CUDA specific DFLAGS used are: -D__ACC -D__DBCSR_ACC -D__PW_CUDA.</div><div><br></div></div></blockquote></div></div>