<div dir="ltr">Hi Users & Developers,<br><br>I am trying to do a MD run using CP2K-2.5.1 - CUDA build (sopt) with DBSCR-CUDA support. <br><b><u><br></u>CASE-1</b><br><u><br></u>When I use all the 4 GPUs on-node or in other words (CPU:GPU = 1:4), I get the simulation to run but the DBCSR statistics indicate <br>the the GPU usage is 0 and all the matrix computations are carried on CPU. I have configured the input file <br>so the DBCSR uses the accelerators and surprisingly things don't happen as expected. (Input Snippet at the bottom) <br><br> -------------------------------------------------------------------------------<br> COUNTER                                      CPU                  GPU      GPU%<br> number of processed stacks                 10296                    0       0.0<br> matmuls inhomo. stacks                         0                    0       0.0<br> matmuls total                           11895585                    0       0.0<br> flops   1 x    1 x    8                  4664400                    0       0.0<br> flops   1 x    8 x    1                  3900000                    0       0.0<br> flops   1 x    1 x   16                 37315200                    0       0.0<br> flops   1 x   16 x    1                 31200000                    0       0.0<br> flops   1 x    4 x    8                 20092800                    0       0.0<br> flops   4 x    1 x    8                 20092800                    0       0.0<br> flops   1 x    8 x    4                 17472000                    0       0.0<br> flops   4 x    8 x    1                 17472000                    0       0.0<br> flops   1 x    4 x   16                160742400                    0       0.0<br> flops   4 x    1 x   16                160742400                    0       0.0<br> flops   1 x   16 x    4                139776000                    0       0.0<br> flops   4 x   16 x    1                139776000                    0       0.0<br> flops   4 x    4 x    8                 93230592                    0       0.0<br> flops   4 x    8 x    4                 78274560                    0       0.0<br> flops   4 x    4 x   16                745844736                    0       0.0<br> flops   4 x   16 x    4                626196480                    0       0.0<br> flops total                           2296792368                    0       0.0<br> marketing flops                       3478421232<br> -------------------------------------------------------------------------------<br><br>My guess is that the CP2K-2.5.1 version is not yet fully configured to handle on-node multi-GPUs and when <br>multiple GPUs are available, things go wrong. I am not sure if this interpretation makes sense. <br><br><br><b>CASE-2 </b><br><u><br></u>I have tried choosing 1 GPU out of 4 GPUs (ID : 0,1,2,3) on-node (CPU:GPU = 1:1) and tried to run the same simulation. <br>I get these errors from DBSCR initialization,<br><br>Error report :<br> dbcsr_cuda_stream_create failed<br> libdbcsr| dbcsr_cuda_stream_create failed<br> libdbcsr| Abnormal program termination, stopped by process number 0<br>CUDA Error: all CUDA-capable devices are busy or unavailable<br> <br>My guess for this case is that the scheduler in the cluster might have assigned a GPU device ID other than 0 and the CP2K-2.5.1<br>might have the GPU device ID hard-coded to 0. This lead to the unavailability of necessary GPU device ID while creating streams, resulting in CUDA error. <br><br><br>I am not able to understand, what is going wrong with the case where CPU:GPU = 1:4 not showing any GPU stats for <br>DBCSR and CUDA error for the case where CPU:GPU = 1:1. My interpretations can be completely wrong and appreciate <br>if some one can give an insight on what is going on.<br><u><br>Architecture</u> : Super-Computing Cluster<br>Every node has 8 cores and 4 in-house GPU cards. <br><br><u>JOB details</u> : 1 Node, 1 Core and 4 GPUs (Case-1) / 1 GPU(Case-2) (on-node multiGPUs)<br><br><u>Input File Snippet :</u> <br><br>&GLOBAL<br>  PRINT_LEVEL LOW<br>  PROJECT_NAME PROTON_HOP<br>  RUN_TYPE MD<br>  &MACHINE_ARCH<br>    PRINT_FULL TRUE<br>  &END MACHINE_ARCH<br>  &DBCSR<br>    MM_DRIVER CUDA<br>    &CUDA<br>      PROCESS_INHOMOGENOUS TRUE<br>      PRIORITY_STREAMS 4<br>    &END CUDA<br>  &END DBCSR<br>&END GLOBAL<br><br><br><br>Thanks for your time and efforts,<br>Abhishek <br><br><div><div dir="ltr"><div><div><div><div><div><div><font size="1"><span style="font-family:georgia,serif"><span style="color:rgb(0,0,255)">------------------------------<wbr>------------------------------<wbr>------------------------------<wbr>-----------------<br>Abhishek Bagusetty<br></span></span></font></div><font size="1"><span style="font-family:georgia,serif"><span style="color:rgb(0,0,255)">PhD Student, Computational Modeling & Simulation<br></span></span></font></div><font size="1"><span style="font-family:georgia,serif"><span style="color:rgb(0,0,255)">Center for Simulation and Modeling<br></span></span></font></div><font size="1"><span style="font-family:georgia,serif"><span style="color:rgb(0,0,255)">Department of Chemical & Petroleum Engineering<br></span></span></font></div><font size="1"><span style="font-family:georgia,serif"><span style="color:rgb(0,0,255)">University of Pittsburgh</span><br><span style="color:rgb(0,0,255)">Pittsburgh, PA - 15261</span></span></font></div><font size="1"><span style="font-family:georgia,serif"><span style="color:rgb(0,0,255)">Office : 920 Benedum Hall<br></span></span></font></div><span style="font-family:verdana,sans-serif"><font><span style="color:rgb(0,0,255)"></span></font></span><div><div><span style="font-family:verdana,sans-serif"><font><span style="color:rgb(0,0,255)"></span></font></span><font size="1"><span style="font-family:georgia,serif"><span style="color:rgb(0,0,255)">------------------------------<wbr>------------------------------<wbr>------------------------------<wbr>-----------------</span></span></font></div></div></div></div><br></div>