<div dir="ltr">Dear colleagues!<div><br></div><div>I met an issue of poor extra node parallelization using the cp2k H20-64 benchmark while the HFX-3 benchmark was ok. I attach the output of the tests below. H2O-64.ns1 was run on 64 cores of a single node and took 108 seconds and H2O-64.ns12 is the same on two nodes and it took 1277 seconds. The HFX-3 benchmark scales through nodes with a very good efficiency of 85%.  HFX-64-ns2 ran on 64 core of one node and took 18348 seconds while HFX-256 took 5395 sec on 256 cores of 4 nodes. Comparing H2O-64 output shows that they are identical but the average size of mpi_wait is much higher at the extra node run. Can someone comment on that issue? I saw a <a href="https://groups.google.com/forum/#!starred/cp2k/2LI3YtlJYcg">similar question</a> (but not the same) on this forum with no answer.</div><div><br></div><div>I installed prerequisites without libxsmm, libvdwxc and sirius but toolchain returned successfully:<br></div><div><br></div><div><div class="prettyprint" style="background-color: rgb(250, 250, 250); border-color: rgb(187, 187, 187); border-style: solid; border-width: 1px; overflow-wrap: break-word;"><code class="prettyprint"><div class="subprettyprint"><div class="subprettyprint">./install_cp2k_toolchain.sh --with-libxsmm=no --with-libvdwxc=no --with-sirius=no</div></div></code></div><div><br></div>Then I successfully compiled the popt version of cp2k. I attach a make test log where almost all tests went ok.</div><div><br></div><div><div class="prettyprint" style="background-color: rgb(250, 250, 250); border-color: rgb(187, 187, 187); border-style: solid; border-width: 1px; overflow-wrap: break-word;"><code class="prettyprint"><div class="subprettyprint"><font color="#666600">make -j 64 ARCH=local VERSION=popt >make.log 2>&1</font><br></div></code></div><br><br></div></div>