<div dir="ltr">Good morning!<br><br>Our group is running BOMD simulations in one unit cell of ZIF-8 crystal (276 atoms, cubic system of side 16.9856 A).<br><br>With the following setup,<br>PBE with GTH-TZV2P basis and GTH pseudopotentials (700 Ry cutoff)<br>we have noticed that there is no benefit in using more than one core in a quadcore processor;<br>on the other hand, the code scaled very well increasing the number of different processors (sockets).<br><br>Example of Non Scaling:<br>Having a machine with four processors (sockets), each processor with four cores (xeon X7350),<br>running 4 MPI, one per each socket, takes 55 seconds per OT-DIIS,<br>while running 8 MPI, two per socket, takes 41 seconds,<br>while running 16 MPI, all cores, takes 40 seconds.<br>This same NON-SCALING behavior across multiple cores of the same processor has been observed<br>also on a i5-2550K intel processor.<br>Moreover, the behavior is the same using threads or mixing MPI and threads (OpenMP).<br><br>Example of Scaling:<br>The same system, using hybrid functionals,<br>scales more than linearly with the number of cores:<br>16MPI go more than 4 times faster than 4MPI.<br>(Even thought the time required for an MD step becomes<br>prohibitive to think about doing such calculations!)<br><br>Considerations:<br>On this basis, it seems that our PBE simulations are not computationally expensive.<br>The limiting factor seems to be the cache, i.e. increasing number of<br>sockets the cache increases and so does the speed of the simulations.<br><br>Questions:<br>Do you agree with this analysis?<br>Is there a way to improve the speed of our PBE computations (for example, some option to reduce the<br>amount of data to be transferred between RAM and cache)?<br><br>Thanks a lot for the attention,<br>best regards,<br>Marco and Andrea<br></div>