<div dir="ltr">Hi Andreas,<div><br></div><div>You are right there could be an issue with the number of MPI ranks used for the test cases. Initially, I had experiments performed with 128 MPI ranks for all the 3 tests cases and received a warning suggesting to use squared MPI ranks and hence 2.7 (tuned and untuned) test case was performed with 121 ranks. The conclusion is that there was a very minor difference with the use of 128 or 121 for version 2.7 and still they significantly slower wen compared to 2.6.</div><div><br></div><div>2.6 (fastest) : 128 MPI ranks</div><div>2.7 tuned with LIBSMM : 121 ranks</div><div>2.7 w/o LIBSMM : 121 ranks</div><div><br></div><div>Abhishek</div><div><br>On Monday, June 29, 2015 at 3:43:01 AM UTC-4, Andreas Glöss wrote:<blockquote class="gmail_quote" style="margin: 0;margin-left: 0.8ex;border-left: 1px #ccc solid;padding-left: 1ex;"><div dir="ltr">Hi Abhishek,<br><br>I just had a quick look at your outputs. You are not using the same number of MPI ranks for your experiment (Total number of message passing processes: 128/121), maybe some default was changed?<br>Even thought the larger, non-square number of MPI ranks is not optimal for MPI performance, it might improve local multiplications and pdsyevd due to smaller data portions.<br><br>Andreas<br><br></div></blockquote></div></div>