<div dir="ltr">Hi,<div><br></div><div>Final question, again dumb l(ike the memory/swapping earlier - you've definitely not linked to threaded libraries? If your MKL or FFTW3 are threaded then it could saturate the box...</div><div><br></div><div>Other than that, apart from the GAPW suggestion which, maybe could bring the data transfer below saturation point on your system. I think you need more processors...</div><div><br></div><div>Matt</div><div><br></div><div>On Thursday, March 20, 2014 12:15:06 PM UTC, labicia wrote:<blockquote class="gmail_quote" style="margin: 0;margin-left: 0.8ex;border-left: 1px #ccc solid;padding-left: 1ex;"><div dir="ltr">Hi!<br><br>1) Reducing the cutoff improves the speed but the scaling stays the same.<br><br>2) As you suggested, we will try the GAPW method.<br><br>3) We are using FFTs in double precision, is this a waste?<br><br></div></blockquote><div> </div><blockquote class="gmail_quote" style="margin: 0;margin-left: 0.8ex;border-left: 1px #ccc solid;padding-left: 1ex;"><div dir="ltr">Thank you very much,<br>Marco and Andrea<br></div></blockquote></div></div>