<div dir="ltr"><div>Did you build OpenMPI to be CUDA-aware? I don't know if things changed from OpenMPI 2.X to 3.X but it used to be something you specified at the configure stage.<br></div><div><br></div><div>https://www.open-mpi.org/faq/?category=buildcuda</div><div><br></div><div>Your boost is limited to ([#threads - #gpus] + [#gpus*#speedup]) / #threads, so it may be worth asking whether it is worth sinking so much time into. Adding a single P100 (~5 TFLOPs in double precision) to a Xeon 4108 (16 threads, ~0.2 TFLOPS) would give about 2.5x the performance, while jumping to a Xeon 8180 (56 threads, ~2 TFLOPS) would give a boost of less than 3%.<br></div><div><br></div><div>-T</div><div><br></div><div></div><div><br></div>On Friday, May 17, 2019 at 4:08:51 PM UTC-3, David Gunter wrote:<blockquote class="gmail_quote" style="margin: 0;margin-left: 0.8ex;border-left: 1px #ccc solid;padding-left: 1ex;"><div dir="ltr">I have also attempted the same build process using only GCC-7.4.0 with no MKL. I get the same segfault behavior</div></blockquote></div>