<div dir="ltr"><b>Thanks for your reply!</b><div><br></div><div>Here are two arch files for cp2k-2.1 and cp2k-4.1:</div><div><br></div><div><b>(1) cp2k-2.1: With openMPI-1.6.5, compiled with 4 cores, popt version</b></div><div><div>CC       = mpicc</div><div>CPP      =</div><div>FC       = mpif90</div><div>LD       = mpif90</div><div>AR       = ar -r</div><div>DFLAGS   = -D__INTEL -D__FFTSG -D__FFTW3 -D__parallel -D__BLACS -D__SCALAPACK -D__MKL</div><div>CPPFLAGS =</div><div><br></div><div>MKLROOT  = /public/software/compiler/intel/composer_xe_2015.2.164/mkl</div><div>INTEL_INC= /public/software/compiler/intel/composer_xe_2015.2.164/mkl/include</div><div>FFTW3_INC= /public/home/wj/Codes/fftw-3.3.4/include/</div><div>FCFLAGS  = $(DFLAGS) -I$(INTEL_INC) -I$(FFTW3_INC) -O2 -msse2 -heap-arrays 64 -funroll-loops -fpp -free</div><div>FCFLAGS2 = $(DFLAGS) -I$(INTEL_INC) -I$(FFTW3_INC) -O1 -msse2 -heap-arrays 64 -fpp -free</div><div>LDFLAGS  = $(FCFLAGS) -I$(INTEL_INC) -I$(FFTW3_INC)</div><div>LIBS     = /public/home/wj/Codes/fftw-3.3.4/lib/libfftw3.a  /public/software/compiler/intel/composer_xe_2015.2.164/mkl/lib/intel64/libmkl_scalapack_lp64.a   -Wl,--</div><div><br></div><div>start-group  /public/software/compiler/intel/composer_xe_2015.2.164/mkl/lib/intel64/libmkl_intel_lp64.a   </div><div><br></div><div>/public/software/compiler/intel/composer_xe_2015.2.164/mkl/lib/intel64/libmkl_sequential.a   </div><div><br></div><div>/public/software/compiler/intel/composer_xe_2015.2.164/mkl/lib/intel64/libmkl_core.a     </div><div><br></div><div>/public/software/compiler/intel/composer_xe_2015.2.164/mkl/lib/intel64/libmkl_blacs_openmpi_lp64.a   -Wl,--end-group -lpthread</div><div><br></div><div>OBJECTS_ARCHITECTURE = machine_intel.o</div><div><br></div><div>graphcon.o: graphcon.F</div><div>        $(FC) -c $(FCFLAGS2) $<</div></div><div><br></div><div><br></div><div><b>cp2k-4.1: Complied using 4 cores with openMPI_2.0.0, popt version</b></div><div><br></div><div><div>CC       = icc</div><div>#CPP      = /lib/cpp</div><div>FC       = mpif90 -FR</div><div>FC_fixed = mpif90 -FI</div><div>LD       = mpif90</div><div>AR       = /usr/bin/ar -r</div><div><br></div><div>FFTW_INC=${MKLROOT}/include/fftw</div><div>INTEL_INC=${MKLROOT}/include</div><div>DFLAGS   = -D__INTEL -D__FFTW3 -D__MKL -D__parallel -D__BLACS -D__SCALAPACK</div><div>CPPFLAGS = -C $(DFLAGS) -P -traditional -I${FFTW_INC} -I${INTEL_INC}</div><div>FCFLAGS  = -O2 -pc64 -unroll -heap-arrays 64 -xHost -fpp -free -I${FFTW_INC} -I${INTEL_INC}</div><div><br></div><div>LDFLAGS  = $(FCFLAGS) -L$(HOME)/lib -L${MKLROOT}/lib/intel64</div><div>LDFLAGS_C  = $(FCFLAGS) -L$(HOME)/lib -L${MKLROOT}/lib/intel64 -nofor_main</div><div>#If you want to use BLACS and SCALAPACK use the libraries below</div><div>LIBS     =  /public/software/compiler/intel/composer_xe_2015.2.164/mkl/lib/intel64/libmkl_scalapack_lp64.a   \</div><div>            -Wl,--start-group  /public/software/compiler/intel/composer_xe_2015.2.164/mkl/lib/intel64/libmkl_intel_lp64.a   \</div><div>            /public/software/compiler/intel/composer_xe_2015.2.164/mkl/lib/intel64/libmkl_sequential.a   \</div><div>            /public/software/compiler/intel/composer_xe_2015.2.164/mkl/lib/intel64/libmkl_core.a     \</div><div>            /public/software/compiler/intel/composer_xe_2015.2.164/mkl/lib/intel64/libmkl_blacs_openmpi_lp64.a   -Wl,--end-group -lpthread \</div><div>            ${MKLROOT}/interfaces/fftw3xf/libfftw3xf_intel.a</div><div>OBJECTS_ARCHITECTURE = machine_intel.o</div><div>graphcon.o: graphcon.F</div><div>        $(FC) -c $(FCFLAGS2) $<</div></div><div><br></div><div>Both jobs with cp2k-2.1 and cp2k-4.1 were carried out using 24 processor in one node without threading nor openMP. For cp2k-2.1, we use openMPI_1.6.5 and for cp2k-4.1 we use openMPI_2.0.0 which is same to the compiilation enviroment. </div><div><br></div><div>The job is a geo_opt task for amorphous solid system consisting of 216 atoms. Are the logs you mentioned  just the output files generated by cp2k?</div><div><br></div><div>在 2017年3月28日星期二 UTC+8下午4:42:20,Alfio Lazzaro写道:<blockquote class="gmail_quote" style="margin: 0;margin-left: 0.8ex;border-left: 1px #ccc solid;padding-left: 1ex;"><div dir="ltr">Hello,<div>unfortunately, it is not easy to answer this question without knowing more details...</div><div>First of all, which input you are running? Could you attach it? How many nodes, MPI ranks, threads you are using and which CP2K version (PSMP or POPT)?</div><div>I also assume that you are compiling the two CP2K with the same setup, i.e. compile options and library versions...</div><div>Could you attach the two logs? <br></div><div><br></div><div>The problem is that we should first understand where the MPI_wait are used. Indeed, it can be that CP2K 4.1 is using more MPI_wait in other places.</div><div><br></div><div>Alfio<br><br>Il giorno lunedì 27 marzo 2017 11:38:52 UTC+2, jim wang ha scritto:<blockquote class="gmail_quote" style="margin:0;margin-left:0.8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Hi, everybody!<div><br></div><div>I am using cp2k 4.1 for the testing in our new cluster. But strangly, the result showed that the cp2k 4.1 version is 3 to 4 times slower than cp2k 2.1 version built on the same cluster. After examining the output file genertated by both binary file running the same job, I found out that the MPI_wait function may be the key problem.</div><div><br></div><div>Here is the result of time consumed by MPI_wait function:</div><div>1. cp2k 4.1: MPI_wait time:1131(s) , Total run time: 1779(s)</div><div>2. cp2k 2.1: MPI_wait time:68(s), Total run time: 616(s)</div><div><br></div><div>How can I determine whether the problem should be with our cluster or the compilation?</div><div>Hope you guys can give me some hints on the version comparison.</div><div><br></div><div>THANKS!!!</div></div></blockquote></div></div></blockquote></div></div>