Hello,<div>we are facing freeze using CP2K on our HPC cluster.</div><div>We have totally 94 Dell server but running cp2k v9.1 compiled with
intel compiler and linked with intel mpi library, customer is experiencing
running freeze.<div>

<p>No matter the number or the type of
involved nodes.</p>

<p>The freeze happens randomly, not at
the same interaction number, even using the same running command and the same
dataset for input.</p>

<p>Looking at processes status on nodes
when freeze occurs, they seem to be running, using CPU but, if we try to attach
to any process (and forked children of course), we can see that they all are
sitting on a wait system call for data coming (orout going) from (to) a pipe.</p>

<p>No other systems call are run by
processes…</p>

<p>Slurm thinks that job is still
running.</p>

<p>Killing one of the stuck processes
causes the death of orher processes and finally slurm realizes that job has
crashed.</p>

<p>Is this behaviour usual in same
circumstances (and therefore customer has something to do to avoid it) or could
it be caused by some other reason (cp2k compilation, mpi version, intel
compilers version)?</p>

<p>Is there any way to have a debugging
execution of cp2k/mpi with a more or less verbose output in order to understand
at which point/call does the freeze happen?</p>

<p> Regards</p><p>Salvatore</p></div></div>

<p></p>

-- <br />
You received this message because you are subscribed to the Google Groups "cp2k" group.<br />
To unsubscribe from this group and stop receiving emails from it, send an email to <a href="mailto:cp2k+unsubscribe@googlegroups.com">cp2k+unsubscribe@googlegroups.com</a>.<br />
To view this discussion on the web visit <a href="https://groups.google.com/d/msgid/cp2k/2bffd2de-1afd-4980-b3aa-6438990d81a9n%40googlegroups.com?utm_medium=email&utm_source=footer">https://groups.google.com/d/msgid/cp2k/2bffd2de-1afd-4980-b3aa-6438990d81a9n%40googlegroups.com</a>.<br />