<br>> You are right, padb will use the "jobid" that orte had allocated the job
 rather than the id that <br>> Gridengine has given it but the tight 
integration mighy have changed the orte behaviour.  I see <br>> this with mpd 
(Mpich2) and PBS as well where PBS sets an environment variable which 
causes <br>> mpd to store it's temporary files under a different filename. 
 Unfortunately this is very hard to get <br>> around.<br>
<br>In particular, I found this to be from these lines in mpirun (from Intel mpi 4.0.0)<br><span style="font-family: arial,helvetica,sans-serif;">---------------</span><br style="font-family: arial,helvetica,sans-serif;">
<span style="font-family: arial,helvetica,sans-serif;">if [ -n "$PBS_ENVIRONMENT" ] ; then</span><br style="font-family: arial,helvetica,sans-serif;"><span style="font-family: arial,helvetica,sans-serif;">    export MPD_CON_EXT="${PBS_JOBID}_$$" # PBS Pro and Torque</span><br style="font-family: arial,helvetica,sans-serif;">
<span style="font-family: arial,helvetica,sans-serif;">(lines deleted)</span><br style="font-family: arial,helvetica,sans-serif;"><span style="font-family: arial,helvetica,sans-serif;">elif [ -n "$MP_JOBID" ] ; then</span><br style="font-family: arial,helvetica,sans-serif;">
<span style="font-family: arial,helvetica,sans-serif;">    export MPD_CON_EXT="${MP_JOBID}_$$" # SGE</span><br style="font-family: arial,helvetica,sans-serif;"><span style="font-family: arial,helvetica,sans-serif;">---------------</span><br>
The environment variable MPD_CON_EXT is used by mpdboot to add an extension to both the socket /tmp/mpd2.console_<username> and the logfile /tmp/mpd2.logfile_<username><br><br>For padb I add my own wrapper to add the (known) PBS_JOBID to MPD_CON_EXT<br>
(The processes id thought needs to be found by inspection)<br>padb appears to call mpdlistjobs  which itself honours MPD_CON_EXT.<br><br>Hope this helps,<br><br>Daniel<br><br><br><br><div class="gmail_quote">On 12 July 2010 14:01, Ashley Pittman <span dir="ltr"><<a href="mailto:ashley@pittman.co.uk">ashley@pittman.co.uk</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;"><br>
On 9 Jul 2010, at 15:32, Dave Love wrote:<br>
<br>
> Ashley Pittman <<a href="mailto:ashley@pittman.co.uk">ashley@pittman.co.uk</a>> writes:<br>
><br>
> I assumed Gridengine is relevant (a) in referring to `jobs', and (b) in<br>
> that I think the OpenMPI tight integration is relevant, at least because<br>
> it seems ompi-ps appears to be looking in the wrong place for files.<br>
<br>
You are right, padb will use the "jobid" that orte had allocated the job rather than the id that Gridengine has given it but the tight integration mighy have changed the orte behaviour.  I see this with mpd (Mpich2) and PBS as well where PBS sets an environment variable which causes mpd to store it's temporary files under a different filename.  Unfortunately this is very hard to get around.<br>

<br>
> That's easy, but neither mpirun nor orte work.  With mpirun I get<br>
><br>
> Error, resource manager "mpirun" not supported<br>
<br>
You need to use the 3.2 beta release for this, I keep forgetting it's not in 3.0.  When using this method of attaching to jobs you have to run padb on the host where the "mpirun" process is running and the jobid will be the pid of that process.  Padb use pdsh to launch itself on the nodes so you'll need to have this installed if you haven't already.<br>

<br>
> and orte doesn't find any jobs because ompi-ps doesn't.  I'll try to<br>
> figure out what's going on when I get some time.<br>
<br>
Unfortunately without a working ompi-os padb has no way of collecting the information it needs so the orte resource manager won't work for you in this case, you could on the opmi-users list to see if there is anything they recommend, as above we managed to get this working on MPICH2 recently by asking users to unset PBS_JOBID in their job script.<br>

<br>
Ashley,<br>
<br>
--<br>
<br>
Ashley Pittman, Bath, UK.<br>
<br>
Padb - A parallel job inspection tool for cluster computing<br>
<a href="http://padb.pittman.org.uk" target="_blank">http://padb.pittman.org.uk</a><br>
<br>
<br>
_______________________________________________<br>
padb-users mailing list<br>
<a href="mailto:padb-users@pittman.org.uk">padb-users@pittman.org.uk</a><br>
<a href="http://pittman.org.uk/mailman/listinfo/padb-users_pittman.org.uk" target="_blank">http://pittman.org.uk/mailman/listinfo/padb-users_pittman.org.uk</a><br>
</blockquote></div><br>