User Tools

Site Tools


calcul:cluster:files_d_attente

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
calcul:cluster:files_d_attente [2014/05/09 11:27]
stephane caminade created
calcul:cluster:files_d_attente [2025/07/29 10:32] (current)
stephane caminade
Line 1: Line 1:
-===== Coprocesseurs ===== +Les files d'​attente définies sont les suivantes : 
-^ SolarOrbiter | 1 R720+2K20 | +
-^ K20 | 2 R270+2K20 | +
-^ PHI | 2 R720+2PHI | +
-^ ERM_COPRO | 1 R720+2K20 et 2 R720+2PHI |  +
-^ **COPRO** | **2 R720+2K20 et 2 R720+2PHI **| +
  
 +^ cpu_only | cluster-r640-1,​cluster-r730-[1-5],​cluster-r820-[1-2],​cluster-r820-4,​cluster-r7525-1 |
 +^ GPU | cluster-r7920-[1-2],​cluster-r7960-[1-2] |
 +^ byopic | cluster-r730-[4-5] |
  
-===== Processeurs seuls ===== +===== Priorités ​===== 
-^ MISTIC | 2 R720 + 2 R820 | +Plus la valeur est élevée, plus la file d'​attente est prioritaire.
-^ MIC | 1 R820 | +
-^ HERSCHEL | 1 R820 | +
-^ **CPU_ONLY** | 4 R820 et 2 R720 |+
  
-===== Ensemble des machines ===== +<color red>**Un job dans une file d'​attente prioritaire suspendra l'​exécution d'un job alloué dans une file de priorité inférieure.**</​color>​ 
-^ **ALL** | **Tous les noeuds** |+ 
 +^ File d'​attente ^ Priorité | 
 +^ ALL |  1  | 
 +^ CPU_ONLY |  1  | 
 +^ GPU |  60  | 
 + 
 +==== Exemple ​==== 
 +Si on considère une liste de jobs alloués dans la file de plus basse priorité, ​ALL 
 +<​code>​ 
 +root@cluster-head:​~#​ squeue -l 
 +Mon Feb 22 15:06:28 2016 
 +             JOBID PARTITION ​    ​NAME ​    ​USER ​   STATE       TIME TIMELIMIT ​ NODES NODELIST(REASON) 
 +              2115       ​K20 ​    bash scaminad ​ RUNNING ​     54:49 UNLIMITED ​     1 cluster-r720-k20-1 
 +              2131       ​all ​ MPI IDL  abeelen ​ RUNNING ​      0:59 UNLIMITED ​     1 cluster-r820-2 
 +              2130       ​all ​ MPI IDL  abeelen ​ RUNNING ​      1:27 UNLIMITED ​     1 cluster-r820-1 
 +              2128       ​all ​ MPI IDL  abeelen ​ RUNNING ​      5:30 UNLIMITED ​     1 cluster-r730-k20-1 
 +              2125       ​all ​ MPI IDL  abeelen ​ RUNNING ​     23:07 UNLIMITED ​     1 cluster-r720-phi-2 
 +              2124       ​all ​ MPI IDL  abeelen ​ RUNNING ​     24:14 UNLIMITED ​     1 cluster-r720-phi-1 
 +              2123       ​all ​ MPI IDL  abeelen ​ RUNNING ​     23:05 UNLIMITED ​     1 cluster-r720-k20-2 
 +              2122       ​all ​ MPI IDL  abeelen ​ RUNNING ​     26:42 UNLIMITED ​     1 cluster-r720-2 
 +              2121       ​all ​ MPI IDL  abeelen ​ RUNNING ​     27:28 UNLIMITED ​     1 cluster-r720-1 
 +</​code>​ 
 +Et qu'on fait une allocation dans une file de priorité supérieure à celle de ALL : 
 +<​code>​ 
 +root@cluster-head:​~#​ salloc -N 2 -p K20 --exclusive 
 +salloc: Granted job allocation 2132 
 +root@cluster-head:​~#​ squeue ​ -l 
 +Mon Feb 22 15:06:40 2016 
 +             JOBID PARTITION ​    ​NAME ​    ​USER ​   STATE       TIME TIMELIMIT ​ NODES NODELIST(REASON) 
 +              2132       ​K20 ​    ​bash ​    ​root ​ RUNNING ​      0:04 UNLIMITED ​     2 cluster-r720-k20-2,​cluster-r730-k20-1 
 +              2115       ​K20 ​    bash scaminad ​ RUNNING ​     55:01 UNLIMITED ​     1 cluster-r720-k20-1 
 +              2131       ​all ​ MPI IDL  abeelen ​ RUNNING ​      1:11 UNLIMITED ​     1 cluster-r820-2 
 +              2130       ​all ​ MPI IDL  abeelen ​ RUNNING ​      1:39 UNLIMITED ​     1 cluster-r820-1 
 +              2125       ​all ​ MPI IDL  abeelen ​ RUNNING ​     23:19 UNLIMITED ​     1 cluster-r720-phi-2 
 +              2124       ​all ​ MPI IDL  abeelen ​ RUNNING ​     24:26 UNLIMITED ​     1 cluster-r720-phi-1 
 +              2122       ​all ​ MPI IDL  abeelen ​ RUNNING ​     26:54 UNLIMITED ​     1 cluster-r720-2 
 +              2121       ​all ​ MPI IDL  abeelen ​ RUNNING ​     27:40 UNLIMITED ​     1 cluster-r720-1 
 +              2128       ​all ​ MPI IDL  abeelen SUSPENDE ​      5:38 UNLIMITED ​     1 cluster-r730-k20-1 
 +              2123       ​all ​ MPI IDL  abeelen SUSPENDE ​     23:13 UNLIMITED ​     1 cluster-r720-k20-2 
 +</​code>​ 
 +Les 2 jobs qui tournaient sur des machines de la file K20 se retrouvent suspendus.
calcul/cluster/files_d_attente.1399627623.txt.gz · Last modified: 2014/05/09 11:27 by stephane caminade