User Tools

Site Tools


calcul:cluster:files_d_attente

Les files d'attente définies sont les suivantes :

cpu_only cluster-r640-1,cluster-r730-[1-5],cluster-r820-[1-2],cluster-r820-4,cluster-r7525-1
GPU cluster-r7920-[1-2],cluster-r7960-[1-2]
byopic cluster-r730-[4-5]

Priorités

Plus la valeur est élevée, plus la file d'attente est prioritaire.

Un job dans une file d'attente prioritaire suspendra l'exécution d'un job alloué dans une file de priorité inférieure.

File d'attente Priorité
ALL 1
CPU_ONLY 1
GPU 60

Exemple

Si on considère une liste de jobs alloués dans la file de plus basse priorité, ALL :

root@cluster-head:~# squeue -l
Mon Feb 22 15:06:28 2016
             JOBID PARTITION     NAME     USER    STATE       TIME TIMELIMIT  NODES NODELIST(REASON)
              2115       K20     bash scaminad  RUNNING      54:49 UNLIMITED      1 cluster-r720-k20-1
              2131       all  MPI IDL  abeelen  RUNNING       0:59 UNLIMITED      1 cluster-r820-2
              2130       all  MPI IDL  abeelen  RUNNING       1:27 UNLIMITED      1 cluster-r820-1
              2128       all  MPI IDL  abeelen  RUNNING       5:30 UNLIMITED      1 cluster-r730-k20-1
              2125       all  MPI IDL  abeelen  RUNNING      23:07 UNLIMITED      1 cluster-r720-phi-2
              2124       all  MPI IDL  abeelen  RUNNING      24:14 UNLIMITED      1 cluster-r720-phi-1
              2123       all  MPI IDL  abeelen  RUNNING      23:05 UNLIMITED      1 cluster-r720-k20-2
              2122       all  MPI IDL  abeelen  RUNNING      26:42 UNLIMITED      1 cluster-r720-2
              2121       all  MPI IDL  abeelen  RUNNING      27:28 UNLIMITED      1 cluster-r720-1

Et qu'on fait une allocation dans une file de priorité supérieure à celle de ALL :

root@cluster-head:~# salloc -N 2 -p K20 --exclusive
salloc: Granted job allocation 2132
root@cluster-head:~# squeue  -l
Mon Feb 22 15:06:40 2016
             JOBID PARTITION     NAME     USER    STATE       TIME TIMELIMIT  NODES NODELIST(REASON)
              2132       K20     bash     root  RUNNING       0:04 UNLIMITED      2 cluster-r720-k20-2,cluster-r730-k20-1
              2115       K20     bash scaminad  RUNNING      55:01 UNLIMITED      1 cluster-r720-k20-1
              2131       all  MPI IDL  abeelen  RUNNING       1:11 UNLIMITED      1 cluster-r820-2
              2130       all  MPI IDL  abeelen  RUNNING       1:39 UNLIMITED      1 cluster-r820-1
              2125       all  MPI IDL  abeelen  RUNNING      23:19 UNLIMITED      1 cluster-r720-phi-2
              2124       all  MPI IDL  abeelen  RUNNING      24:26 UNLIMITED      1 cluster-r720-phi-1
              2122       all  MPI IDL  abeelen  RUNNING      26:54 UNLIMITED      1 cluster-r720-2
              2121       all  MPI IDL  abeelen  RUNNING      27:40 UNLIMITED      1 cluster-r720-1
              2128       all  MPI IDL  abeelen SUSPENDE       5:38 UNLIMITED      1 cluster-r730-k20-1
              2123       all  MPI IDL  abeelen SUSPENDE      23:13 UNLIMITED      1 cluster-r720-k20-2

Les 2 jobs qui tournaient sur des machines de la file K20 se retrouvent suspendus.

calcul/cluster/files_d_attente.txt · Last modified: 2025/07/29 10:32 by stephane caminade