Slurm

Was ist Slurm und wer darf es benutzen

Slurm ist ein sogennantes Batchsystem, d.h. es können Aufgaben (Jobs) an Slurm geschickt werden und es sorgt dann dafür, die Aufgabe bestmöglich und nach vordefinierten Regeln auf einem oder mehreren unserer Rechner auszuführen.

Grundsätzlich ist Slurm für alle Studenten und Mitarbeiter des Informatikinstituts da. Es ist auch keine weitere Anmeldung erforderlich.

Im allgemeinen gibt es keine Beschränkungen, wann man Jobs abschicken kann und auf welchen Rechnern man diese laufen lassen möchte. Allerdings führt Slurm keine neuen Jobs auf Rechnern aus, auf denen ein User angemeldet ist. Jobs die schon laufen werden, werden in diesem Fall angehalten.

Wie funktioniert Slurm

Gibt es eine grafische Benutzerschnittstelle

Ja, mit dem Befehl sview gibt es eine grafische Oberfläche für Slurm. Der Befehl smap ist zwar nicht graphisch, bietet aber eine gute textuelle Oberfläche zu Slurm.

Welche Rechner sind angeschlossen

Alle Rechner in den studentischen Arbeitsplatzräumen der Informatik, mit Ausnahme der Clients in Deneb/Terminus, sind in Slurm.

Zusätzlich gibt es noch die Server der abakus Reihe. Diese haben leistungsfähigere NVIDIA Karten, wesentlich mehr Ram, großen und schnellen lokalen Speicher(SSD) und viele CPU Kerne. Außerdem sind die nicht als interaktive Arbeitsplatzrechner genutzt, Jobs dort werden also nie suspended.

Welche Limits existieren

Gute Begründungen sind unter anderem:

Wie schickt man Jobs ab

Es gibt prinzipiell zwei Wege einen Job an Slurm zu senden. Zum einen kann man den Job über die Kommandozeilenprogramme srun/sbatch abgeben, zum anderen kann man dies auch mit der graphischen Benutzerschnittstelle sview erledigen.

In beiden Fällen gilt, dass man ein Shell-Skript bereitstellen sollte, das benötigte Parameter setzt,

Slurm unterstützt heterogene Jobs. Allerdings lassen sich diese Jobs nur packweise anhalten und fortsetzen. Daher raten wir dringend von der Verwendung solcher Jobs ab, da man sich damit massive Nachteile bei der Job Ausführung einhandelt.

Wenn man mehrere QOS hat muss man beim submit die zu verwendende(n) QOS per ‘-q’ angeben. Ähnlich wie die Partition mit -p.

Wie kann ich abgeschickte Jobs bearbeiten

Mit dem Befehl squeue/sview können viele Eigenschaften von bereits abgesendeten Jobs nachgeschaut werden.

Mit scancel kann ein job wieder gelöscht werden. Näheres: “man scancel”

Was mache ich bei Fehlern

Welche Art von Aufgaben ist Slurm geeignet

Kommandozeilenbefehle-Uebersicht


Verweise

Externe Infos