Slurm ist ein sogennantes Batchsystem, d.h. es können Aufgaben (Jobs) an Slurm geschickt werden und es sorgt dann dafür, die Aufgabe bestmöglich und nach vordefinierten Regeln auf einem oder mehreren unserer Rechner auszuführen.
Grundsätzlich ist Slurm für alle Studenten und Mitarbeiter des Informatikinstituts da. Es ist auch keine weitere Anmeldung erforderlich.
Im allgemeinen gibt es keine Beschränkungen, wann man Jobs abschicken kann und auf welchen Rechnern man diese laufen lassen möchte. Allerdings führt Slurm keine neuen Jobs auf Rechnern aus, auf denen ein User angemeldet ist. Jobs die schon laufen werden, werden in diesem Fall angehalten.
Ja, mit dem Befehl sview gibt es eine grafische Oberfläche für Slurm. Der Befehl smap ist zwar nicht graphisch, bietet aber eine gute textuelle Oberfläche zu Slurm.
Alle Rechner in den studentischen Arbeitsplatzräumen der Informatik, mit Ausnahme der Clients in Deneb/Terminus, sind in Slurm.
Zusätzlich gibt es noch die Server der abakus Reihe. Diese haben leistungsfähigere NVIDIA Karten, wesentlich mehr Ram, großen und schnellen lokalen Speicher(SSD) und viele CPU Kerne. Außerdem sind die nicht als interaktive Arbeitsplatzrechner genutzt, Jobs dort werden also nie suspended.
Gute Begründungen sind unter anderem:
Es gibt prinzipiell zwei Wege einen Job an Slurm zu senden. Zum einen kann man den Job über die Kommandozeilenprogramme srun/sbatch abgeben, zum anderen kann man dies auch mit der graphischen Benutzerschnittstelle sview erledigen.
In beiden Fällen gilt, dass man ein Shell-Skript bereitstellen sollte, das benötigte Parameter setzt,
Slurm unterstützt heterogene Jobs. Allerdings lassen sich diese Jobs nur packweise anhalten und fortsetzen. Daher raten wir dringend von der Verwendung solcher Jobs ab, da man sich damit massive Nachteile bei der Job Ausführung einhandelt.
Wenn man mehrere QOS hat muss man beim submit die zu verwendende(n) QOS per ‘-q’ angeben. Ähnlich wie die Partition mit -p.
Mit dem Befehl squeue/sview können viele Eigenschaften von bereits abgesendeten Jobs nachgeschaut werden.
Mit scancel kann ein job wieder gelöscht werden. Näheres: “man scancel”