Kontakt

Porträt Dr. Schulz, Henrik; FWCI

Photo: HZDR / Oliver Killig

Dr. Henrik Schulz

Lei­ter IT Infra­struk­tur
h.schulzAthzdr.de
Tel.: +49 351 260 3268

Zugang zum Cluster

  • Der Zugang zu den HPC-Ressourcen am HZDR ist beschränkt. Er muß freigegeben werden.
  • Das hemera Cluster ist im HZDR-LAN über die Login-Knoten hemera4 bzw. hemera5 erreichbar.
  • Auf den Login-Knoten des hemera-Clusters sind die spezifischen Kommandos von SLURM zu verwenden, um Cluster-Jobs abzusetzen.
  • Plattenspeicherplatz steht auf dem Cluster nur für laufende Rechnungen in ausreichendem Maße zur Verfügung. Es wird dringend empfohlen, Daten auf dem gss-Fileserver (/bigdata) zu lagern.
  • Angaben zum Zustand der Warteschlangen, der abgesetzten Jobs in den Warteschlangen und der Knoten liefern der grafische Client sview auf hemera.
  • Das Starten von ressourcenintensiven Jobs auf den Login-Knoten ist nicht gestattet. Grafische Auswertungen sowie interaktive Programme können per interaktivem qsub (qsub -I) durchgeführt werden.

Ausstattung der HPC-Cluster am HZDR

hemera

Übersicht der Knoten

Anzahl Typ Name CPU-Kerne CPU-Typ RAM GPUs pro Knoten GPU-Typ Grafikspeicher pro GPU
2 Kopfknoten hemera1/hemera2 32 Intel 16-Core Xeon 3,2 GHz 256 GB
2 Login- und Submit-Knoten hemera4/hemera5 32 Intel 16-Core Xeon 2,1 GHz 256 GB
90 Rechenknoten csk001 - csk068, csk077 - csk098 40 Intel 20-Core Xeon 2,4 GHz 384 GB
8 Rechenknoten csk069 - csk076 40 Intel 20-Core Xeon 2,4 GHz 768 GB
28 Rechenknoten cro001 - cro028 128 AMD 64-Core Epyc 7702 2,0 GHz 512 GB
6 Rechenknoten cmi001 - cmi006 128 AMD 64-Core Epyc 7713 2,0 GHz 512 GB
26 Rechenknoten cmi007 - cmi032 128 AMD 64-Core Epyc 7713 2,0 GHz 1024 GB
26 Rechenknoten cge001 - cge026 192 AMD 96-Core Epyc 9654 2,4 GHz 1536 GB
10 GPU-Rechenknoten gp001 - gp010 24 Intel 12-Core Xeon 3,0 GHz 384 GB 4 Nvidia Tesla P100 16 GB
32 GPU-Rechenknoten gv001 - gv032 24 Intel 12-Core Xeon 3,0 GHz 384 GB 4 Nvidia Tesla V100 32 GB
5 GPU-Rechenknoten ga001 - ga005 64 AMD 32-Core Epyc 7282 2,8 GHz 512 GB 4 Nvidia Tesla A100 40 GB
4 GPU-Rechenknoten ga006 - ga009 32 AMD 16-Core Epyc 7302 3,0 GHz 1024 GB 8 Nvidia Tesla A100 40 GB
6 GPU-Rechenknoten ga010 - ga015 128 AMD 64-Core Epyc 7763 2,4 GHz 4096 GB 4 Nvidia Tesla A100 80 GB
1 GPU-Hotel h001 24 Intel 12-Core Xeon 3,0 GHz 96 GB max. 4 versch.
1 FPGA-Rechenknoten h002 24 Intel 12-Core Xeon 3,0 GHz 384 GB 2 Xilinx Alveo U200
4 Rechenknoten intel015 - intel018 32 Intel 16-Core Xeon 2,3 GHz 128 GB
20 Rechenknoten intel019 - intel038 32 Intel 16-Core Xeon 2,3 GHz 256 GB
11 Rechenknoten fluid021 - fluid031 32 Intel 16-Core Xeon 2,3 GHz 128 GB
10 Rechenknoten ion027 - ion036 32 Intel 16-Core Xeon 2,3 GHz 256 GB
1 Rechenknoten ion039 32 Intel 16-Core Xeon 2,3 GHz 256 GB
12 Rechenknoten fluid033 - fluid044 32 Intel 16-Core Xeon 2,3 GHz 128 GB
2 Rechenknoten chem001 - chem002 32 Intel 16-Core Xeon 2,3 GHz 256 GB
7 Rechenknoten reac007 - reac013 32 Intel 16-Core Xeon 2,3 GHz 256 GB

Übersicht der Warteschlangen

Partition * Walltime (max) Knotenreservierung Zugang max Jobs/Nutzer max CPU/Nutzer Startpriorität
defq 96:00:00 csk001-csk068,csk077-csk098 frei 128 ** 960 **  
mem768 96:00:00 csk069-csk076 frei 128 ** 960 **  
rome 96:00:00 cro001-cro028 frei 128 ** 960 **  
reac2 96:00:00 cmi001-cmi012 FWOR   1536  
milan 96:00:00 cmi013-cmi032 frei 128 ** 960 **  
genoa 96:00:00 cge001-cge002 frei 128 ** 960 **  
casus_genoa 96:00:00 cge003-cge026 FWU 128 ** 960 **  
gpu_p100 48:00:00 gp001-gp010 frei   32 GPUs  
gpu_v100 48:00:00 gv025 frei   4 GPUs  
hotel 48:00:00 h001 auf Anfrage      
fpga 48:00:00 h002 FWC      
intel,intel_32 96:00:00 intel015-intel038, fluid021-fluid044, ion027-ion036, chem001-chem002, reac007-reac013 frei 128 ** 960 **  
casus 48:00:00 gv001-gv021, gv023-gv024 FWU 23 92 GPUs  
fwkt_v100 24:00:00 gv001-gv021, gv023-gv024 FWKT 23 92 GPUs  
fwkh_v100 24:00:00 gv001-gv021, gv023-gv024 FWKH 23 92 GPUs  
hlab 48:00:00 gv026-gv032 FWKT 7 28 GPUs  
haicu_v100 48:00:00 gv022 FWCC   4 GPUs  
haicu_a100 48:00:00 ga001-ga003 FWCC   12 GPUs  
circ_a100 48:00:00 ga006-ga009 FWG   32 GPUs  
casus_a100 48:00:00 ga010-ga015 FWU   24 GPUs  

* Zu den Partitionen defq, intel, gpu, k20 und k80 existieren noch die Partitionen defq_low, intel_low, gpu_low, k20_low und k80_low, in denen Jobs mit längerer Walltime abgesetzt werden können, jedoch werden diese Jobs beendet, wenn in den Haupt-Partitionen Ressourcen benötigt werden. Der Nutzer ist selbst dafür verantwortlich, Checkpoint/Restart zu implementieren.

** In den Partitionen defq, rome und intel sind die angegebenen Jobs Pro Nutzer und CPUs pro Nutzer in der Summe verfügbar, nicht pro Partition.

Installierte Software

Alle Anwendungsprogramme, Compiler und Bibliotheken sind mit Hilfe der modules-Umgebung nutzbar. Das Kommando "module avail" liefert eine Liste der installierten Programme.