Kontakt

Porträt Dr. Schulz, Henrik; FWCI — Photo: HZDR / Oliver Killig

Dr. Henrik Schulz

Leiter IT Infrastruktur
h.schulzhzdr.de
Tel.: +49 351 260 3268

Zugang zum Cluster

Der Zugang zu den HPC-Ressourcen am HZDR ist beschränkt. Er muß freigegeben werden.
Das hemera Cluster ist im HZDR-LAN über die Login-Knoten hemera4 bzw. hemera5 erreichbar.
Auf den Login-Knoten des hemera-Clusters sind die spezifischen Kommandos von SLURM zu verwenden, um Cluster-Jobs abzusetzen.
Plattenspeicherplatz steht auf dem Cluster nur für laufende Rechnungen in ausreichendem Maße zur Verfügung. Es wird dringend empfohlen, Daten auf dem gss-Fileserver (/bigdata) zu lagern.
Angaben zum Zustand der Warteschlangen, der abgesetzten Jobs in den Warteschlangen und der Knoten liefern der grafische Client sview auf hemera.
Das Starten von ressourcenintensiven Jobs auf den Login-Knoten ist nicht gestattet. Grafische Auswertungen sowie interaktive Programme können per interaktivem qsub (qsub -I) durchgeführt werden.

Ausstattung der HPC-Cluster am HZDR

hemera

Übersicht der Knoten

Anzahl	Typ	Name	CPU-Kerne	CPU-Typ	RAM	GPUs pro Knoten	GPU-Typ	Grafikspeicher pro GPU
2	Kopfknoten	hemera1/hemera2	32	Intel 16-Core Xeon 3,2 GHz	256 GB
2	Login- und Submit-Knoten	hemera4/hemera5	32	Intel 16-Core Xeon 2,1 GHz	256 GB
90	Rechenknoten	csk001 - csk068, csk077 - csk098	40	Intel 20-Core Xeon 2,4 GHz	384 GB
8	Rechenknoten	csk069 - csk076	40	Intel 20-Core Xeon 2,4 GHz	768 GB
28	Rechenknoten	cro001 - cro028	128	AMD 64-Core Epyc 7702 2,0 GHz	512 GB
6	Rechenknoten	cmi001 - cmi006	128	AMD 64-Core Epyc 7713 2,0 GHz	512 GB
26	Rechenknoten	cmi007 - cmi032	128	AMD 64-Core Epyc 7713 2,0 GHz	1024 GB
26	Rechenknoten	cge001 - cge026	192	AMD 96-Core Epyc 9654 2,4 GHz	1536 GB
10	GPU-Rechenknoten	gp001 - gp010	24	Intel 12-Core Xeon 3,0 GHz	384 GB	4	Nvidia Tesla P100	16 GB
32	GPU-Rechenknoten	gv001 - gv032	24	Intel 12-Core Xeon 3,0 GHz	384 GB	4	Nvidia Tesla V100	32 GB
5	GPU-Rechenknoten	ga001 - ga005	64	AMD 32-Core Epyc 7282 2,8 GHz	512 GB	4	Nvidia Tesla A100	40 GB
4	GPU-Rechenknoten	ga006 - ga009	32	AMD 16-Core Epyc 7302 3,0 GHz	1024 GB	8	Nvidia Tesla A100	40 GB
6	GPU-Rechenknoten	ga010 - ga015	128	AMD 64-Core Epyc 7763 2,4 GHz	4096 GB	4	Nvidia Tesla A100	80 GB
1	GPU-Hotel	h001	24	Intel 12-Core Xeon 3,0 GHz	96 GB	max. 4	versch.
1	FPGA-Rechenknoten	h002	24	Intel 12-Core Xeon 3,0 GHz	384 GB	2	Xilinx Alveo U200
4	Rechenknoten	intel015 - intel018	32	Intel 16-Core Xeon 2,3 GHz	128 GB
20	Rechenknoten	intel019 - intel038	32	Intel 16-Core Xeon 2,3 GHz	256 GB
11	Rechenknoten	fluid021 - fluid031	32	Intel 16-Core Xeon 2,3 GHz	128 GB
10	Rechenknoten	ion027 - ion036	32	Intel 16-Core Xeon 2,3 GHz	256 GB
1	Rechenknoten	ion039	32	Intel 16-Core Xeon 2,3 GHz	256 GB
12	Rechenknoten	fluid033 - fluid044	32	Intel 16-Core Xeon 2,3 GHz	128 GB
2	Rechenknoten	chem001 - chem002	32	Intel 16-Core Xeon 2,3 GHz	256 GB
7	Rechenknoten	reac007 - reac013	32	Intel 16-Core Xeon 2,3 GHz	256 GB

Übersicht der Warteschlangen

Partition *	Walltime (max)	Knotenreservierung	Zugang	max Jobs/Nutzer	max CPU/Nutzer
defq	96:00:00	csk001-csk068,csk077-csk098	frei	128 **	960 **
mem768	96:00:00	csk069-csk076	frei	128 **	960 **
rome	96:00:00	cro001-cro028	frei	128 **	960 **
reac2	96:00:00	cmi001-cmi012	FWOR		1536
milan	96:00:00	cmi013-cmi032	frei	128 **	960 **
genoa	96:00:00	cge001-cge002	frei	128 **	960 **
casus_genoa	96:00:00	cge003-cge026	FWU	128 **	960 **
gpu_p100	48:00:00	gp001-gp010	frei		32 GPUs
gpu_v100	48:00:00	gv025	frei		4 GPUs
hotel	48:00:00	h001	auf Anfrage
fpga	48:00:00	h002	FWC
intel,intel_32	96:00:00	intel015-intel038, fluid021-fluid044, ion027-ion036, chem001-chem002, reac007-reac013	frei	128 **	960 **
casus	48:00:00	gv001-gv021, gv023-gv024	FWU	23	92 GPUs
fwkt_v100	24:00:00	gv001-gv021, gv023-gv024	FWKT	23	92 GPUs
fwkh_v100	24:00:00	gv001-gv021, gv023-gv024	FWKH	23	92 GPUs
hlab	48:00:00	gv026-gv032	FWKT	7	28 GPUs
haicu_v100	48:00:00	gv022	FWCC		4 GPUs
haicu_a100	48:00:00	ga001-ga003	FWCC		12 GPUs
circ_a100	48:00:00	ga006-ga009	FWG		32 GPUs
casus_a100	48:00:00	ga010-ga015	FWU		24 GPUs

* Zu den Partitionen defq, intel, gpu, k20 und k80 existieren noch die Partitionen defq_low, intel_low, gpu_low, k20_low und k80_low, in denen Jobs mit längerer Walltime abgesetzt werden können, jedoch werden diese Jobs beendet, wenn in den Haupt-Partitionen Ressourcen benötigt werden. Der Nutzer ist selbst dafür verantwortlich, Checkpoint/Restart zu implementieren.

** In den Partitionen defq, rome und intel sind die angegebenen Jobs Pro Nutzer und CPUs pro Nutzer in der Summe verfügbar, nicht pro Partition.

Installierte Software

Alle Anwendungsprogramme, Compiler und Bibliotheken sind mit Hilfe der modules-Umgebung nutzbar. Das Kommando "module avail" liefert eine Liste der installierten Programme.