Lumi scripts for MNIST (#378)

lineick · matbun · web-flow · commit 33f038528caf · 2025-05-14T11:26:29.000+02:00
* update files

* first working version

* update scripts

* added singularity bindings module

* module

* latest container

* fix LD_LIBRARY_PATH?

* fixed horovod: multinode ray hpo and distributed training

* Update slurm.lumi.sh

* Update slurm.lumi.sh

* cleanup, oom fix

* cleanup

* cleanup

* cleanup

* small change

* added comments

---------

Co-authored-by: Matteo Bunino &lt;48362942+matbun@users.noreply.github.com&gt;
diff --git a/use-cases/mnist/torch/runall.jsc.sh b/use-cases/mnist/torch/runall.jsc.sh
@@ -27,7 +27,7 @@ sbatch --export=ALL,DIST_MODE="$DIST_MODE",RUN_NAME="$RUN_NAME",TRAINING_CMD="$T
     --job-name="$RUN_NAME-n$N" \
     --output="logs_slurm/job-$RUN_NAME-n$N.out" \
     --error="logs_slurm/job-$RUN_NAME-n$N.err" \
-    slurm.sh
+    slurm.jsc.sh
 
 # DeepSpeed itwinai
 DIST_MODE="deepspeed"
@@ -37,7 +37,7 @@ sbatch --export=ALL,DIST_MODE="$DIST_MODE",RUN_NAME="$RUN_NAME",TRAINING_CMD="$T
     --job-name="$RUN_NAME-n$N" \
     --output="logs_slurm/job-$RUN_NAME-n$N.out" \
     --error="logs_slurm/job-$RUN_NAME-n$N.err" \
-    slurm.sh
+    slurm.jsc.sh
 
 # Horovod itwinai
 DIST_MODE="horovod"
@@ -47,7 +47,7 @@ sbatch --export=ALL,DIST_MODE="$DIST_MODE",RUN_NAME="$RUN_NAME",TRAINING_CMD="$T
     --job-name="$RUN_NAME-n$N" \
     --output="logs_slurm/job-$RUN_NAME-n$N.out" \
     --error="logs_slurm/job-$RUN_NAME-n$N.err" \
-    slurm.sh
+    slurm.jsc.sh
 
 
 ### GAN training ###
@@ -60,7 +60,7 @@ sbatch --export=ALL,DIST_MODE="$DIST_MODE",RUN_NAME="$RUN_NAME",TRAINING_CMD="$T
     --job-name="$RUN_NAME-n$N" \
     --output="logs_slurm/job-$RUN_NAME-n$N.out" \
     --error="logs_slurm/job-$RUN_NAME-n$N.err" \
-    slurm.sh
+    slurm.jsc.sh
 
 # DeepSpeed itwinai
 DIST_MODE="deepspeed"
@@ -70,7 +70,7 @@ sbatch --export=ALL,DIST_MODE="$DIST_MODE",RUN_NAME="$RUN_NAME",TRAINING_CMD="$T
     --job-name="$RUN_NAME-n$N" \
     --output="logs_slurm/job-$RUN_NAME-n$N.out" \
     --error="logs_slurm/job-$RUN_NAME-n$N.err" \
-    slurm.sh
+    slurm.jsc.sh
 
 # GAN with Horovod does not work
 # # Horovod itwinai
@@ -81,4 +81,4 @@ sbatch --export=ALL,DIST_MODE="$DIST_MODE",RUN_NAME="$RUN_NAME",TRAINING_CMD="$T
 #     --job-name="$RUN_NAME-n$N" \
 #     --output="logs_slurm/job-$RUN_NAME-n$N.out" \
 #     --error="logs_slurm/job-$RUN_NAME-n$N.err" \
-#     slurm.sh
+#     slurm.jsc.sh
diff --git a/use-cases/mnist/torch/runall.lumi.sh b/use-cases/mnist/torch/runall.lumi.sh
@@ -0,0 +1,82 @@
+#!/bin/bash
+
+# --------------------------------------------------------------------------------------
+# Part of the interTwin Project: https://www.intertwin.eu/
+#
+# Created by: Matteo Bunino
+#
+# Credit:
+# - Matteo Bunino <matteo.bunino@cern.ch> - CERN
+# - Linus Eickhoff <linus.maximilian.eickhoff@cern.ch> - CERN
+# --------------------------------------------------------------------------------------
+
+export CONTAINER_PATH="/project/project_465001592/itwinai-containers/container_test_5.sif"
+
+# Clear SLURM logs (*.out and *.err files)
+rm -rf logs_slurm checkpoints* mllogs* ray_checkpoints logs_torchrun
+mkdir -p logs_slurm logs_torchrun
+
+export HYDRA_FULL_ERROR=1
+
+# DDP itwinai
+DIST_MODE="ddp"
+RUN_NAME="ddp-itwinai"
+TRAINING_CMD="itwinai exec-pipeline strategy=ddp checkpoints_location=checkpoints_ddp"
+sbatch --export=ALL,DIST_MODE="$DIST_MODE",RUN_NAME="$RUN_NAME",TRAINING_CMD="$TRAINING_CMD",PYTHON_VENV="$PYTHON_VENV" \
+    --job-name="$RUN_NAME-n$N" \
+    --output="logs_slurm/job-$RUN_NAME-n$N.out" \
+    --error="logs_slurm/job-$RUN_NAME-n$N.err" \
+    slurm.lumi.sh
+
+# DeepSpeed itwinai
+DIST_MODE="deepspeed"
+RUN_NAME="deepspeed-itwinai"
+TRAINING_CMD="itwinai exec-pipeline strategy=deepspeed checkpoints_location=checkpoints_deepspeed"
+sbatch --export=ALL,DIST_MODE="$DIST_MODE",RUN_NAME="$RUN_NAME",TRAINING_CMD="$TRAINING_CMD",PYTHON_VENV="$PYTHON_VENV" \
+    --job-name="$RUN_NAME-n$N" \
+    --output="logs_slurm/job-$RUN_NAME-n$N.out" \
+    --error="logs_slurm/job-$RUN_NAME-n$N.err" \
+    slurm.lumi.sh
+
+# Horovod itwinai
+DIST_MODE="horovod"
+RUN_NAME="horovod-itwinai"
+TRAINING_CMD="itwinai exec-pipeline strategy=horovod checkpoints_location=checkpoints_hvd"
+sbatch --export=ALL,DIST_MODE="$DIST_MODE",RUN_NAME="$RUN_NAME",TRAINING_CMD="$TRAINING_CMD",PYTHON_VENV="$PYTHON_VENV" \
+    --job-name="$RUN_NAME-n$N" \
+    --output="logs_slurm/job-$RUN_NAME-n$N.out" \
+    --error="logs_slurm/job-$RUN_NAME-n$N.err" \
+    slurm.lumi.sh
+
+### GAN training ###
+
+# DDP itwinai
+DIST_MODE="ddp"
+RUN_NAME="ddp-itwinai"
+TRAINING_CMD="itwinai exec-pipeline strategy=ddp checkpoints_location=checkpoints_ddp +pipe_key=training_pipeline_gan"
+sbatch --export=ALL,DIST_MODE="$DIST_MODE",RUN_NAME="$RUN_NAME",TRAINING_CMD="$TRAINING_CMD",PYTHON_VENV="$PYTHON_VENV" \
+    --job-name="$RUN_NAME-n$N" \
+    --output="logs_slurm/job-$RUN_NAME-n$N.out" \
+    --error="logs_slurm/job-$RUN_NAME-n$N.err" \
+    slurm.lumi.sh
+
+# DeepSpeed itwinai
+DIST_MODE="deepspeed"
+RUN_NAME="deepspeed-itwinai"
+TRAINING_CMD="itwinai exec-pipeline strategy=deepspeed checkpoints_location=checkpoints_deepspeed +pipe_key=training_pipeline_gan"
+sbatch --export=ALL,DIST_MODE="$DIST_MODE",RUN_NAME="$RUN_NAME",TRAINING_CMD="$TRAINING_CMD",PYTHON_VENV="$PYTHON_VENV" \
+    --job-name="$RUN_NAME-n$N" \
+    --output="logs_slurm/job-$RUN_NAME-n$N.out" \
+    --error="logs_slurm/job-$RUN_NAME-n$N.err" \
+    slurm.lumi.sh
+
+# GAN with Horovod does not work
+# Horovod itwinai
+# DIST_MODE="horovod"
+# RUN_NAME="horovod-itwinai"
+# TRAINING_CMD="itwinai exec-pipeline strategy=horovod checkpoints_location=checkpoints_hvd +pipe_key=training_pipeline_gan"
+# sbatch --export=ALL,DIST_MODE="$DIST_MODE",RUN_NAME="$RUN_NAME",TRAINING_CMD="$TRAINING_CMD",PYTHON_VENV="$PYTHON_VENV" \
+#     --job-name="$RUN_NAME-n$N" \
+#     --output="logs_slurm/job-$RUN_NAME-n$N.out" \
+#     --error="logs_slurm/job-$RUN_NAME-n$N.err" \
+#     slurm.lumi.sh
diff --git a/use-cases/mnist/torch/slurm.jsc.sh b/use-cases/mnist/torch/slurm.jsc.sh
@@ -130,7 +130,9 @@ function ray-launcher(){
   echo All Ray workers started.
 
   # Run command without srun
-  $1 training_pipeline.steps.training_step.ray_scaling_config.num_workers=$(($SLURM_GPUS_PER_NODE * $SLURM_NNODES))
+  # if you want the number of workers to be adaptive during distributed training append this:
+  # training_pipeline.steps.training_step.ray_scaling_config.num_workers=$(($SLURM_GPUS_PER_NODE * $SLURM_NNODES))
+  $1
 }
 
 function torchrun-launcher(){
diff --git a/use-cases/mnist/torch/slurm.lumi.sh b/use-cases/mnist/torch/slurm.lumi.sh

Original file line number	Diff line number	Diff line change
`@@ -130,7 +130,9 @@ function ray-launcher(){`
`130`	`130`	`echo All Ray workers started.`
`131`	`131`
`132`	`132`	`# Run command without srun`
`133`		`- $1 training_pipeline.steps.training_step.ray_scaling_config.num_workers=$(($SLURM_GPUS_PER_NODE * $SLURM_NNODES))`
	`133`	`+ # if you want the number of workers to be adaptive during distributed training append this:`
	`134`	`+ # training_pipeline.steps.training_step.ray_scaling_config.num_workers=$(($SLURM_GPUS_PER_NODE * $SLURM_NNODES))`
	`135`	`+ $1`
`134`	`136`	`}`
`135`	`137`
`136`	`138`	`function torchrun-launcher(){`