Jwilber/update esm2 native te.yaml (#1197)

jwilber · web-flow · commit b4c44884dd79 · 2025-09-30T20:46:53.000Z
Update `esm2_native_te` config to have better comments and structure,
with better support for overriding script keys and observability stuff
to track.

Also propagate the `cfg.num_nodes` to parallelism key in
`LeptonJobUserSpec` (this was unclear in the python sdk instructions).

&lt;!-- This is an auto-generated comment: release notes by coderabbit.ai
--&gt;
## Summary by CodeRabbit

- New Features
- Expanded recipe surface with explicit identifiers (variant, framework,
precision, parallelism strategy), TE/FP8 toggles, wandb_init_args,
script_args, products list, and run_script orchestration.
- Improvements
- Script-level controls for train steps, micro-batch size, warmup and
checkpointing; run commands receive tracking and checkpoint parameters.
- Job parallelism now follows configured node/device counts; job names
prefixed for clearer tracing; enhanced experiment tracking
(mode/project/group/job_type/name).
- Removed
  - Removed a legacy top-level config key from the base configuration.
- Chores
  - Removed non-essential debug shell output.
&lt;!-- end of auto-generated comment: release notes by coderabbit.ai --&gt;

---------

Signed-off-by: Jared Wilber &lt;jwilber@nvidia.com&gt;
diff --git a/ci/lepton/model_convergence/configs/base.yaml b/ci/lepton/model_convergence/configs/base.yaml
@@ -1,5 +1,3 @@
-node_group_name: nv-int-multiteam-nebius-h200-01
-
 container:
   image: nvcr.io/nvidia/pytorch:25.06-py3
   registry_auth: lepton-nvidia
diff --git a/ci/lepton/model_convergence/configs/recipes/esm2_accelerate_te.yaml b/ci/lepton/model_convergence/configs/recipes/esm2_accelerate_te.yaml
@@ -3,47 +3,88 @@ defaults:
   - /base
   - _self_
 
-# lepton info
+branch: jwilber/add-accelerate-l1-3b-config
+
+############################################################
+# lepton job info
+############################################################
 node_group: yo-bom-lepton-001
 num_nodes: 2
 device_type: gpu
-num_devices: 2
+num_devices: 8
 gpu_type: h100-sxm
-total_gpus: ${multiply:${num_devices},${num_nodes}}
 resource_shape: "${device_type}.${num_devices}x${gpu_type}"
 
+############################################################
 # recipe identifiers
+# mostly used for logging and observability
+############################################################
 recipe_subdir: esm2_accelerate_te
 model_type: esm2
+variant: train # train, finetune
+
+# Core identifiers for filtering
+framework: native # native, accelerate
+parallelism_strategy: fsdp2 # ddp, fsdp2, mfsdp
+precision: fp8 # likely bf16 or fp8
+te_enabled: true
+fp8_enabled: true
+
+# Catchall for additional features/configs
+extras: [] # e.g. [thd]
+
+############################################################
+# wandb info (total_gpus used for group name)
+############################################################
+# `total_gpus` calculated from lepton job info above
+total_gpus: ${multiply:${num_devices},${num_nodes}}
 
-# wandb
 wandb_init_args:
   project: "test_convergence__recipes__${sanitize:${branch}}"
-  group: "${model_type}__${task_cmd}__${total_gpus}__${sanitize:${gpu_type}}"
+  group: "${model_type}__${task_cmd}__${total_gpus}gpus__${sanitize:${gpu_type}}"
   job_type: "${recipe_subdir}"
   name: null
 
+############################################################
+# task commands
+# shared across all products (if not explicitly overridden)
+############################################################
+# task_cmd: train_fsdp2 # mfsdp
+task_cmd: train
+
+# script overrides
+# these should match the keys in the recipe's config file
+# model_tag: nvidia/esm2_t36_3B_UR50D
+
+micro_batch_size: 4
+# num_warmup_steps: 20_000
 # config overrides
 trainer:
   report_to: "wandb"
 
-# train specific commands
-task_cmd: train
-stop_after_n_steps: 10
+stop_after_n_steps: 100
 
-# configs to run
+############################################################
+# Each product is a different config to run, alongside
+# config-specific arguments. Must have a w`andb_name`.
+############################################################
 products:
-  - config: L0_sanity
+  - config: L1_3B
+    acc_config: default
     wandb_name: "${config}__${now:%Y%m%d-%H%M%S}__${gitsha:}"
 
-# training script to run
+############################################################
+# run script
+# This gets called right after `checkout_script` in the base config.
+############################################################
 run_script: |
-  accelerate launch --config_file accelerate_config/default.yaml \
+  accelerate launch --config_file accelerate_config/${acc_config}.yaml \
     ${task_cmd}.py \
     --config-name=${config} \
     stop_after_n_steps=${stop_after_n_steps} \
-    wandb_init_args.mode=${wandb_init_args.mode} \
+    +wandb_init_args.mode=${wandb_init_args.mode} \
     +wandb_init_args.project=${wandb_init_args.project} \
     +wandb_init_args.group=${wandb_init_args.group} \
     +wandb_init_args.job_type=${wandb_init_args.job_type} \
-    wandb_init_args.name=${wandb_name}
+    wandb_init_args.name=${wandb_name} \
+    trainer.per_device_train_batch_size=${micro_batch_size}
diff --git a/ci/lepton/model_convergence/configs/recipes/esm2_native_te.yaml b/ci/lepton/model_convergence/configs/recipes/esm2_native_te.yaml
@@ -3,46 +3,101 @@ defaults:
   - /base
   - _self_
 
-# lepton info
+############################################################
+# lepton job info
+############################################################
 node_group: yo-bom-lepton-001
 num_nodes: 1
 device_type: gpu
 num_devices: 2
 gpu_type: h100-sxm
-total_gpus: ${multiply:${num_devices},${num_nodes}}
 resource_shape: "${device_type}.${num_devices}x${gpu_type}"
 
+############################################################
 # recipe identifiers
+# mostly used for logging and observability
+############################################################
 recipe_subdir: esm2_native_te
 model_type: esm2
+variant: train # train, finetune
+
+# Core identifiers for filtering
+framework: native # native, accelerate
+parallelism_strategy: fsdp2 # ddp, fsdp2, mfsdp
+precision: fp8 # likely bf16 or fp8
+te_enabled: true
+fp8_enabled: true
+
+# Catchall for additional features/configs
+extras: [] # e.g. [thd]
+
+############################################################
+# wandb info (total_gpus used for group name)
+############################################################
+# `total_gpus` calculated from lepton job info above
+total_gpus: ${multiply:${num_devices},${num_nodes}}
 
-# wandb
 wandb_init_args:
   project: "test_convergence__recipes__${sanitize:${branch}}"
-  group: "${model_type}__${task_cmd}__${total_gpus}__${sanitize:${gpu_type}}"
+  group: "${model_type}__${task_cmd}__${total_gpus}gpus__${sanitize:${gpu_type}}"
   job_type: "${recipe_subdir}"
   name: null
 
-# train specific commands
-task_cmd: train_fsdp2 # mfsdp
-num_train_steps: 100
+############################################################
+# task commands
+# shared across all products (if not explicitly overridden)
+############################################################
+
+# script overrides
+# these should match the keys in the recipe's config file
+model_tag: nvidia/esm2_t36_3B_UR50D
+# task_cmd: train_fsdp2 # mfsdp
+num_train_steps: 10_000
+micro_batch_size: 16
+num_warmup_steps: 20_000
 
-# configs to run
+# checkpoint controls
+ckpt_dir: ""
+save_checkpoints: false
+save_final_model: false
+resume_from_checkpoint: false
+use_distributed_checkpoint_fsdp2: false
+save_every_n_steps: 50
+
+############################################################
+# Each product is a different config to run, alongside
+# config-specific arguments. Must have a w`andb_name`.
+############################################################
 products:
-  - config: L0_sanity
+  - config: L1_3B
+    task_cmd: train_fsdp2
+    wandb_name: "${config}__${now:%Y%m%d-%H%M%S}__${gitsha:}"
+  - config: L1_3B
+    task_cmd: train_mfsdp
+    wandb_name: "${config}__${now:%Y%m%d-%H%M%S}__${gitsha:}"
+    micro_batch_size: 2
+  - config: L1_3B
+    task_cmd: train_ddp
     wandb_name: "${config}__${now:%Y%m%d-%H%M%S}__${gitsha:}"
-#     resource_shape: gpu.2xh200
-#   # - config: L1_3B
-#   #   resource_shape: gpu.2xh200
-#   # - config: L1_15B_perf_test
 
-# training script to run
+############################################################
+# run script
+# This gets called right after `checkout_script` in the base config.
+############################################################
 run_script: |
   torchrun ${task_cmd}.py \
     --config-name ${config}.yaml \
-    num_train_steps=${num_train_steps} \
-    wandb_init_args.mode=${wandb_init_args.mode} \
-    +wandb_init_args.project=${wandb_init_args.project} \
+    +wandb_init_args.mode=${wandb_init_args.mode} \
+    wandb_init_args.project=${wandb_init_args.project} \
     +wandb_init_args.group=${wandb_init_args.group} \
     +wandb_init_args.job_type=${wandb_init_args.job_type} \
-    wandb_init_args.name=${wandb_name}
+    wandb_init_args.name=${wandb_name} \
+    num_train_steps=${num_train_steps} \
+    dataset.micro_batch_size=${micro_batch_size} \
+    lr_scheduler_kwargs.num_warmup_steps=${num_warmup_steps} \
+    checkpoint.ckpt_dir=${ckpt_dir} \
+    checkpoint.save_final_model=${save_final_model} \
+    checkpoint.resume_from_checkpoint=${resume_from_checkpoint} \
+    checkpoint.save_every_n_steps=${save_every_n_steps} \
+    +checkpoint.save_checkpoints=${save_checkpoints} \
+    +checkpoint.use_distributed_checkpoint_fsdp2=${use_distributed_checkpoint_fsdp2}
diff --git a/ci/lepton/model_convergence/scripts/launch_job.py b/ci/lepton/model_convergence/scripts/launch_job.py
@@ -106,7 +106,7 @@ def launch_single_job(client, cfg: DictConfig):
             command=command,
         ),
         completions=cfg.num_nodes,
-        parallelism=1,
+        parallelism=cfg.num_nodes,
         envs=env_vars,
         image_pull_secrets=[cfg.container.registry_auth],
         mounts=mounts,
@@ -182,7 +182,7 @@ def main(cfg: DictConfig):
 
             # Create job name as base_recipe_name-config (e.g., "geneformer-10m")
             config_name = product_dict["config"].replace("_", "-").replace("/", "-")
-            product_cfg.job_name = f"{base_recipe_name}-{config_name}".lower()
+            product_cfg.job_name = f"convtest-{base_recipe_name}-{config_name}".lower()
 
             print(f"\n[{i}/{len(cfg.products)}] Launching: {product_cfg.job_name}")
 
diff --git a/ci/lepton/model_convergence/scripts/wrap_template.sh b/ci/lepton/model_convergence/scripts/wrap_template.sh
@@ -20,12 +20,6 @@ __SCRIPT__
 RC=$?
 set -e
 
-echo "pwd"
-pwd
-
-echo "ls"
-ls
-
 echo "commit in bionemo-framework"
 (cd bionemo-framework && git log -1 || true)
 # Always grab the exact commit currently checked out in the framework repo

Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,3 @@`
`1`		`-node_group_name: nv-int-multiteam-nebius-h200-01`
`2`		`-`
`3`	`1`	`container:`
`4`	`2`	`image: nvcr.io/nvidia/pytorch:25.06-py3`
`5`	`3`	`registry_auth: lepton-nvidia`