diff --git a/examples/mimo/blend_files/1t_phase1var_moresft_wrapper.yaml b/examples/mimo/blend_files/1t_phase1var_moresft_wrapper.yaml
new file mode 100644
index 00000000000..ed19e692d6f
--- /dev/null
+++ b/examples/mimo/blend_files/1t_phase1var_moresft_wrapper.yaml
@@ -0,0 +1,6 @@
+# RKarimi 3B-nano SOTA 1T text subset blend.
+# The 3B-nano baseline uses TRAIN_SAMPLES=122070313 and SEQ_LEN=8192,
+# which is 1,000,000,004,096 tokens.
+__module__: megatron.energon
+__class__: McoreBlend
+mcore_json: /scratch/fsw/portfolios/llmservice/projects/llmservice_fm_text/users/rkarimimahab/workspace/blends/1T-phase1var-moresft.json
diff --git a/examples/mimo/blend_files/text_omnicorpus_blend_10_90_hel.yaml b/examples/mimo/blend_files/text_omnicorpus_blend_10_90_hel.yaml
new file mode 100644
index 00000000000..66f1f4ccb70
--- /dev/null
+++ b/examples/mimo/blend_files/text_omnicorpus_blend_10_90_hel.yaml
@@ -0,0 +1,365 @@
+# 90% RKarimi 1T text subset + 10% OmniCorpus (CC-MAIN-2021-25 excluded - corrupt tar)
+__module__: megatron.energon
+__class__: MetadatasetV2
+splits:
+  train:
+    blend:
+    - weight: 0.9
+      path: __MEGATRON_ROOT__/examples/mimo/blend_files/1t_phase1var_moresft_wrapper.yaml
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2013-20
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2013-48
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2014-10
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2014-15
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2014-23
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2014-35
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2014-41
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2014-42
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2014-49
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2014-52
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2015-06
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2015-11
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2015-14
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2015-18
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2015-22
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2015-27
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2015-32
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2015-35
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2015-40
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2015-48
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2016-07
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2016-18
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2016-22
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2016-26
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2016-30
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2016-36
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2016-40
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2016-44
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2016-50
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2017-04
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2017-09
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2017-13
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2017-17
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2017-22
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2017-26
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2017-30
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2017-34
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2017-39
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2017-43
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2017-47
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2017-51
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2018-05
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2018-09
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2018-13
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2018-17
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2018-26
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2018-30
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2018-34
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2018-39
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2018-43
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2018-47
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2018-51
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2019-04
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2019-09
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2019-13
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2019-18
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2019-22
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2019-26
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2019-30
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2019-35
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2019-39
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2019-43
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2019-47
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2019-51
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2020-05
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2020-10
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2020-16
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2020-24
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2020-29
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2020-34
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2020-40
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2020-45
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2020-50
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2021-04
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2021-10
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2021-17
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2021-21
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2021-31
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2021-39
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2021-43
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2021-49
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2022-05
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2022-21
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2022-27
+      subflavors:
+        cook: omnicorpus
+    - weight: 0.001163
+      path: /lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2022-33
+      subflavors:
+        cook: omnicorpus
+  val:
+    blend:
+    - path: __MULTIMODAL_DATA_ROOT__/validation/text_arxiv_math/data.bin
+      subflavors:
+        cook: bin_idx
+    - path: __MULTIMODAL_DATA_ROOT__/validation/text_cc/data.bin
+      subflavors:
+        cook: bin_idx
+    - path: __MULTIMODAL_DATA_ROOT__/validation/text_python/data.bin
+      subflavors:
+        cook: bin_idx
+    - path: __MULTIMODAL_DATA_ROOT__/validation/mint_arxiv
+      subflavors:
+        cook: interleaved
+    - path: __MULTIMODAL_DATA_ROOT__/validation/mint_pdf
+      subflavors:
+        cook: interleaved
diff --git a/examples/mimo/blend_files/text_only_1t_hel.yaml b/examples/mimo/blend_files/text_only_1t_hel.yaml
new file mode 100644
index 00000000000..8ee3ced115b
--- /dev/null
+++ b/examples/mimo/blend_files/text_only_1t_hel.yaml
@@ -0,0 +1,8 @@
+# HEL text-only Energon blend for MIMO jitter isolation.
+__module__: megatron.energon
+__class__: MetadatasetV2
+splits:
+  train:
+    blend:
+    - weight: 1.0
+      path: __MEGATRON_ROOT__/examples/mimo/blend_files/1t_phase1var_moresft_wrapper.yaml
diff --git a/examples/mimo/data/__init__.py b/examples/mimo/data/__init__.py
index df73bc4abd5..be521ff65cd 100644
--- a/examples/mimo/data/__init__.py
+++ b/examples/mimo/data/__init__.py
@@ -1,5 +1,11 @@
-from .energon_avlm_task_encoder import VisionAudioQASample
+"""MIMO data providers and task encoders."""
 
-all = [
-    VisionAudioQASample,
-]
+__all__ = ["VisionAudioQASample"]
+
+
+def __getattr__(name):
+    if name == "VisionAudioQASample":
+        from .energon_avlm_task_encoder import VisionAudioQASample
+
+        return VisionAudioQASample
+    raise AttributeError(f"module {__name__!r} has no attribute {name!r}")
diff --git a/examples/mimo/data/energon_multimodal_provider.py b/examples/mimo/data/energon_multimodal_provider.py
new file mode 100644
index 00000000000..0e754a52758
--- /dev/null
+++ b/examples/mimo/data/energon_multimodal_provider.py
@@ -0,0 +1,382 @@
+# Copyright (c) 2026, NVIDIA CORPORATION. All rights reserved.
+
+"""Energon multimodal data provider for MIMO.
+
+This module intentionally mirrors the provider used by the previous
+``feat/nemotron-moe-vlm-mimo`` branch. Energon's ``MultiModalPackingEncoder``
+owns sample cooking, preencoding, and packing; the MIMO-specific adapter only
+expands each single ``<image>`` placeholder into one placeholder per image
+embedding and remaps the batch to MIMO's forward signature.
+"""
+
+from __future__ import annotations
+
+import inspect
+import warnings
+from typing import Optional
+
+
+def _supported_kwargs(fn, kwargs):
+    """Drop kwargs the target callable doesn't accept.
+
+    Lets the caller pass a superset of recipe args without erroring on fields
+    that the installed energon's VisionConfig doesn't recognize.
+    """
+    params = inspect.signature(fn).parameters
+    if any(param.kind == inspect.Parameter.VAR_KEYWORD for param in params.values()):
+        return kwargs
+    return {key: value for key, value in kwargs.items() if key in params}
+
+
+import torch
+
+from megatron.core.packed_seq_params import PackedSeqParams
+from megatron.energon import WorkerConfig
+from megatron.energon.task_encoder.multimodal import (
+    MultiModalPackingEncoder,
+    PackingConfig,
+    VisionConfig,
+)
+from megatron.energon.task_encoder.multimodal.sample_types import PackedSample
+from megatron.energon.task_encoder.multimodal.vision_tokens import get_num_image_embeddings
+
+
+class TokenizerAdapter:
+    """Wrap Megatron tokenizers for Energon's tokenizer protocol."""
+
+    def __init__(self, megatron_tokenizer) -> None:
+        self._tok = megatron_tokenizer
+        inner = megatron_tokenizer
+        if hasattr(inner, "_tokenizer"):
+            inner = inner._tokenizer
+        if hasattr(inner, "tokenizer"):
+            inner = inner.tokenizer
+        self._hf = inner
+
+    @property
+    def pad_token_id(self) -> int:
+        """Return the tokenizer pad id."""
+        return self._tok.pad
+
+    @property
+    def eos_token_id(self) -> int:
+        """Return the tokenizer EOS id."""
+        return self._tok.eod
+
+    def encode(self, text: str, add_special_tokens: bool = True) -> list[int]:
+        """Encode text with the wrapped HuggingFace tokenizer."""
+        return self._hf.encode(text, add_special_tokens=add_special_tokens)
+
+    def decode(self, token_ids, skip_special_tokens: bool = False) -> str:
+        """Decode token ids with the wrapped HuggingFace tokenizer."""
+        return self._hf.decode(token_ids, skip_special_tokens=skip_special_tokens)
+
+    def convert_tokens_to_ids(self, tokens):
+        """Convert tokens to ids with the wrapped Megatron tokenizer."""
+        return self._tok.convert_tokens_to_ids(tokens)
+
+    @property
+    def chat_template(self):
+        """Forward HuggingFace chat_template so energon's tokenize_and_prepare can find it."""
+        return getattr(self._hf, "chat_template", None)
+
+    def apply_chat_template(self, *args, **kwargs):
+        """Forward to underlying HuggingFace tokenizer for energon's chat-template path."""
+        return self._hf.apply_chat_template(*args, **kwargs)
+
+
+class MimoMultiModalPackingEncoder(MultiModalPackingEncoder):
+    """Remap Energon multimodal packed samples to MIMO batch inputs."""
+
+    # Key under which the producing Energon worker's ``global_worker_id`` is
+    # stamped on each output batch when ``attach_provenance`` is enabled.
+    # Hetero MIMO uses this to route samples back to their LLM data lane when
+    # a single encoder-side Energon iterator multiplexes several lanes.
+    PROVENANCE_KEY = "__encoder_provenance__"
+
+    def __init__(
+        self,
+        vision_config: VisionConfig,
+        packing_config: PackingConfig,
+        tokenizer,
+        encoder_name: str = "radio_encoder",
+        encoder_input_key: str = "x",
+        target_seq_length: Optional[int] = None,
+        attach_provenance: bool = False,
+    ) -> None:
+        super().__init__(vision_config, packing_config, tokenizer)
+        self.encoder_name = encoder_name
+        self.encoder_input_key = encoder_input_key
+        self._target_seq_length = target_seq_length
+        self._attach_provenance = attach_provenance
+        self._embeddings_per_tile = get_num_image_embeddings(
+            img_h=vision_config.img_h,
+            img_w=vision_config.img_w,
+            patch_dim=vision_config.patch_dim,
+            class_token_len=vision_config.class_token_len,
+            disable_vision_class_token=vision_config.disable_vision_class_token,
+            pixel_shuffle=vision_config.pixel_shuffle,
+            conv_merging=vision_config.conv_merging,
+            use_tile_tags=vision_config.use_tile_tags,
+            max_num_tiles=vision_config.max_num_tiles,
+            use_image_break_token=vision_config.use_image_break_token,
+        )
+        # Stashed so batch() can compute per-image embedding counts under
+        # dynamic resolution (where the constant emb_per_tile doesn't apply).
+        self._dynamic_resolution = getattr(vision_config, "dynamic_resolution", False)
+        self._patch_dim = vision_config.patch_dim
+        self._pixel_shuffle = vision_config.pixel_shuffle
+        self._conv_merging = vision_config.conv_merging
+
+    def batch(self, samples: list[PackedSample]) -> dict:
+        """Expand image placeholders and return a MIMO-compatible batch."""
+        image_token_id = self.packing_config.image_token_id
+        ignore_index = self.packing_config.ignore_index
+        pad_id = self.packing_config.pad_id
+        emb_per_tile = self._embeddings_per_tile
+
+        expanded_tokens_list = []
+        expanded_labels_list = []
+        all_images = []
+
+        for sample in samples:
+            tokens = sample.tokens
+            labels = sample.labels
+            num_tiles = sample.num_tiles
+            budget = self._target_seq_length
+            new_tokens = []
+            new_labels = []
+            img_idx = 0
+            truncated = False
+            truncated_padding_only = False
+            kept_tile_count = 0
+
+            for idx, token in enumerate(tokens.tolist()):
+                if token == image_token_id:
+                    n_tiles = num_tiles[img_idx] if img_idx < len(num_tiles) else 1
+                    if self._dynamic_resolution:
+                        # Each image produces (h/p) * (w/p) patches; pixel_shuffle and
+                        # conv_merging each halve both axes => divide by 4 each.
+                        img_pix = sample.images[img_idx]
+                        h_pix = img_pix.shape[-2]
+                        w_pix = img_pix.shape[-1]
+                        per_image = (h_pix // self._patch_dim) * (w_pix // self._patch_dim)
+                        if self._pixel_shuffle:
+                            per_image //= 4
+                        if self._conv_merging:
+                            per_image //= 4
+                        n_tokens = per_image
+                    else:
+                        n_tokens = n_tiles * emb_per_tile
+                    if budget is not None and len(new_tokens) + n_tokens > budget:
+                        truncated = True
+                        break
+                    new_tokens.extend([image_token_id] * n_tokens)
+                    new_labels.extend([ignore_index] * n_tokens)
+                    kept_tile_count += n_tiles
+                    img_idx += 1
+                else:
+                    if budget is not None and len(new_tokens) + 1 > budget:
+                        truncated = True
+                        truncated_padding_only = _remaining_tokens_are_padding(
+                            tokens=tokens,
+                            labels=labels,
+                            start=idx,
+                            pad_id=pad_id,
+                            ignore_index=ignore_index,
+                        )
+                        break
+                    new_tokens.append(token)
+                    new_labels.append(labels[idx].item())
+
+            if truncated and len(sample.cu_lengths) > 2 and not truncated_padding_only:
+                raise RuntimeError(
+                    "Packed Energon sample exceeds target sequence length after MIMO image-token "
+                    "expansion. Refusing to clamp packed cu_seqlens because that can create "
+                    "zero-length packed segments. Increase --total-seq-length or lower image "
+                    "tiling/packing settings."
+                )
+
+            if truncated and not truncated_padding_only:
+                warnings.warn(
+                    f"Sample truncated to fit target_seq_length ({self._target_seq_length}): "
+                    f"kept {len(new_tokens)} of ~{len(tokens)} original tokens, "
+                    f"{img_idx}/{len(num_tiles)} images ({kept_tile_count} tiles). "
+                    "Consider increasing --total-seq-length or reducing --max-num-tiles.",
+                    stacklevel=2,
+                )
+
+            all_images.extend(sample.images[:kept_tile_count])
+            expanded_tokens_list.append(torch.tensor(new_tokens, dtype=torch.long))
+            expanded_labels_list.append(torch.tensor(new_labels, dtype=torch.long))
+
+        max_len = max(len(tokens) for tokens in expanded_tokens_list)
+        if self._target_seq_length is not None:
+            max_len = self._target_seq_length
+
+        batch_size = len(samples)
+        tokens_batch = torch.full((batch_size, max_len), pad_id, dtype=torch.long)
+        labels_batch = torch.full((batch_size, max_len), ignore_index, dtype=torch.long)
+
+        for idx, (tokens, labels) in enumerate(zip(expanded_tokens_list, expanded_labels_list)):
+            tokens_batch[idx, : len(tokens)] = tokens
+            labels_batch[idx, : len(labels)] = labels
+
+        loss_mask = (labels_batch != ignore_index).float()
+        loss_mask[labels_batch == image_token_id] = 0.0
+        position_ids = torch.arange(max_len).unsqueeze(0).expand(batch_size, -1).contiguous()
+
+        result = {
+            "input_ids": tokens_batch,
+            "labels": labels_batch,
+            "loss_mask": loss_mask,
+            "position_ids": position_ids,
+        }
+
+        if all_images:
+            images, imgs_sizes, cu_lengths, max_seqlen = self.tiling_strategy.stack(all_images)
+            encoder_inputs = {self.encoder_input_key: images}
+            if imgs_sizes is not None:
+                encoder_inputs["imgs_sizes"] = imgs_sizes.to(torch.int32)
+            if cu_lengths is not None and max_seqlen is not None:
+                # THD packing metadata for RADIO's variable-length attention.
+                # Class-token offsets get applied inside RADIO.forward.
+                cu = cu_lengths.to(torch.int32)
+                max_q = max_seqlen.to(torch.int32) if torch.is_tensor(max_seqlen) else torch.tensor(int(max_seqlen), dtype=torch.int32)
+                encoder_inputs["packed_seq_params"] = PackedSeqParams(
+                    qkv_format="thd",
+                    cu_seqlens_q=cu,
+                    cu_seqlens_kv=cu,
+                    max_seqlen_q=max_q,
+                    max_seqlen_kv=max_q,
+                )
+            result["modality_inputs"] = {
+                "images": {self.encoder_name: encoder_inputs}
+            }
+
+        is_packed = any(len(sample.cu_lengths) > 2 for sample in samples)
+        if is_packed:
+            if batch_size != 1:
+                raise RuntimeError(f"Packing requires micro_batch_size=1, got {batch_size}")
+            result["packing_kwargs"] = _build_packing_kwargs(samples[0], max_len)
+
+        if self._attach_provenance:
+            active = WorkerConfig.active_worker_config
+            if active is None:
+                raise RuntimeError(
+                    "attach_provenance=True requires an active Energon worker context"
+                )
+            result[self.PROVENANCE_KEY] = active.global_worker_id()
+
+        return result
+
+
+def _remaining_tokens_are_padding(
+    tokens: torch.Tensor, labels: torch.Tensor, start: int, pad_id: int, ignore_index: int
+) -> bool:
+    """Return whether truncation only drops right-padding tokens."""
+    remaining_tokens = tokens[start:]
+    remaining_labels = labels[start:]
+    return bool(
+        remaining_tokens.numel() > 0
+        and torch.all(remaining_tokens == pad_id).item()
+        and torch.all(remaining_labels == ignore_index).item()
+    )
+
+
+def _build_packing_kwargs(sample: PackedSample, max_len: int) -> dict[str, torch.Tensor]:
+    """Build validated packed-sequence metadata for the MIMO language model."""
+    cu_seqlens = sample.cu_lengths.to(dtype=torch.int32)
+    if cu_seqlens.numel() < 2:
+        raise RuntimeError(f"Packed sample must have at least two cu_lengths, got {cu_seqlens}")
+    if torch.any(cu_seqlens[1:] < cu_seqlens[:-1]):
+        raise RuntimeError(f"Packed cu_lengths must be monotonic, got {cu_seqlens.tolist()}")
+
+    if cu_seqlens[0] != 0:
+        cu_seqlens = torch.cat([torch.tensor([0], dtype=torch.int32), cu_seqlens])
+    if cu_seqlens[-1] > max_len:
+        raise RuntimeError(
+            f"Packed cu_lengths end at {int(cu_seqlens[-1])}, beyond sequence length {max_len}"
+        )
+    if cu_seqlens[-1] != max_len:
+        cu_seqlens = torch.cat([cu_seqlens, torch.tensor([max_len], dtype=torch.int32)])
+
+    segment_lens = cu_seqlens[1:] - cu_seqlens[:-1]
+    if torch.any(segment_lens <= 0):
+        raise RuntimeError(
+            "Packed cu_lengths must be strictly increasing after MIMO expansion, "
+            f"got {cu_seqlens.tolist()}"
+        )
+    max_seqlen = segment_lens.max()
+    return {
+        "qkv_format": "thd",
+        "cu_seqlens_q": cu_seqlens,
+        "cu_seqlens_kv": cu_seqlens,
+        "cu_seqlens_q_padded": cu_seqlens,
+        "cu_seqlens_kv_padded": cu_seqlens,
+        "max_seqlen_q": int(max_seqlen.item()),
+        "max_seqlen_kv": int(max_seqlen.item()),
+        "total_tokens": int(max_len),
+    }
+
+
+def build_multimodal_encoder(
+    args,
+    tokenizer,
+    encoder_name: str = "radio_encoder",
+    encoder_input_key: str = "x",
+    attach_provenance: bool = False,
+) -> MimoMultiModalPackingEncoder:
+    """Build the MIMO Energon encoder from train args."""
+    target_seq_length = _resolve_target_seq_length(args)
+    image_token_id = getattr(args, "image_token_id", None)
+    if image_token_id is None:
+        image_token_id = tokenizer.convert_tokens_to_ids(getattr(args, "image_token", "<image>"))
+    pad_id = getattr(args, "pad_token_id", tokenizer.pad)
+
+    vision_config_kwargs = dict(
+        img_h=args.img_h,
+        img_w=args.img_w,
+        patch_dim=args.patch_dim,
+        vision_model_type=getattr(args, "vision_model_type", "radio"),
+        disable_vision_class_token=getattr(args, "disable_vision_class_token", False),
+        pixel_shuffle=getattr(args, "pixel_shuffle", False),
+        max_num_tiles=getattr(args, "max_num_tiles", getattr(args, "num_image_tiles", 1)),
+        use_tiling=getattr(args, "use_tiling", False),
+        use_thumbnail=getattr(args, "use_thumbnail", False),
+        class_token_len=getattr(args, "class_token_len", None) or 1,
+        conv_merging=getattr(args, "conv_merging", False),
+        use_tile_tags=getattr(args, "use_tile_tags", False),
+        use_image_break_token=getattr(args, "image_break_token", None) is not None,
+        use_area_weighted_aspect_ratio=getattr(args, "use_area_weighted_aspect_ratio", False),
+        dynamic_resolution=getattr(args, "dynamic_resolution", False),
+        dynamic_resolution_min_patches=getattr(args, "dynamic_resolution_min_patches", 4),
+        dynamic_resolution_max_patches=getattr(args, "dynamic_resolution_max_patches", 0),
+        dynamic_resolution_min_side=getattr(args, "dynamic_resolution_min_side", None),
+        dynamic_resolution_max_side=getattr(args, "dynamic_resolution_max_side", None),
+    )
+    # Drop kwargs the installed energon's VisionConfig doesn't accept (e.g.
+    # dynamic_resolution_max_side is only on newer forks).
+    vision_config = VisionConfig(**_supported_kwargs(VisionConfig, vision_config_kwargs))
+    packing_config = PackingConfig(
+        seq_length=target_seq_length, pad_id=pad_id, image_token_id=image_token_id
+    )
+    return MimoMultiModalPackingEncoder(
+        vision_config=vision_config,
+        packing_config=packing_config,
+        tokenizer=TokenizerAdapter(tokenizer),
+        encoder_name=encoder_name,
+        encoder_input_key=encoder_input_key,
+        target_seq_length=target_seq_length,
+        attach_provenance=attach_provenance,
+    )
+
+
+def _resolve_target_seq_length(args) -> int:
+    """Return the sequence length used by Energon and MIMO expansion."""
+    target_seq_length = getattr(args, "total_seq_length", None)
+    if target_seq_length is None:
+        target_seq_length = getattr(args, "seq_length", None)
+    if target_seq_length is None:
+        raise AttributeError("Energon multimodal provider requires total_seq_length or seq_length")
+    return target_seq_length
diff --git a/examples/mimo/data/hetero_energon.py b/examples/mimo/data/hetero_energon.py
new file mode 100644
index 00000000000..1fb2380f91e
--- /dev/null
+++ b/examples/mimo/data/hetero_energon.py
@@ -0,0 +1,732 @@
+# Copyright (c) 2026, NVIDIA CORPORATION. All rights reserved.
+
+"""Heterogeneous-rank wrapper for the MIMO Energon multimodal provider."""
+
+from __future__ import annotations
+
+import hashlib
+import random
+from collections import deque
+from typing import Callable, Optional
+
+import torch
+import torch.distributed as dist
+
+from examples.mimo.training.hetero.topology import get_grid_coordinate, is_rank_in_grid
+from examples.mimo.utils.hetero import debug_rank, is_process_group_member
+from megatron.core.packed_seq_params import PackedSeqParams
+
+
+def build_energon_iterator(args, topology):
+    """Build an Energon iterator for the current rank, or return None if unused."""
+    from megatron.core.pipeline_parallel.utils import is_pp_first_stage, is_pp_last_stage
+
+    encoder_grid = topology.encoder_grid
+    llm_grid = topology.llm_grid
+    encoder_needs_data = (
+        encoder_grid is not None
+        and is_rank_in_grid(encoder_grid)
+        and is_pp_first_stage(encoder_grid.get_pg("pp"))
+    )
+    llm_needs_data = is_rank_in_grid(llm_grid) and (
+        is_pp_first_stage(llm_grid.get_pg("pp")) or is_pp_last_stage(llm_grid.get_pg("pp"))
+    )
+
+    if encoder_needs_data:
+        return _build_encoder_iterator(args, encoder_grid)
+    if llm_needs_data:
+        return _build_llm_iterator(args, llm_grid)
+    return None
+
+
+def validate_energon_data_alignment(data_iterator, _topology) -> None:
+    """Check the first actual-data batch aligns across non-colocated module grids."""
+    if not dist.is_initialized():
+        return
+
+    gathered = [None for _ in range(dist.get_world_size())]
+    dist.all_gather_object(
+        gathered, data_iterator.peek_alignment() if data_iterator is not None else None
+    )
+
+    encoder_signatures_by_lane = {}
+    llm_signatures_by_lane = {}
+    for candidate in gathered:
+        if candidate is None:
+            continue
+        target = (
+            encoder_signatures_by_lane if candidate["role"] == "encoder" else llm_signatures_by_lane
+        )
+        for lane, signature in zip(candidate["llm_lanes"], candidate["signatures"]):
+            target.setdefault(lane, set()).add(signature)
+
+    mismatched = {}
+    for lane in sorted(set(encoder_signatures_by_lane) | set(llm_signatures_by_lane)):
+        encoder_values = encoder_signatures_by_lane.get(lane, set())
+        llm_values = llm_signatures_by_lane.get(lane, set())
+        if len(encoder_values) != 1 or len(llm_values) != 1 or encoder_values != llm_values:
+            mismatched[lane] = {"encoder": sorted(encoder_values), "llm": sorted(llm_values)}
+    if mismatched:
+        raise RuntimeError(f"hetero Energon data loaders diverged across grids: {mismatched}")
+
+
+def _build_llm_iterator(args, grid):
+    """Build the single-lane LLM iterator for this grid coordinate."""
+    tp_group = grid.get_pg("tp")
+    if get_grid_coordinate(grid, "tp") != 0:
+        lane = get_grid_coordinate(grid, "dp")
+        return EnergonIterator(
+            None, tp_group=tp_group, source_rank=False, alignment_role="llm", llm_lanes=[lane]
+        )
+
+    lane = get_grid_coordinate(grid, "dp")
+    return _build_single_lane_iterator(
+        args, tp_group=tp_group, lane=lane, role="llm", random_seed=args.seed + lane
+    )
+
+
+def _build_encoder_iterator(args, grid):
+    """Build the encoder iterator, composing LLM-lane samples for DP fan-out."""
+    tp_group = grid.get_pg("tp")
+    encoder_dp_rank = get_grid_coordinate(grid, "dp")
+    llm_lanes = _llm_lanes_for_encoder_rank(args, encoder_dp_rank)
+    if get_grid_coordinate(grid, "tp") != 0:
+        return EnergonIterator(
+            None,
+            tp_group=tp_group,
+            source_rank=False,
+            alignment_role="encoder",
+            llm_lanes=llm_lanes,
+        )
+
+    if len(llm_lanes) == 1:
+        return _build_single_lane_iterator(
+            args,
+            tp_group=tp_group,
+            lane=llm_lanes[0],
+            role="encoder",
+            # energon's WorkerConfig(rank=lane, world_size=llm_dp) already
+            # salts per-rank, so the seed here must be unsalted.
+            random_seed=args.seed,
+        )
+
+    return _build_routed_encoder_iterator(
+        args, tp_group=tp_group, encoder_dp_rank=encoder_dp_rank, llm_lanes=llm_lanes
+    )
+
+
+def _route_samples_to_lanes(
+    loader_iter,
+    *,
+    lanes_per_encoder: int,
+    lane_offset: int,
+    num_workers_per_lane: int,
+    encoder_dp_rank: int,
+    pending_by_lane: list,
+    max_pulls_per_step: int,
+    provenance_key: str,
+) -> tuple[list, int]:
+    """Pull samples from a single multiplexed loader and route each one to its LLM lane.
+
+    Samples are routed by reading the producing worker's
+    ``WorkerConfig.global_worker_id()``, which the encoder batcher stamps under
+    ``provenance_key``. The mapping from worker id back to local lane is:
+
+        global_worker_id = encoder_dp_rank * num_workers_enc + local_worker_id
+        global_llm_lane  = global_worker_id // num_workers_per_lane
+        local_lane       = global_llm_lane - lane_offset
+
+    Surplus samples (a worker yields a second sample for a lane that's already
+    filled this step) are stashed in ``pending_by_lane`` and consumed on the
+    next encoder step. ``max_pulls_per_step`` bounds the loop so a stuck or
+    skewed worker pool fails loudly instead of silently stalling.
+
+    Returns ``(lane_batches, pulls)`` where ``lane_batches[lane]`` is the sample
+    routed to local lane ``lane``.
+    """
+    lane_batches: list = [None] * lanes_per_encoder
+    filled = 0
+    for lane in range(lanes_per_encoder):
+        if pending_by_lane[lane]:
+            lane_batches[lane] = pending_by_lane[lane].popleft()
+            filled += 1
+    pulls = 0
+    while filled < lanes_per_encoder:
+        if pulls >= max_pulls_per_step:
+            missing = [i for i, b in enumerate(lane_batches) if b is None]
+            raise RuntimeError(
+                f"encoder dataloader did not yield samples for local_lanes={missing} "
+                f"in {max_pulls_per_step} pulls (encoder_dp_rank={encoder_dp_rank}); "
+                "check Energon worker rotation contract"
+            )
+        sample = next(loader_iter)
+        pulls += 1
+        wid = sample.pop(provenance_key, None)
+        if wid is None:
+            raise RuntimeError(
+                f"encoder sample missing {provenance_key!r}; "
+                "ensure build_multimodal_encoder was called with attach_provenance=True"
+            )
+        global_llm_lane = wid // num_workers_per_lane
+        local_lane = global_llm_lane - lane_offset
+        if not (0 <= local_lane < lanes_per_encoder):
+            raise RuntimeError(
+                f"worker_id={wid} maps to global_llm_lane={global_llm_lane}, "
+                f"outside encoder rank {encoder_dp_rank} range "
+                f"[{lane_offset}, {lane_offset + lanes_per_encoder})"
+            )
+        if lane_batches[local_lane] is None:
+            lane_batches[local_lane] = sample
+            filled += 1
+        else:
+            pending_by_lane[local_lane].append(sample)
+    return lane_batches, pulls
+
+
+def _build_routed_encoder_iterator(args, tp_group, encoder_dp_rank, llm_lanes):
+    """Build one Energon iterator per encoder rank and route samples back to LLM lanes.
+
+    The previous implementation built ``lanes_per_encoder`` independent Energon
+    iterators per encoder rank — one per LLM data lane — which produces
+    ``lanes_per_encoder × num_workers`` shard-open events at construction.
+    This collapses that to a single Energon iterator with
+    ``num_workers = args.num_workers * lanes_per_encoder``; each emitted batch
+    is routed to its owning lane using the producing worker's
+    ``WorkerConfig.global_worker_id()`` that the encoder batcher stamps onto
+    every batch.
+
+    Bit-wise sample parity with the per-lane iterator path is preserved by
+    Energon's design: ``global_workers = world_size * num_workers`` is invariant
+    under this reshape and per-worker seeds depend only on ``global_worker_id``
+    and ``seed_offset`` (see ``megatron/energon/worker.py``), so each worker
+    here produces the same shards in the same order as the per-lane worker it
+    replaces.
+    """
+    from examples.mimo.data.energon_multimodal_provider import (
+        MimoMultiModalPackingEncoder,
+        build_multimodal_encoder,
+    )
+    from megatron.energon import WorkerConfig, get_savable_loader, get_train_dataset
+    from megatron.energon.cache.no_cache import NoCachePool
+
+    if args.num_workers < 1:
+        raise ValueError(
+            "routed encoder iterator requires args.num_workers >= 1 "
+            "(global_worker_id -> lane mapping divides by num_workers_per_lane); "
+            f"got {args.num_workers}"
+        )
+    lanes_per_encoder = len(llm_lanes)
+    num_workers_per_lane = args.num_workers
+    num_workers_enc = num_workers_per_lane * lanes_per_encoder
+    lane_offset = llm_lanes[0]
+
+    tokenizer = _build_tokenizer(args)
+    encoder = build_multimodal_encoder(
+        args,
+        tokenizer,
+        encoder_name=getattr(args, "vision_encoder_key", "radio_encoder"),
+        encoder_input_key="x",
+        attach_provenance=True,
+    )
+    worker_config = WorkerConfig(
+        rank=encoder_dp_rank,
+        world_size=args.encoder_dp,
+        num_workers=num_workers_enc,
+        data_parallel_group=None,
+    )
+    debug_rank(
+        "building routed encoder dataloader "
+        f"encoder_dp_rank={encoder_dp_rank} encoder_dp={args.encoder_dp} "
+        f"num_workers_enc={num_workers_enc} lanes_per_encoder={lanes_per_encoder} "
+        f"lane_offset={lane_offset}"
+    )
+    dataset = get_train_dataset(
+        args.data_path,
+        batch_size=args.micro_batch_size,
+        task_encoder=encoder,
+        worker_config=worker_config,
+        packing_buffer_size=args.packing_buffer_size,
+        shuffle_buffer_size=args.shuffle_buffer_size,
+        max_samples_per_sequence=args.max_samples_per_sequence,
+    )
+    loader = get_savable_loader(
+        dataset,
+        cache_pool=NoCachePool(),
+        watchdog_timeout_seconds=5 * 60,
+        watchdog_initial_timeout_seconds=5 * 60,
+    )
+
+    loader_iter_holder: list = [iter(loader)]
+    # Dense integer keys (0..lanes_per_encoder-1) → use a list so the hot-path
+    # routing in ``_route_samples_to_lanes`` does O(1) array indexing rather
+    # than dict probing.
+    pending_by_lane: list[deque] = [deque() for _ in range(lanes_per_encoder)]
+    # Energon's SavableDataLoader rotates through every worker in one round,
+    # so a step worst case needs ``num_workers_enc`` pulls to fill every lane
+    # (one batch per worker, including the surplus to lanes that filled
+    # early). The 4× factor adds slack for transient rotation skew; we cap
+    # below by 2*num_workers_enc so configurations with high
+    # ``num_workers_per_lane`` aren't bounded too tightly. A genuine stall
+    # surfaces as a loud failure in ``_route_samples_to_lanes``.
+    max_pulls_per_step = max(4 * lanes_per_encoder, 2 * num_workers_enc)
+    provenance_key = MimoMultiModalPackingEncoder.PROVENANCE_KEY
+
+    def next_encoder_batch():
+        try:
+            lane_batches, _pulls = _route_samples_to_lanes(
+                loader_iter_holder[0],
+                lanes_per_encoder=lanes_per_encoder,
+                lane_offset=lane_offset,
+                num_workers_per_lane=num_workers_per_lane,
+                encoder_dp_rank=encoder_dp_rank,
+                pending_by_lane=pending_by_lane,
+                max_pulls_per_step=max_pulls_per_step,
+                provenance_key=provenance_key,
+            )
+        except StopIteration:
+            # One-shot per epoch on savable-loader exhaustion. Any partial
+            # ``lane_batches`` accumulated before the exception is dropped —
+            # those samples count against the worker's seed sequence and are
+            # never delivered. Acceptable because webdataset is streamed as
+            # a pseudo-infinite source; this branch is rarely hit in practice.
+            loader_iter_holder[0] = iter(loader)
+            lane_batches, _pulls = _route_samples_to_lanes(
+                loader_iter_holder[0],
+                lanes_per_encoder=lanes_per_encoder,
+                lane_offset=lane_offset,
+                num_workers_per_lane=num_workers_per_lane,
+                encoder_dp_rank=encoder_dp_rank,
+                pending_by_lane=pending_by_lane,
+                max_pulls_per_step=max_pulls_per_step,
+                provenance_key=provenance_key,
+            )
+        signatures = [EnergonIterator._batch_signature(batch) for batch in lane_batches]
+        return _combine_encoder_batches(lane_batches), signatures
+
+    return EnergonIterator(
+        None,
+        tp_group=tp_group,
+        source_rank=True,
+        random_seed=args.seed,
+        local_batch_fn=next_encoder_batch,
+        alignment_role="encoder",
+        llm_lanes=llm_lanes,
+    )
+
+
+def _llm_lanes_for_encoder_rank(args, encoder_dp_rank: int) -> list[int]:
+    """Return the contiguous LLM DP lanes owned by one encoder DP lane."""
+    scale = args.llm_dp // args.encoder_dp
+    start = encoder_dp_rank * scale
+    return list(range(start, start + scale))
+
+
+def _build_single_lane_iterator(args, tp_group, lane: int, role: str, random_seed: int):
+    """Build a deterministic loader for one LLM data lane."""
+    from examples.mimo.data.energon_multimodal_provider import build_multimodal_encoder
+    from megatron.energon import WorkerConfig, get_savable_loader, get_train_dataset
+
+    tokenizer = _build_tokenizer(args)
+    encoder = build_multimodal_encoder(
+        args,
+        tokenizer,
+        encoder_name=getattr(args, "vision_encoder_key", "radio_encoder"),
+        encoder_input_key="x",
+    )
+    worker_config = WorkerConfig(
+        rank=lane, world_size=args.llm_dp, num_workers=args.num_workers, data_parallel_group=None
+    )
+    debug_rank(
+        "building energon dataloader "
+        f"role={role} lane={lane} dp_world={args.llm_dp} batch_size={args.micro_batch_size}"
+    )
+    dataset = get_train_dataset(
+        args.data_path,
+        batch_size=args.micro_batch_size,
+        task_encoder=encoder,
+        worker_config=worker_config,
+        packing_buffer_size=args.packing_buffer_size,
+        shuffle_buffer_size=args.shuffle_buffer_size,
+        max_samples_per_sequence=args.max_samples_per_sequence,
+    )
+    from megatron.energon.cache.no_cache import NoCachePool
+
+    loader = get_savable_loader(
+        dataset,
+        cache_pool=NoCachePool(),
+        watchdog_timeout_seconds=5 * 60,
+        watchdog_initial_timeout_seconds=5 * 60,
+    )
+    return EnergonIterator(
+        loader,
+        tp_group=tp_group,
+        source_rank=True,
+        random_seed=random_seed,
+        alignment_role="encoder" if role.startswith("encoder") else "llm",
+        llm_lanes=[lane],
+    )
+
+
+def _combine_encoder_batches(batches: list[dict]) -> dict:
+    """Combine LLM-lane batches into one encoder batch and drop LLM-only metadata."""
+    if not batches:
+        raise RuntimeError("cannot combine an empty encoder batch list")
+
+    combined = {}
+    for key in ("input_ids", "labels", "loss_mask", "position_ids"):
+        values = [batch.get(key) for batch in batches if batch.get(key) is not None]
+        if values:
+            combined[key] = torch.cat(values, dim=0)
+
+    modality_values = [
+        batch.get("modality_inputs")
+        for batch in batches
+        if batch.get("modality_inputs") is not None
+    ]
+    if modality_values:
+        combined["modality_inputs"] = _merge_modality_inputs(modality_values)
+
+    return combined
+
+
+# ---------------------------------------------------------------------------
+# Schema-aware merge of ``modality_inputs`` across LLM lanes served by one
+# encoder rank. The structure produced by the dataset is fixed:
+#
+#   modality_inputs = {
+#       "<modality_type>": {                # e.g. "images"
+#           "<encoder_name>": {              # e.g. "radio_encoder"
+#               <packed_buffer_key>: Tensor of shape (1, T_lane, C),
+#               "imgs_sizes":        Tensor of shape (N_images_lane, 2),
+#               "packed_seq_params": PackedSeqParams describing the T axis,
+#           }
+#       }
+#   }
+#
+# Each per-lane tensor has a known concat semantics; we encode them
+# explicitly rather than inferring from runtime shape variation:
+#
+#   * packed image buffer: leading dim is always 1 (lane batch == MBS=1);
+#     dim 1 is the variable token axis -> concat along dim 1.
+#   * ``imgs_sizes``: dim 0 = per-lane image count -> concat along dim 0.
+#   * ``packed_seq_params``: cu_seqlens need offset-shifting -> custom merge.
+# ---------------------------------------------------------------------------
+
+
+def _merge_modality_inputs(per_lane_modality_inputs):
+    """Merge the ``modality_inputs`` field of N per-lane batches."""
+    merged = {}
+    modality_types = set().union(
+        *(p.keys() for p in per_lane_modality_inputs if isinstance(p, dict))
+    )
+    for mod_type in sorted(modality_types):
+        per_lane_mod = [p[mod_type] for p in per_lane_modality_inputs if mod_type in p]
+        merged_per_encoder = {}
+        encoder_names = set().union(
+            *(p.keys() for p in per_lane_mod if isinstance(p, dict))
+        )
+        for enc_name in sorted(encoder_names):
+            per_lane_enc = [p[enc_name] for p in per_lane_mod if enc_name in p]
+            merged_per_encoder[enc_name] = _merge_encoder_inputs(per_lane_enc)
+        merged[mod_type] = merged_per_encoder
+    return merged
+
+
+def _merge_encoder_inputs(per_lane_enc_inputs):
+    """Merge per-lane encoder-input dicts using a key-explicit schema.
+
+    Keys are categorized by name / value type:
+      * ``packed_seq_params`` -> ``_concat_packed_seq_params``
+      * ``imgs_sizes``        -> ``torch.cat(..., dim=0)``
+      * any other ``Tensor``  -> packed image buffer ``(1, T, C)``,
+                                 concat along dim 1
+    Anything else triggers a loud error so a future schema change has to be
+    handled here rather than guessed at by a heuristic.
+    """
+    merged = {}
+    keys = set().union(*(p.keys() for p in per_lane_enc_inputs if isinstance(p, dict)))
+    for key in sorted(keys):
+        vals = [p[key] for p in per_lane_enc_inputs if key in p]
+        if not vals:
+            continue
+        first = vals[0]
+        if isinstance(first, PackedSeqParams):
+            merged[key] = _concat_packed_seq_params(vals)
+        elif key == "imgs_sizes":
+            assert all(isinstance(v, torch.Tensor) for v in vals), (
+                f"imgs_sizes must be tensors, got {[type(v).__name__ for v in vals]}"
+            )
+            merged[key] = torch.cat(vals, dim=0)
+        elif isinstance(first, torch.Tensor):
+            # Packed image buffer: leading dim is the lane batch (==1); the
+            # variable token axis is dim 1.
+            assert first.dim() >= 2 and first.shape[0] == 1, (
+                f"unexpected packed-buffer shape for encoder key {key!r}: "
+                f"{tuple(first.shape)} (expected leading dim 1)"
+            )
+            merged[key] = torch.cat(vals, dim=1)
+        else:
+            raise TypeError(
+                f"unsupported encoder-input value for key {key!r}: "
+                f"{type(first).__name__}; extend _merge_encoder_inputs"
+            )
+    return merged
+
+
+def _concat_packed_seq_params(values: list) -> PackedSeqParams:
+    """Merge per-lane PackedSeqParams into one set covering the merged flat buffer.
+
+    The dim-0 image buffers from each lane are concatenated by the surrounding
+    tensor merge; here we re-number cu_seqlens so they index into that merged
+    buffer. Mirrors the offset-shift rule in
+    ``megatron.energon.task_encoder.multimodal.encoder``.
+    """
+    first = values[0]
+    for v in values[1:]:
+        if v.qkv_format != first.qkv_format:
+            raise ValueError(
+                f"qkv_format mismatch across encoder lanes: "
+                f"{first.qkv_format!r} vs {v.qkv_format!r}"
+            )
+        if v.local_cp_size != first.local_cp_size or v.cp_group is not first.cp_group:
+            raise ValueError("CP fields mismatch across encoder lanes; refusing to merge")
+
+    def _concat_cu(attr: str):
+        per_lane = [getattr(v, attr) for v in values]
+        if per_lane[0] is None:
+            if not all(x is None for x in per_lane):
+                raise ValueError(f"{attr} present on some lanes but not others")
+            return None
+        merged = [per_lane[0]]
+        offset = int(per_lane[0][-1].item())
+        for cu in per_lane[1:]:
+            merged.append(cu[1:] + offset)
+            offset += int(cu[-1].item())
+        return torch.cat(merged)
+
+    def _max_scalar(attr: str):
+        per_lane = [getattr(v, attr) for v in values]
+        if per_lane[0] is None:
+            if not all(x is None for x in per_lane):
+                raise ValueError(f"{attr} present on some lanes but not others")
+            return None
+        if torch.is_tensor(per_lane[0]):
+            return torch.stack([x.reshape(()) for x in per_lane]).max()
+        return max(per_lane)
+
+    def _sum_or_none(attr: str):
+        per_lane = [getattr(v, attr) for v in values]
+        if all(x is None for x in per_lane):
+            return None
+        if any(x is None for x in per_lane):
+            raise ValueError(f"{attr} present on some lanes but not others")
+        return sum(per_lane)
+
+    return PackedSeqParams(
+        qkv_format=first.qkv_format,
+        cu_seqlens_q=_concat_cu("cu_seqlens_q"),
+        cu_seqlens_kv=_concat_cu("cu_seqlens_kv"),
+        cu_seqlens_q_padded=_concat_cu("cu_seqlens_q_padded"),
+        cu_seqlens_kv_padded=_concat_cu("cu_seqlens_kv_padded"),
+        max_seqlen_q=_max_scalar("max_seqlen_q"),
+        max_seqlen_kv=_max_scalar("max_seqlen_kv"),
+        total_tokens=_sum_or_none("total_tokens"),
+        local_cp_size=first.local_cp_size,
+        cp_group=first.cp_group,
+    )
+
+
+def _build_tokenizer(args):
+    from megatron.core.tokenizers.vision.libraries.multimodal_tokenizer import (
+        MegatronMultimodalTokenizer,
+    )
+
+    return MegatronMultimodalTokenizer(
+        path=args.tokenizer_model,
+        prompt_format=args.tokenizer_prompt_format,
+        special_tokens=[args.image_token],
+        image_tag_type=args.image_tag_type,
+        force_system_message=args.force_system_message,
+    )
+
+
+class EnergonIterator:
+    """Endless wrapper around an Energon dataloader with TP-rank-0 ownership."""
+
+    def __init__(
+        self,
+        dataloader,
+        tp_group=None,
+        source_rank: bool = True,
+        random_seed: Optional[int] = None,
+        local_batch_fn: Optional[Callable[[], dict]] = None,
+        alignment_role: Optional[str] = None,
+        llm_lanes: Optional[list[int]] = None,
+    ) -> None:
+        self._dataloader = dataloader
+        self._iterator = None
+        self._tp_group = tp_group
+        self._source_rank = source_rank
+        self._local_batch_fn = local_batch_fn
+        self._alignment_role = alignment_role
+        self._llm_lanes = llm_lanes or []
+        self._prefetched = None
+        self._prefetched_component_signatures = None
+        self._local_component_signatures = None
+        self._python_random_state = None
+        if random_seed is not None:
+            rng = random.Random(random_seed)
+            self._python_random_state = rng.getstate()
+
+    def __iter__(self):
+        return self
+
+    def __next__(self):
+        if self._prefetched is not None:
+            batch = self._prefetched
+            self._prefetched = None
+            return batch
+
+        batch = self._next_local_batch() if self._source_rank else None
+        component_signatures = self._current_component_signatures(batch)
+        if is_process_group_member(self._tp_group) and self._tp_group.size() > 1:
+            obj = [(batch, component_signatures)]
+            dist.broadcast_object_list(obj, src=self._tp_source_rank(), group=self._tp_group)
+            batch, component_signatures = obj[0]
+        self._prefetched_component_signatures = component_signatures
+        return batch
+
+    def peek_alignment(self):
+        """Read and retain the next batch, returning lane signatures from TP source ranks."""
+        if self._prefetched is None:
+            self._prefetched = next(self)
+        if not self._source_rank or self._alignment_role is None:
+            return None
+        signatures = self._prefetched_component_signatures
+        if signatures is None:
+            signatures = [self._batch_signature(self._prefetched)]
+        return {
+            "role": self._alignment_role,
+            "llm_lanes": self._llm_lanes,
+            "signatures": signatures,
+        }
+
+    def _next_local_batch(self):
+        """Read the next local Energon batch on the TP source rank."""
+        if self._python_random_state is None:
+            result = self._read_next_local_batch()
+            return self._extract_batch_and_signatures(result)
+
+        global_random_state = random.getstate()
+        try:
+            random.setstate(self._python_random_state)
+            result = self._read_next_local_batch()
+            batch = self._extract_batch_and_signatures(result)
+            self._python_random_state = random.getstate()
+            return batch
+        finally:
+            random.setstate(global_random_state)
+
+    def _extract_batch_and_signatures(self, result):
+        """Handle local batch providers that also return component signatures."""
+        self._local_component_signatures = None
+        if isinstance(result, tuple) and len(result) == 2:
+            batch, signatures = result
+            self._local_component_signatures = signatures
+            return batch
+        return result
+
+    def _read_next_local_batch(self):
+        """Read from the underlying dataloader, cycling at epoch boundaries."""
+        if self._local_batch_fn is not None:
+            return self._local_batch_fn()
+        if self._iterator is None:
+            self._iterator = iter(self._dataloader)
+        try:
+            return next(self._iterator)
+        except StopIteration:
+            self._iterator = iter(self._dataloader)
+            return next(self._iterator)
+
+    def _current_component_signatures(self, batch):
+        """Return per-lane signatures for the current batch if they can be inferred."""
+        if batch is None:
+            return None
+        if self._local_component_signatures is not None:
+            return self._local_component_signatures
+        return [self._batch_signature(batch)]
+
+    def _tp_source_rank(self) -> int:
+        """Return the global source rank for the local TP batch broadcast."""
+        if hasattr(dist, "get_global_rank"):
+            return dist.get_global_rank(self._tp_group, 0)
+        return dist.get_process_group_ranks(self._tp_group)[0]
+
+    @classmethod
+    def _batch_signature(cls, batch: dict) -> tuple[int, ...]:
+        """Return a compact signature for cross-grid data-alignment checks."""
+        image_tensor = cls._nested_get(batch, ("modality_inputs", "images"))
+        if isinstance(image_tensor, dict):
+            image_tensor = cls._first_tensor(image_tensor)
+        packing_kwargs = batch.get("packing_kwargs")
+        return (
+            cls._checksum_tensor(batch.get("input_ids")),
+            cls._checksum_tensor(batch.get("labels")),
+            int(batch.get("loss_mask", torch.zeros(1)).sum().item()),
+            0 if image_tensor is None else int(image_tensor.shape[0]),
+            cls._checksum_tensor(image_tensor),
+            cls._checksum_packing_kwargs(packing_kwargs),
+        )
+
+    @staticmethod
+    def _nested_get(value: dict, keys: tuple[str, ...]):
+        """Return a nested dict value if every key exists."""
+        current = value
+        for key in keys:
+            if not isinstance(current, dict) or key not in current:
+                return None
+            current = current[key]
+        return current
+
+    @classmethod
+    def _first_tensor(cls, value):
+        """Return the first tensor inside a nested mapping."""
+        if isinstance(value, torch.Tensor):
+            return value
+        if isinstance(value, dict):
+            for item in value.values():
+                tensor = cls._first_tensor(item)
+                if tensor is not None:
+                    return tensor
+        return None
+
+    @classmethod
+    def _checksum_packing_kwargs(cls, packing_kwargs: Optional[dict]) -> int:
+        """Checksum packed-sequence metadata used by the language model."""
+        if packing_kwargs is None:
+            return 0
+        checksum = 0
+        for key in sorted(packing_kwargs):
+            value = packing_kwargs[key]
+            if isinstance(value, torch.Tensor):
+                value_checksum = cls._checksum_tensor(value)
+            elif value is None:
+                value_checksum = 0
+            elif isinstance(value, str):
+                value_checksum = sum(value.encode("utf-8"))
+            else:
+                value_checksum = int(value)
+            checksum = (checksum * 131 + value_checksum) % 2_147_483_647
+        return checksum
+
+    @staticmethod
+    def _checksum_tensor(tensor: Optional[torch.Tensor]) -> int:
+        """Return a stable full-tensor checksum for a CPU tensor-like batch field."""
+        if tensor is None or tensor.numel() == 0:
+            return 0
+        tensor = tensor.detach().cpu().contiguous()
+        digest = hashlib.blake2b(digest_size=8)
+        digest.update(str(tuple(tensor.shape)).encode("ascii"))
+        digest.update(str(tensor.dtype).encode("ascii"))
+        digest.update(memoryview(tensor.numpy()).cast("B"))
+        return int.from_bytes(digest.digest(), byteorder="big", signed=False)
diff --git a/examples/mimo/data/hetero_mock.py b/examples/mimo/data/hetero_mock.py
new file mode 100644
index 00000000000..137028a68e1
--- /dev/null
+++ b/examples/mimo/data/hetero_mock.py
@@ -0,0 +1,133 @@
+# Copyright (c) 2026, NVIDIA CORPORATION. All rights reserved.
+
+"""Mock VLM data provider for heterogeneous MIMO training examples."""
+
+from __future__ import annotations
+
+import argparse
+
+import torch
+
+from examples.mimo.utils.hetero import debug_rank
+
+
+def validate_mock_data_args(args: argparse.Namespace) -> None:
+    """Validate synthetic next-token VLM data constraints."""
+    image_seq_length = args.image_seq_length or args.seq_length // 2
+    if image_seq_length >= args.seq_length:
+        raise ValueError("--image-seq-length must be smaller than --seq-length")
+    if args.seq_length - image_seq_length < 2:
+        raise ValueError("mock next-token training needs at least two text tokens")
+
+
+class MockVLMIterator:
+    """Infinite iterator yielding synthetic VLM-like microbatches."""
+
+    def __init__(
+        self, args: argparse.Namespace, micro_batch_size: int, encoder_name: str, seed: int
+    ) -> None:
+        self.args = args
+        self.micro_batch_size = micro_batch_size
+        self.encoder_name = encoder_name
+        self.image_seq_length = args.image_seq_length or args.seq_length // 2
+        self.vision_encoder_key = getattr(args, "vision_encoder_key", "clip_encoder")
+        self.vision_input_mode = getattr(args, "vision_input_mode", "hidden_states")
+        self.dtype = torch.float32 if args.fp32 else torch.bfloat16
+        self.generator = torch.Generator(device="cuda")
+        self.generator.manual_seed(seed)
+        if self.image_seq_length >= args.seq_length:
+            raise ValueError("--image-seq-length must be smaller than --seq-length")
+
+    def __iter__(self):
+        return self
+
+    def __next__(self):
+        args = self.args
+        debug_rank(
+            f"mock batch start: micro_batch_size={self.micro_batch_size}, "
+            f"image_seq_length={self.image_seq_length}"
+        )
+        image_tokens = torch.full(
+            (self.micro_batch_size, self.image_seq_length),
+            args.image_token_id,
+            dtype=torch.long,
+            device="cuda",
+        )
+        text_tokens = torch.randint(
+            1,
+            args.vocab_size,
+            (self.micro_batch_size, args.seq_length - self.image_seq_length),
+            device="cuda",
+            generator=self.generator,
+        )
+        special_token_ids = {args.image_token_id, args.pad_token_id}
+        replacement_token_id = next(
+            (
+                token_id
+                for token_id in range(1, args.vocab_size)
+                if token_id not in special_token_ids
+            ),
+            None,
+        )
+        if replacement_token_id is None:
+            raise RuntimeError("mock data needs at least one non-special token id")
+        if 1 <= args.image_token_id < args.vocab_size:
+            text_tokens[text_tokens == args.image_token_id] = replacement_token_id
+        if 1 <= args.pad_token_id < args.vocab_size:
+            text_tokens[text_tokens == args.pad_token_id] = replacement_token_id
+        input_ids = torch.cat([image_tokens, text_tokens], dim=1)
+
+        labels = torch.full_like(input_ids, -100)
+        labels[:, :-1] = input_ids[:, 1:]
+        labels[(labels == args.image_token_id) | (labels == args.pad_token_id)] = -100
+        loss_mask = (labels != -100).to(dtype=torch.float32)
+
+        if self.vision_input_mode == "pixels":
+            encoder_inputs = {
+                self.vision_encoder_key: {
+                    "x": torch.randn(
+                        self.micro_batch_size * args.num_image_tiles,
+                        3,
+                        args.img_h,
+                        args.img_w,
+                        device="cuda",
+                        dtype=self.dtype,
+                        generator=self.generator,
+                    )
+                }
+            }
+        else:
+            encoder_hidden_states = torch.randn(
+                self.image_seq_length,
+                self.micro_batch_size,
+                args.hidden_size,
+                device="cuda",
+                dtype=self.dtype,
+                generator=self.generator,
+            )
+            encoder_inputs = {
+                self.vision_encoder_key: {
+                    "hidden_states": encoder_hidden_states,
+                    "attention_mask": None,
+                }
+            }
+
+        num_image_placeholders = (input_ids == args.image_token_id).sum().item()
+        expected_image_placeholders = self.image_seq_length * self.micro_batch_size
+        if num_image_placeholders != expected_image_placeholders:
+            raise RuntimeError(
+                f"mock batch has {num_image_placeholders} image placeholders, "
+                f"expected {expected_image_placeholders}"
+            )
+
+        debug_rank("mock batch ready")
+        return {
+            "input_ids": input_ids,
+            "labels": labels,
+            "loss_mask": loss_mask,
+            "position_ids": torch.arange(args.seq_length, device="cuda")
+            .unsqueeze(0)
+            .expand(self.micro_batch_size, -1)
+            .clone(),
+            "modality_inputs": {self.encoder_name: {**encoder_inputs}},
+        }
diff --git a/examples/mimo/docs/e2e_training_parity_plan.md b/examples/mimo/docs/e2e_training_parity_plan.md
new file mode 100644
index 00000000000..b2f84090a08
--- /dev/null
+++ b/examples/mimo/docs/e2e_training_parity_plan.md
@@ -0,0 +1,72 @@
+# E2E Training Parity Plan
+
+This note tracks the plan for checking end-to-end training parity between the
+previous `examples/mimo/train.py` flow from `feat/nemotron-moe-vlm-mimo` and the
+new heterogenous `examples/mimo/train_hetero.py` flow.
+
+## Goal
+
+Verify that the new heterogenous MIMO training loop matches the previous
+Megatron `pretrain()`-based flow for the Nemotron 20L VLM workflow. The strongest
+parity signal is matching behavior on a frozen batch stream before comparing live
+Energon training runs.
+
+## Plan
+
+1. Compare resolved training configuration.
+   - Dump the final args used by old `train.py`.
+   - Dump the final args used by new `train_hetero.py`.
+   - Compare behavior-relevant fields: model config, vision config, MoE config,
+     TP/PP/EP/ETP/EDP, batch sizes, optimizer, scheduler, seeds, loss scaling,
+     per-token loss, and dataloader settings.
+
+2. Start both runs from the same initial weights.
+   - Prefer a canonical initialized checkpoint or state dict over relying only on
+     seed-based initialization.
+   - Compare parameter hashes by logical module: vision encoder, LLM backbone,
+     MoE experts, router parameters, and projector/MIMO bridge.
+
+3. Validate data parity before training.
+   - First use a recorded frozen batch stream, not live Energon.
+   - Dump exact batch tensors and metadata from the old path: tokens, labels,
+     loss mask, position ids, modality inputs, packed sequence params, and sample
+     signatures if available.
+   - Feed the same frozen batches to the new heterogenous loop and compare batch
+     hashes before forward.
+
+4. Run forward-only parity.
+   - Use the same initialized weights and same frozen batch.
+   - Disable optimizer updates.
+   - Compare logits checksums where practical, unreduced loss numerator, token
+     denominator, normalized loss, and auxiliary/router losses.
+
+5. Run single-step training parity.
+   - Use the same frozen batch.
+   - Run forward, backward, optimizer step, and LR scheduler step.
+   - Compare loss before step, grad norm, skipped/nan flags, LR, selected
+     parameter deltas, and post-step parameter hashes.
+
+6. Run short frozen-stream loss-curve parity.
+   - Use a fixed stream of 10 to 20 frozen batches.
+   - Compare per-iteration loss, grad norm, LR, loss scale, skipped/nan counts,
+     consumed samples, and token counts.
+
+7. Run actual Energon parity.
+   - Run the old `train.py` flow and the new `train_hetero.py` flow against the
+     real Nemotron 20L Energon setup.
+   - Log sample signatures per global step in both paths.
+   - First verify that both paths consume the same samples in the same order.
+   - Compare loss curves only after sample order parity is established.
+
+## Expected Limits
+
+Bitwise parity may not be realistic between the old colocated Megatron
+`pretrain()` path and the new non-colocated heterogenous grids because collective
+ordering, parameter partitioning, and optimizer sharding can differ. The first
+strict gates should therefore be configuration parity, initial-weight parity,
+frozen-batch forward parity, token-count parity, LR schedule parity, and a short
+frozen-batch training curve within a tight tolerance.
+
+The known parity gap is the old `--use-loss-scaling` path. The new heterogenous
+loop uses per-token global loss normalization, but it does not yet implement the
+old optional sqrt-weighted scaled loss behavior.
diff --git a/examples/mimo/model_providers/nemotron_moe_vlm.py b/examples/mimo/model_providers/nemotron_moe_vlm.py
new file mode 100644
index 00000000000..cc50f5a2b61
--- /dev/null
+++ b/examples/mimo/model_providers/nemotron_moe_vlm.py
@@ -0,0 +1,745 @@
+# Copyright (c) 2026, NVIDIA CORPORATION. All rights reserved.
+
+"""Model providers and configs for MIMO VLM examples."""
+
+from __future__ import annotations
+
+import argparse
+from contextlib import nullcontext
+from typing import Optional
+
+import torch
+
+from examples.mimo.utils.hetero import (
+    debug_rank,
+    get_grid_dim_size,
+    get_group_rank_or,
+    get_group_size_or,
+    is_process_group_member,
+)
+from megatron.core.activations import fast_gelu, squared_relu
+from megatron.core.hyper_comm_grid import HyperCommGrid
+from megatron.core.models.gpt.gpt_layer_specs import get_gpt_layer_with_transformer_engine_spec
+from megatron.core.models.gpt.gpt_model import GPTModel
+from megatron.core.models.mamba.mamba_layer_specs import mamba_stack_spec
+from megatron.core.models.mamba.mamba_model import MambaModel
+from megatron.core.models.mimo.submodules.vision import VisionModalitySubmodules
+from megatron.core.models.multimodal.llava_model import pixel_shuffle
+from megatron.core.models.vision.multimodal_projector import MultimodalProjector
+from megatron.core.models.vision.radio import RADIOViTModel
+from megatron.core.models.vision.vit_layer_specs import get_vit_layer_with_transformer_engine_spec
+from megatron.core.process_groups_config import ProcessGroupCollection
+from megatron.core.transformer.enums import AttnBackend
+from megatron.core.transformer.mlp import MLP, MLPSubmodules
+from megatron.core.transformer.spec_utils import ModuleSpec
+from megatron.core.transformer.transformer_config import TransformerConfig
+from megatron.core.transformer.utils import sharded_state_dict_default
+
+try:
+    from megatron.core.extensions.transformer_engine import (
+        TEColumnParallelLinear,
+        TELayerNormColumnParallelLinear,
+        TERowParallelLinear,
+    )
+except ImportError:
+    TEColumnParallelLinear = None
+    TELayerNormColumnParallelLinear = None
+    TERowParallelLinear = None
+
+MOCK_MODEL_PROVIDER = "mock"
+NEMOTRON_20L_MODEL_PROVIDER = "nemotron-moe-vlm-20l"
+NEMOTRON_54L_MODEL_PROVIDER = "nemotron-moe-vlm-54l"
+NEMOTRON_20L_IMAGE_SEQ_PER_TILE = 256
+NEMOTRON_20L_MAX_NUM_TILES = 12
+NEMOTRON_20L_DEFAULT_STAGE = "stage2"
+MOCK_VISION_ENCODER_KEY = "clip_encoder"
+NEMOTRON_VISION_ENCODER_KEY = "radio_encoder"
+
+
+def is_nemotron_20l(args: argparse.Namespace) -> bool:
+    """Return whether the Nemotron6-MoE VLM 20L provider is active."""
+    return args.model_provider == NEMOTRON_20L_MODEL_PROVIDER
+
+
+def is_nemotron_moe_vlm(args: argparse.Namespace) -> bool:
+    """Return whether a Nemotron6-MoE VLM provider is active."""
+    return args.model_provider in (NEMOTRON_20L_MODEL_PROVIDER, NEMOTRON_54L_MODEL_PROVIDER)
+
+
+def add_model_provider_args(parser: argparse.ArgumentParser) -> None:
+    """Register model-provider arguments for hetero MIMO examples."""
+    provider = parser.add_argument_group("model provider")
+    provider.add_argument(
+        "--model-provider",
+        choices=[MOCK_MODEL_PROVIDER, NEMOTRON_20L_MODEL_PROVIDER, NEMOTRON_54L_MODEL_PROVIDER],
+        default=MOCK_MODEL_PROVIDER,
+    )
+    provider.add_argument("--hidden-size", type=int, default=128)
+    provider.add_argument("--num-layers", type=int, default=2)
+    provider.add_argument("--num-attention-heads", type=int, default=8)
+    provider.add_argument("--vocab-size", type=int, default=512)
+    provider.add_argument("--seq-length", type=int, default=32)
+    provider.add_argument("--image-seq-length", type=int, default=None)
+    provider.add_argument("--image-token-id", type=int, default=511)
+    provider.add_argument("--pad-token-id", type=int, default=0)
+    provider.add_argument("--image-token", type=str, default="<image>")
+    provider.add_argument("--tokenizer-model", type=str, default=None)
+    provider.add_argument("--tokenizer-prompt-format", type=str, default="nemotron6-moe")
+    provider.add_argument("--image-tag-type", type=str, default="")
+    provider.add_argument("--force-system-message", action="store_true")
+    provider.add_argument("--num-moe-experts", type=int, default=4)
+    provider.add_argument("--moe-router-topk", type=int, default=1)
+    provider.add_argument(
+        "--moe-router-force-load-balancing",
+        action="store_true",
+        help="Use random router logits to force MoE load balancing for benchmark/debug runs.",
+    )
+    provider.add_argument("--moe-grouped-gemm", action="store_true")
+    provider.add_argument("--img-h", type=int, default=512)
+    provider.add_argument("--img-w", type=int, default=512)
+    provider.add_argument("--patch-dim", type=int, default=16)
+    provider.add_argument("--class-token-len", type=int, default=8)
+    provider.add_argument(
+        "--num-image-tiles",
+        "--max-num-tiles",
+        dest="num_image_tiles",
+        type=int,
+        default=NEMOTRON_20L_MAX_NUM_TILES,
+    )
+    provider.add_argument("--vision-model-type", type=str, default="radio")
+    provider.add_argument("--pixel-shuffle", action="store_true")
+    provider.add_argument("--disable-vision-class-token", action="store_true")
+    provider.add_argument("--use-tiling", action="store_true")
+    provider.add_argument("--use-thumbnail", action="store_true")
+    provider.add_argument(
+        "--dynamic-resolution",
+        action=argparse.BooleanOptionalAction,
+        default=None,
+        help=(
+            "Patchify each image at its native aspect ratio with a token budget instead of "
+            "fixed-tile resize. Enabled by default for Nemotron6-MoE VLM providers. "
+            "Pass --no-dynamic-resolution to disable."
+        ),
+    )
+    provider.add_argument(
+        "--dynamic-resolution-min-patches",
+        type=int,
+        default=4,
+        help="Lower bound on per-image patch count under dynamic resolution.",
+    )
+    provider.add_argument(
+        "--dynamic-resolution-max-patches",
+        type=int,
+        default=0,
+        help="Upper bound on per-image patch count under dynamic resolution; 0 = uncapped.",
+    )
+    provider.add_argument("--freeze-lm", action="store_true")
+    provider.add_argument("--freeze-vit", action="store_true")
+    provider.add_argument("--freeze-projection", action="store_true")
+    provider.add_argument("--training-stage", choices=["stage1", "stage2", "stage3"], default=None)
+    provider.add_argument("--fp32", action="store_true")
+
+
+def prepare_model_provider_args(args: argparse.Namespace) -> None:
+    """Apply provider defaults and derived tokenizer/vision settings."""
+    apply_model_provider_defaults(args)
+    apply_training_stage(args)
+    resolve_image_token_id(args)
+    args.vision_encoder_key = get_encoder_module_name(args)
+    args.vision_input_mode = "pixels" if is_nemotron_moe_vlm(args) else "hidden_states"
+
+
+def apply_model_provider_defaults(args: argparse.Namespace) -> None:
+    """Apply Nemotron6-MoE VLM model defaults."""
+    if not is_nemotron_moe_vlm(args):
+        return
+
+    args.num_layers = 54 if args.model_provider == NEMOTRON_54L_MODEL_PROVIDER else 20
+    args.hidden_size = 2688
+    args.num_attention_heads = 32
+    args.num_moe_experts = 128
+    args.moe_router_topk = 6
+    args.moe_grouped_gemm = True
+    args.hybrid_layer_pattern = (
+        "MEMEM*EMEM*EMEM*EMEM*EMEMEM*EMEMEM*EMEMEM*EMEMEM*EMEME"
+        if args.model_provider == NEMOTRON_54L_MODEL_PROVIDER
+        else "MEMEM*EMEMEM*EMEMEM*"
+    )
+    args.seq_length = 8192
+    args.image_seq_length = NEMOTRON_20L_IMAGE_SEQ_PER_TILE * args.num_image_tiles
+    args.pixel_shuffle = True
+    args.disable_vision_class_token = True
+    if args.dynamic_resolution is None:
+        args.dynamic_resolution = True
+    if args.dynamic_resolution:
+        # Dynamic-resolution strategy reads `use_thumbnail` inside
+        # `DynamicResolutionImageTilingStrategy` and emits an extra thumbnail
+        # tile when True. `use_tiling` is inert in this branch (the fixed-tile
+        # path is unreachable), but pin it False for args-dump parity.
+        args.use_tiling = False
+        args.use_thumbnail = False
+    else:
+        args.use_tiling = True
+        args.use_thumbnail = True
+
+
+def apply_training_stage(args: argparse.Namespace) -> None:
+    """Apply stage-specific freeze flags for the Nemotron VLM recipe."""
+    if not is_nemotron_moe_vlm(args):
+        return
+
+    stage = args.training_stage or NEMOTRON_20L_DEFAULT_STAGE
+    if stage == "stage1":
+        args.freeze_vit = True
+        args.freeze_lm = True
+    elif stage == "stage2":
+        args.freeze_vit = True
+    elif stage != "stage3":
+        raise ValueError(f"unsupported Nemotron VLM training stage: {stage}")
+    args.training_stage = stage
+
+
+def resolve_image_token_id(args: argparse.Namespace) -> None:
+    """Resolve image, pad, and vocab ids from the configured tokenizer."""
+    if not is_nemotron_moe_vlm(args) or not args.tokenizer_model:
+        return
+
+    from megatron.core.tokenizers.vision.libraries.multimodal_tokenizer import (
+        MegatronMultimodalTokenizer,
+    )
+
+    tokenizer = MegatronMultimodalTokenizer(
+        path=args.tokenizer_model,
+        prompt_format=args.tokenizer_prompt_format,
+        special_tokens=[args.image_token],
+        image_tag_type=args.image_tag_type,
+        force_system_message=args.force_system_message,
+    )
+    image_token_id = tokenizer.convert_tokens_to_ids(args.image_token)
+    if image_token_id is None:
+        raise RuntimeError(
+            f"tokenizer at {args.tokenizer_model} did not produce an id for {args.image_token}"
+        )
+    args.image_token_id = int(image_token_id)
+    if tokenizer.pad is not None:
+        args.pad_token_id = int(tokenizer.pad)
+    if tokenizer.vocab_size is not None:
+        args.vocab_size = int(tokenizer.vocab_size)
+
+
+def validate_model_provider_args(args: argparse.Namespace) -> None:
+    """Validate derived model-provider arguments."""
+    if args.hidden_size % args.num_attention_heads != 0:
+        raise ValueError("--hidden-size must be divisible by --num-attention-heads")
+    if not 0 <= args.image_token_id < args.vocab_size:
+        raise ValueError("--image-token-id must be within --vocab-size")
+    if not 0 <= args.pad_token_id < args.vocab_size:
+        raise ValueError("--pad-token-id must be within --vocab-size")
+
+
+def _pixel_shuffle_dynamic_res(x, imgs_sizes, patch_dim, scale_factor=0.5, version=2):
+    """Pixel shuffle for dynamic resolution (variable tile sizes).
+
+    Splits the packed sequence by per-tile lengths, applies pixel shuffle to each
+    tile, then re-concatenates. Mirrors sasatheesh/pre-vlm-05's
+    llava_model.pixel_shuffle_dynamic_res; vendored here to avoid touching the
+    upstream-owned llava_model.py.
+    """
+    seq_lens = torch.prod(imgs_sizes // patch_dim, dim=-1)
+    splits = torch.split(x, seq_lens.tolist(), dim=-2)
+
+    out = []
+    for i, sv in enumerate(splits):
+        h = imgs_sizes[i][0] // patch_dim
+        w = imgs_sizes[i][1] // patch_dim
+        sv = sv.reshape(sv.shape[0], h, w, -1)
+
+        n, h, w, c = sv.size()
+        sv = sv.view(n, h, int(w * scale_factor), int(c / scale_factor))
+        sv = sv.permute(0, 2, 1, 3).contiguous()
+        sv = sv.view(
+            n,
+            int(w * scale_factor),
+            int(h * scale_factor),
+            int(c / (scale_factor * scale_factor)),
+        )
+
+        if version == 2:
+            sv = sv.permute(0, 2, 1, 3).contiguous()
+
+        sv = sv.reshape(sv.shape[0], -1, sv.shape[-1])
+        out.append(sv)
+
+    return torch.cat(out, dim=-2)
+
+
+class RADIOEncoderWrapper(torch.nn.Module):
+    """RADIO encoder wrapper matching the Nemotron6-MoE VLM provider."""
+
+    def __init__(
+        self,
+        transformer_config: TransformerConfig,
+        transformer_layer_spec: ModuleSpec,
+        pg_collection: Optional[ProcessGroupCollection],
+        img_h: int,
+        img_w: int,
+        patch_dim: int,
+        class_token_len: int,
+        drop_class_token: bool = True,
+        apply_pixel_shuffle: bool = True,
+        force_eval_mode: bool = False,
+        dynamic_resolution: bool = False,
+    ) -> None:
+        super().__init__()
+        self.class_token_len = class_token_len
+        self.drop_class_token = drop_class_token
+        self.apply_pixel_shuffle = apply_pixel_shuffle
+        self.force_eval_mode = force_eval_mode
+        self.dynamic_resolution = dynamic_resolution
+        self.radio_model = RADIOViTModel(
+            transformer_config=transformer_config,
+            transformer_layer_spec=transformer_layer_spec,
+            patch_dim=patch_dim,
+            img_h=img_h,
+            img_w=img_w,
+            class_token_len=class_token_len,
+            add_class_token=True,
+            max_img_h=2048,
+            max_img_w=2048,
+            has_cpe=True,
+            embedder_bias=False,
+            dynamic_resolution=dynamic_resolution,
+            pg_collection=pg_collection,
+        )
+        if self.force_eval_mode:
+            self.radio_model.eval()
+
+    def train(self, mode: bool = True):
+        """Keep frozen RADIO in eval mode while allowing the projection to train."""
+        super().train(mode)
+        if self.force_eval_mode:
+            self.radio_model.eval()
+        return self
+
+    @property
+    def config(self):
+        """Expose the underlying RADIO config for DDP wrapping."""
+        return self.radio_model.config
+
+    def forward(
+        self,
+        x: torch.Tensor,
+        imgs_sizes: Optional[torch.Tensor] = None,
+        packed_seq_params=None,
+    ) -> torch.Tensor:
+        """Run RADIO, drop class tokens, and apply pixel shuffle."""
+        context = torch.no_grad() if self.force_eval_mode else nullcontext()
+        debug_rank(f"RADIO forward start: input_shape={tuple(x.shape)}")
+        with context:
+            x = x.to(dtype=self.radio_model.embedder.weight.dtype)
+            embeddings = self.radio_model(
+                x, imgs_sizes=imgs_sizes, packed_seq_params=packed_seq_params
+            )
+        debug_rank(f"RADIO forward done: output_shape={tuple(embeddings.shape)}")
+        if self.drop_class_token:
+            if (
+                self.dynamic_resolution
+                and imgs_sizes is not None
+                and self.class_token_len > 0
+            ):
+                # Class tokens are interleaved between tiles; build mask to remove them.
+                remove_mask = torch.full(
+                    (embeddings.shape[-2],), True, dtype=torch.bool, device=embeddings.device
+                )
+                patch_dim = self.radio_model.patch_dim
+                if torch.is_tensor(imgs_sizes):
+                    seq_lens = torch.prod(imgs_sizes // patch_dim, dim=-1)
+                else:
+                    seq_lens = torch.tensor(
+                        [(h // patch_dim) * (w // patch_dim) for h, w in imgs_sizes]
+                    )
+                current_length = 0
+                for sl in seq_lens:
+                    remove_mask[current_length : current_length + self.class_token_len] = False
+                    current_length += int(sl) + self.class_token_len
+                embeddings = embeddings[:, remove_mask, :]
+            else:
+                embeddings = embeddings[:, self.class_token_len :, :]
+            debug_rank(f"RADIO class tokens dropped: output_shape={tuple(embeddings.shape)}")
+        if self.apply_pixel_shuffle:
+            if self.dynamic_resolution and imgs_sizes is not None:
+                embeddings = _pixel_shuffle_dynamic_res(
+                    embeddings, imgs_sizes, self.radio_model.patch_dim
+                )
+            else:
+                embeddings = pixel_shuffle(embeddings, scale_factor=0.5)
+            debug_rank(f"RADIO pixel shuffle done: output_shape={tuple(embeddings.shape)}")
+        return embeddings
+
+    def sharded_state_dict(self, prefix="", sharded_offsets=(), metadata=None):
+        """Delegate checkpoint sharding to the wrapped RADIO model."""
+        sharded_sd = {}
+        for name, child in self.named_children():
+            sharded_sd.update(
+                sharded_state_dict_default(child, f"{prefix}{name}.", sharded_offsets, metadata)
+            )
+        return sharded_sd
+
+
+def get_encoder_module_name(args: argparse.Namespace) -> str:
+    """Return the concrete encoder key for the active vision provider."""
+    return NEMOTRON_VISION_ENCODER_KEY if is_nemotron_moe_vlm(args) else MOCK_VISION_ENCODER_KEY
+
+
+def get_vision_encoder_module(args: argparse.Namespace, vision_submodule):
+    """Return the provider-owned encoder module used for DDP config and freezing."""
+    return vision_submodule.encoders[get_encoder_module_name(args)]
+
+
+def iter_vision_projection_modules(vision_submodule):
+    """Return the provider-owned projection modules used for freeze-stage policy."""
+    return iter(vision_submodule.input_projections)
+
+
+def projection_layer_spec() -> ModuleSpec:
+    """Return the TE-backed projection MLP spec."""
+    if TEColumnParallelLinear is None or TERowParallelLinear is None:
+        raise RuntimeError("TEColumnParallelLinear and TERowParallelLinear are required")
+    return ModuleSpec(
+        module=MLP,
+        submodules=MLPSubmodules(linear_fc1=TEColumnParallelLinear, linear_fc2=TERowParallelLinear),
+    )
+
+
+def nemotron_projection_layer_spec() -> ModuleSpec:
+    """Return the Nemotron VLM RADIO-to-language projector layer spec."""
+    if TELayerNormColumnParallelLinear is None or TERowParallelLinear is None:
+        raise RuntimeError("TELayerNormColumnParallelLinear and TERowParallelLinear are required")
+    return ModuleSpec(
+        module=MLP,
+        submodules=MLPSubmodules(
+            linear_fc1=TELayerNormColumnParallelLinear, linear_fc2=TERowParallelLinear
+        ),
+    )
+
+
+def nemotron_language_config(
+    args: argparse.Namespace, tp_size: int, pp_size: int, ep_size: int, expt_tp_size: int
+) -> TransformerConfig:
+    """Build the Nemotron6-MoE language TransformerConfig."""
+    bf16 = not args.fp32
+    dtype = torch.bfloat16 if bf16 else torch.float32
+    config = TransformerConfig(
+        num_layers=54 if args.model_provider == NEMOTRON_54L_MODEL_PROVIDER else 20,
+        hidden_size=2688,
+        num_attention_heads=32,
+        attention_backend=AttnBackend.flash,
+        num_query_groups=8,
+        ffn_hidden_size=1856,
+        kv_channels=128,
+        activation_func=squared_relu,
+        gated_linear_unit=False,
+        attention_dropout=0.0,
+        hidden_dropout=0.0,
+        normalization="RMSNorm",
+        add_bias_linear=False,
+        init_method_std=0.0173,
+        use_cpu_initialization=True,
+        variable_seq_lengths=True,
+        tensor_model_parallel_size=tp_size,
+        pipeline_model_parallel_size=pp_size,
+        expert_model_parallel_size=ep_size,
+        expert_tensor_parallel_size=expt_tp_size,
+        sequence_parallel=tp_size > 1,
+        params_dtype=dtype,
+        pipeline_dtype=dtype,
+        bf16=bf16,
+        calculate_per_token_loss=True,
+        cross_entropy_loss_fusion=True,
+        cross_entropy_fusion_impl="te",
+        bias_activation_fusion=False,
+        masked_softmax_fusion=True,
+        persist_layer_norm=True,
+        bias_dropout_fusion=True,
+        recompute_granularity="selective",
+        recompute_modules=["core_attn"],
+        moe_ffn_hidden_size=1856,
+        num_moe_experts=128,
+        moe_router_topk=6,
+        moe_grouped_gemm=True,
+        moe_router_score_function="sigmoid",
+        moe_router_topk_scaling_factor=2.5,
+        moe_router_enable_expert_bias=True,
+        moe_router_dtype="fp32",
+        moe_router_load_balancing_type="seq_aux_loss",
+        moe_router_force_load_balancing=args.moe_router_force_load_balancing,
+        moe_router_fusion=False,
+        moe_aux_loss_coeff=1.0e-4,
+        moe_shared_expert_intermediate_size=3712,
+        moe_shared_expert_overlap=True,
+        moe_token_dispatcher_type="alltoall",
+        moe_permute_fusion=True,
+        use_fused_weighted_squared_relu=True,
+        is_hybrid_model=True,
+        mamba_num_heads=64,
+        mamba_head_dim=64,
+        mamba_num_groups=8,
+        mamba_state_dim=128,
+        linear_conv_kernel_dim=4,
+    )
+    config.position_embedding_type = "none"
+    config.seq_length = 8192
+    config.max_position_embeddings = 8192
+    return config
+
+
+def require_per_token_loss(config: TransformerConfig) -> None:
+    """The hetero MIMO loop scales both language and vision grads by real LM tokens."""
+    if not config.calculate_per_token_loss:
+        raise ValueError("train_hetero.py requires calculate_per_token_loss=True")
+
+
+def radio_vision_config(args: argparse.Namespace, tp_size: int, pp_size: int) -> TransformerConfig:
+    """Build the exact RADIO vision TransformerConfig from the 20L reference provider."""
+    bf16 = not args.fp32
+    dtype = torch.bfloat16 if bf16 else torch.float32
+    config = TransformerConfig(
+        num_layers=32,
+        hidden_size=1280,
+        num_attention_heads=16,
+        use_cpu_initialization=True,
+        tensor_model_parallel_size=tp_size,
+        pipeline_model_parallel_size=pp_size,
+        params_dtype=dtype,
+        pipeline_dtype=dtype,
+        bf16=bf16,
+    )
+    config.kv_channels = 80
+    config.num_query_groups = 16
+    config.ffn_hidden_size = 5120
+    config.gated_linear_unit = False
+    config.activation_func = fast_gelu
+    config.add_bias_linear = True
+    config.add_qkv_bias = True
+    config.normalization = "LayerNorm"
+    config.layernorm_epsilon = 1.0e-6
+    config.layernorm_zero_centered_gamma = False
+    config.apply_rope_fusion = False
+    config.qk_layernorm = False
+    config.bias_activation_fusion = False
+    config.bias_dropout_fusion = False
+    config.attention_softmax_in_fp32 = True
+    config.attention_dropout = 0.0
+    config.hidden_dropout = 0.0
+    # Trigger TransformerBlock's final_layernorm allocation (matches sanj path).
+    config.mtp_num_layers = 0
+    return config
+
+
+def nemotron_projection_config(args: argparse.Namespace, tp_size: int) -> TransformerConfig:
+    """Build the exact RADIO-to-Nemotron projection config."""
+    bf16 = not args.fp32
+    dtype = torch.bfloat16 if bf16 else torch.float32
+    config = TransformerConfig(
+        num_layers=1,
+        hidden_size=2688,
+        num_attention_heads=1,
+        use_cpu_initialization=True,
+        params_dtype=dtype,
+        pipeline_dtype=dtype,
+        bf16=bf16,
+    )
+    config.tensor_model_parallel_size = tp_size
+    config.ffn_hidden_size = 4 * 5120
+    config.bias_activation_fusion = False
+    config.bias_dropout_fusion = False
+    config.add_bias_linear = False
+    config.activation_func = squared_relu
+    config.normalization = "RMSNorm"
+    return config
+
+
+def language_model_spec(
+    args: argparse.Namespace,
+    pg_collection: Optional[ProcessGroupCollection],
+    llm_grid: HyperCommGrid,
+) -> ModuleSpec:
+    """Create the language ModuleSpec for the local language grid."""
+    pp_pg = getattr(pg_collection, "pp", None) if pg_collection is not None else None
+    tp_pg = getattr(pg_collection, "tp", None) if pg_collection is not None else None
+    ep_pg = getattr(pg_collection, "ep", None) if pg_collection is not None else None
+    expt_tp_pg = getattr(pg_collection, "expt_tp", None) if pg_collection is not None else None
+
+    fallback_tp_size = get_grid_dim_size(llm_grid, "tp")
+    pp_rank = get_group_rank_or(pp_pg)
+    pp_size = get_group_size_or(pp_pg, get_grid_dim_size(llm_grid, "pp"))
+    tp_size = get_group_size_or(tp_pg, fallback_tp_size)
+    ep_size = get_group_size_or(ep_pg, args.llm_ep)
+    expt_tp_size = get_group_size_or(expt_tp_pg, args.llm_expt_tp or fallback_tp_size)
+    if is_nemotron_moe_vlm(args):
+        config = nemotron_language_config(args, tp_size, pp_size, ep_size, expt_tp_size)
+        require_per_token_loss(config)
+        return ModuleSpec(
+            module=MambaModel,
+            params={
+                "config": config,
+                "mamba_stack_spec": mamba_stack_spec,
+                "vocab_size": args.vocab_size,
+                "max_sequence_length": args.seq_length,
+                "pre_process": pp_rank == 0,
+                "post_process": pp_rank == pp_size - 1,
+                "hybrid_layer_pattern": args.hybrid_layer_pattern,
+                "position_embedding_type": "none",
+                "share_embeddings_and_output_weights": False,
+                "scatter_embedding_sequence_parallel": False,
+                "pg_collection": pg_collection,
+            },
+        )
+
+    num_moe_experts = args.num_moe_experts if args.num_moe_experts > 0 else None
+    bf16 = not args.fp32
+    moe_kwargs = {}
+    if num_moe_experts is not None:
+        moe_kwargs = {
+            "num_moe_experts": num_moe_experts,
+            "moe_router_topk": args.moe_router_topk,
+            "moe_router_pre_softmax": args.moe_router_topk == 1,
+            "expert_model_parallel_size": ep_size,
+            "expert_tensor_parallel_size": expt_tp_size,
+            "moe_grouped_gemm": args.moe_grouped_gemm,
+        }
+
+    config = TransformerConfig(
+        num_layers=args.num_layers,
+        hidden_size=args.hidden_size,
+        num_attention_heads=args.num_attention_heads,
+        use_cpu_initialization=True,
+        variable_seq_lengths=True,
+        moe_token_dispatcher_type="alltoall",
+        tensor_model_parallel_size=tp_size,
+        pipeline_model_parallel_size=pp_size,
+        pipeline_dtype=torch.bfloat16 if bf16 else torch.float32,
+        bf16=bf16,
+        calculate_per_token_loss=True,
+        cross_entropy_loss_fusion=True,
+        cross_entropy_fusion_impl="te",
+        **moe_kwargs,
+    )
+    require_per_token_loss(config)
+    return ModuleSpec(
+        module=GPTModel,
+        params={
+            "config": config,
+            "transformer_layer_spec": get_gpt_layer_with_transformer_engine_spec(
+                num_experts=num_moe_experts, moe_grouped_gemm=args.moe_grouped_gemm
+            ),
+            "vocab_size": args.vocab_size,
+            "max_sequence_length": args.seq_length,
+            "pre_process": pp_rank == 0,
+            "post_process": pp_rank == pp_size - 1,
+            "pg_collection": pg_collection,
+        },
+    )
+
+
+def vision_submodules_spec(
+    args: argparse.Namespace,
+    pg_collection: Optional[ProcessGroupCollection],
+    encoder_grid: HyperCommGrid,
+) -> ModuleSpec:
+    """Create the vision ModuleSpec for the local encoder grid."""
+    from megatron.core.transformer.transformer_block import TransformerBlock
+
+    pp_pg = getattr(pg_collection, "pp", None) if pg_collection is not None else None
+    tp_pg = getattr(pg_collection, "tp", None) if pg_collection is not None else None
+    tp_size = get_group_size_or(tp_pg, get_grid_dim_size(encoder_grid, "tp"))
+    pp_size = get_group_size_or(pp_pg, get_grid_dim_size(encoder_grid, "pp"))
+    pp_rank = get_group_rank_or(pp_pg)
+    bf16 = not args.fp32
+
+    if is_nemotron_moe_vlm(args):
+        vision_config = radio_vision_config(args, tp_size, pp_size)
+        vision_encoder_spec = ModuleSpec(
+            module=RADIOEncoderWrapper,
+            params={
+                "transformer_config": vision_config,
+                "transformer_layer_spec": get_vit_layer_with_transformer_engine_spec(),
+                "pg_collection": pg_collection,
+                "img_h": args.img_h,
+                "img_w": args.img_w,
+                "patch_dim": args.patch_dim,
+                "class_token_len": args.class_token_len,
+                "drop_class_token": True,
+                "apply_pixel_shuffle": True,
+                "force_eval_mode": args.freeze_vit,
+                "dynamic_resolution": bool(getattr(args, "dynamic_resolution", False)),
+            },
+        )
+        vision_projection_spec = ModuleSpec(
+            module=MultimodalProjector,
+            params={
+                "config": nemotron_projection_config(args, tp_size),
+                "submodules": nemotron_projection_layer_spec().submodules,
+                "projector_type": "mlp",
+                "input_size": 5120,
+                "tp_group": tp_pg if is_process_group_member(tp_pg) else None,
+            },
+        )
+        return ModuleSpec(
+            module=VisionModalitySubmodules,
+            params={"pg_collection": pg_collection},
+            submodules={
+                "encoders": {NEMOTRON_VISION_ENCODER_KEY: vision_encoder_spec},
+                "input_projections": [vision_projection_spec],
+            },
+        )
+
+    vision_config = TransformerConfig(
+        num_layers=args.num_layers,
+        hidden_size=args.hidden_size,
+        num_attention_heads=args.num_attention_heads,
+        use_cpu_initialization=True,
+        variable_seq_lengths=True,
+        moe_token_dispatcher_type="alltoall",
+        tensor_model_parallel_size=tp_size,
+        pipeline_model_parallel_size=pp_size,
+        pipeline_dtype=torch.bfloat16 if bf16 else torch.float32,
+        bf16=bf16,
+        calculate_per_token_loss=True,
+    )
+    vision_encoder_spec = ModuleSpec(
+        module=TransformerBlock,
+        params={
+            "config": vision_config,
+            "spec": get_gpt_layer_with_transformer_engine_spec(),
+            "pg_collection": pg_collection,
+            "pre_process": pp_rank == 0,
+            "post_process": pp_rank == pp_size - 1,
+        },
+    )
+
+    projection_config = TransformerConfig(
+        num_layers=1, hidden_size=args.hidden_size, num_attention_heads=1
+    )
+    projection_config.ffn_hidden_size = args.hidden_size
+    projection_config.activation_func = torch.nn.functional.gelu
+
+    vision_projection_spec = ModuleSpec(
+        module=MultimodalProjector,
+        params={
+            "config": projection_config,
+            "submodules": projection_layer_spec().submodules,
+            "projector_type": "mlp",
+            "input_size": vision_config.hidden_size,
+            "tp_group": tp_pg if is_process_group_member(tp_pg) else None,
+        },
+    )
+
+    return ModuleSpec(
+        module=VisionModalitySubmodules,
+        params={"pg_collection": pg_collection},
+        submodules={
+            "encoders": {MOCK_VISION_ENCODER_KEY: vision_encoder_spec},
+            "input_projections": [vision_projection_spec],
+        },
+    )
diff --git a/examples/mimo/scripts/README.md b/examples/mimo/scripts/README.md
new file mode 100644
index 00000000000..3b8ef84e91c
--- /dev/null
+++ b/examples/mimo/scripts/README.md
@@ -0,0 +1,12 @@
+# MIMO hetero training sbatches
+
+| Script | Nodes | Layout | GBS | Purpose |
+|---|---|---|---|---|
+| sbatch_hetero_parity_gbs192.sh | 9 | 1 enc + 8 LLM, TP=2 EP=16 | 192 | 9n Sanjeev parity test (5000 iters, paired with sbatch_sanjeev_parity_gbs192.sh) |
+| sbatch_hetero_prod_gbs768_33n_ep8.sh | 33 | 1 enc + 32 LLM, TP=2 EP=8 | 768 | 33n production |
+| sbatch_hetero_prod_gbs768_68n_ep8.sh | 68 | 4 enc + 64 LLM, TP=2 EP=8 | 768 | 68n production |
+| sbatch_hetero_prod_gbs768_100n.sh    | 100 | 4 enc + 96 LLM, TP=2 EP=8 | 768 | 100n production |
+
+Production sbatches use Sanjeev's WSD schedule (`TRAIN_SAMPLES=122070313`, `LR_WARMUP_SAMPLES=1024000`, `LR_WSD_DECAY_SAMPLES=18310547`) with EP=8 (vs Sanjeev's EP=16), no MTP, no force-LB. Load LLM weights via `--load-nemotron-checkpoint` from sasatheesh's `iter_0001000`.
+
+Launch: `sbatch examples/mimo/scripts/<script>.sh`
diff --git a/examples/mimo/scripts/compare_energon_dataloader_parity.py b/examples/mimo/scripts/compare_energon_dataloader_parity.py
new file mode 100644
index 00000000000..2d39c678484
--- /dev/null
+++ b/examples/mimo/scripts/compare_energon_dataloader_parity.py
@@ -0,0 +1,349 @@
+# Copyright (c) 2026, NVIDIA CORPORATION. All rights reserved.
+# pylint: disable=bad-builtin
+
+"""Compare current MIMO Energon batches with the previous branch provider.
+
+This is a dataloader-only parity check. It instantiates the previous branch's
+``MimoMultiModalPackingEncoder`` and the current branch's encoder in the same
+process, feeds both through Megatron-Energon with identical loader settings, and
+requires exact equality for the emitted batch tensors and packed-sequence
+metadata. Defaults favor deterministic sample identity; override workers and
+shuffle settings when intentionally stress-testing training-like loader behavior.
+"""
+
+from __future__ import annotations
+
+import argparse
+import importlib.util
+import os
+import random
+import subprocess
+import sys
+import tempfile
+from pathlib import Path
+from types import ModuleType
+from typing import Any, Optional
+
+import torch
+
+REPO_ROOT = Path(__file__).resolve().parents[3]
+sys.path.insert(0, str(REPO_ROOT))
+os.chdir(REPO_ROOT)
+
+from examples.mimo.data import energon_multimodal_provider as current_provider
+
+OLD_PROVIDER_REPO_PATH = "examples/mimo/data/energon_multimodal_provider.py"
+
+
+def parse_args() -> argparse.Namespace:
+    """Parse dataloader parity options."""
+    parser = argparse.ArgumentParser(description=__doc__)
+    parser.add_argument("--data-path", required=True)
+    parser.add_argument("--tokenizer-model", required=True)
+    parser.add_argument("--old-provider-path", type=str, default=None)
+    parser.add_argument(
+        "--old-provider-ref",
+        type=str,
+        default="origin/feat/nemotron-moe-vlm-mimo",
+        help="Git ref used when --old-provider-path is not supplied.",
+    )
+    parser.add_argument("--image-token", type=str, default="<image>")
+    parser.add_argument("--tokenizer-prompt-format", type=str, default="nemotron6-moe")
+    parser.add_argument("--image-tag-type", type=str, default="")
+    parser.add_argument("--force-system-message", action="store_true")
+    parser.add_argument("--seq-length", type=int, default=8192)
+    parser.add_argument("--batch-size", type=int, default=1)
+    parser.add_argument("--num-batches", type=int, default=8)
+    parser.add_argument("--num-workers", type=int, default=0)
+    parser.add_argument("--dp-rank", type=int, default=0)
+    parser.add_argument("--dp-world-size", type=int, default=1)
+    parser.add_argument("--seed", type=int, default=12345)
+    parser.add_argument("--seed-offset", type=int, default=0)
+    parser.add_argument("--packing-buffer-size", type=int, default=128)
+    parser.add_argument("--shuffle-buffer-size", type=int, default=0)
+    parser.add_argument("--max-samples-per-sequence", type=int, default=100)
+    parser.add_argument("--img-h", type=int, default=512)
+    parser.add_argument("--img-w", type=int, default=512)
+    parser.add_argument("--patch-dim", type=int, default=16)
+    parser.add_argument("--class-token-len", type=int, default=8)
+    parser.add_argument("--max-num-tiles", type=int, default=12)
+    parser.add_argument("--vision-model-type", type=str, default="radio")
+    parser.add_argument("--pixel-shuffle", action=argparse.BooleanOptionalAction, default=True)
+    parser.add_argument(
+        "--disable-vision-class-token", action=argparse.BooleanOptionalAction, default=True
+    )
+    parser.add_argument("--use-tiling", action=argparse.BooleanOptionalAction, default=True)
+    parser.add_argument("--use-thumbnail", action=argparse.BooleanOptionalAction, default=True)
+    parser.add_argument("--encoder-name", type=str, default="radio_encoder")
+    parser.add_argument("--encoder-input-key", type=str, default="x")
+    return parser.parse_args()
+
+
+def main() -> None:
+    """Run the parity comparison."""
+    args = parse_args()
+    set_seed(args.seed)
+
+    old_provider = load_old_provider(args)
+    tokenizer = build_tokenizer(args)
+    image_token_id = tokenizer.convert_tokens_to_ids(args.image_token)
+    if image_token_id is None:
+        raise RuntimeError(f"Tokenizer did not produce an id for {args.image_token!r}")
+    pad_id = int(tokenizer.pad)
+
+    old_loader = build_loader(old_provider, tokenizer, image_token_id, pad_id, args)
+    set_seed(args.seed)
+    current_loader = build_loader(current_provider, tokenizer, image_token_id, pad_id, args)
+
+    for batch_idx in range(args.num_batches):
+        batch_seed = args.seed + batch_idx
+        set_seed(batch_seed)
+        old_batch = next(old_loader)
+        set_seed(batch_seed)
+        current_batch = next(current_loader)
+        mismatches = compare_values("batch", old_batch, current_batch)
+        if mismatches:
+            print(f"Batch {batch_idx} mismatch")
+            for mismatch in mismatches[:20]:
+                print(f"  - {mismatch}")
+            print(f"old:     {batch_summary(old_batch)}")
+            print(f"current: {batch_summary(current_batch)}")
+            raise SystemExit(1)
+        print(f"batch {batch_idx}: OK {batch_summary(current_batch)}")
+
+    print(f"Parity OK for {args.num_batches} batches")
+
+
+def set_seed(seed: int = 12345) -> None:
+    """Set process-local RNG state before loader construction."""
+    random.seed(seed)
+    torch.manual_seed(seed)
+
+
+def load_old_provider(args: argparse.Namespace) -> ModuleType:
+    """Load the previous branch provider from a path or git ref."""
+    if args.old_provider_path is not None:
+        provider_path = Path(args.old_provider_path)
+    else:
+        provider_path = materialize_old_provider_from_git(args.old_provider_ref)
+    return import_module_from_path("old_energon_multimodal_provider", provider_path)
+
+
+def materialize_old_provider_from_git(ref: str) -> Path:
+    """Write the provider from a git ref to a temporary importable file."""
+    provider_source = git_show(ref, OLD_PROVIDER_REPO_PATH)
+    temp_dir = Path(tempfile.mkdtemp(prefix="old_energon_provider_"))
+    provider_path = temp_dir / "energon_multimodal_provider.py"
+    provider_path.write_text(provider_source)
+    return provider_path
+
+
+def git_show(ref: str, repo_path: str) -> str:
+    """Return file content from a git ref, with a local-branch fallback."""
+    refs_to_try = [ref]
+    if ref.startswith("origin/"):
+        refs_to_try.append(ref.removeprefix("origin/"))
+
+    errors = []
+    for candidate in refs_to_try:
+        command = ["git", "show", f"{candidate}:{repo_path}"]
+        result = subprocess.run(command, check=False, text=True, capture_output=True)
+        if result.returncode == 0:
+            return result.stdout
+        errors.append(result.stderr.strip())
+    raise RuntimeError("Unable to load old provider from git:\n" + "\n".join(errors))
+
+
+def import_module_from_path(name: str, path: Path) -> ModuleType:
+    """Import a Python module from an explicit path."""
+    spec = importlib.util.spec_from_file_location(name, path)
+    if spec is None or spec.loader is None:
+        raise RuntimeError(f"Unable to import module from {path}")
+    module = importlib.util.module_from_spec(spec)
+    sys.modules[name] = module
+    spec.loader.exec_module(module)
+    return module
+
+
+def build_tokenizer(args: argparse.Namespace):
+    """Build the Megatron multimodal tokenizer used by both providers."""
+    from megatron.core.tokenizers.vision.libraries.multimodal_tokenizer import (
+        MegatronMultimodalTokenizer,
+    )
+
+    return MegatronMultimodalTokenizer(
+        path=args.tokenizer_model,
+        prompt_format=args.tokenizer_prompt_format,
+        special_tokens=[args.image_token],
+        image_tag_type=args.image_tag_type,
+        force_system_message=args.force_system_message,
+    )
+
+
+def build_loader(
+    provider: ModuleType, tokenizer, image_token_id: int, pad_id: int, args: argparse.Namespace
+):
+    """Build one Energon dataloader using a provider module's encoder."""
+    from megatron.energon import WorkerConfig, get_loader, get_train_dataset
+
+    encoder = build_encoder(provider, tokenizer, image_token_id, pad_id, args)
+    worker_config = WorkerConfig(
+        rank=args.dp_rank,
+        world_size=args.dp_world_size,
+        num_workers=args.num_workers,
+        seed_offset=args.seed_offset,
+        data_parallel_group=None,
+    )
+    dataset = get_train_dataset(
+        args.data_path,
+        batch_size=args.batch_size,
+        task_encoder=encoder,
+        worker_config=worker_config,
+        packing_buffer_size=args.packing_buffer_size,
+        shuffle_buffer_size=args.shuffle_buffer_size,
+        max_samples_per_sequence=args.max_samples_per_sequence,
+    )
+    return iter(get_loader(dataset))
+
+
+def build_encoder(
+    provider: ModuleType, tokenizer, image_token_id: int, pad_id: int, args: argparse.Namespace
+):
+    """Build a provider-specific MIMO multimodal packing encoder."""
+    if provider is current_provider:
+        return provider.build_multimodal_encoder(
+            args,
+            tokenizer,
+            encoder_name=args.encoder_name,
+            encoder_input_key=args.encoder_input_key,
+        )
+
+    vision_config = provider.VisionConfig(
+        img_h=args.img_h,
+        img_w=args.img_w,
+        patch_dim=args.patch_dim,
+        vision_model_type=args.vision_model_type,
+        disable_vision_class_token=args.disable_vision_class_token,
+        pixel_shuffle=args.pixel_shuffle,
+        max_num_tiles=args.max_num_tiles,
+        use_tiling=args.use_tiling,
+        use_thumbnail=args.use_thumbnail,
+        class_token_len=args.class_token_len,
+        conv_merging=False,
+        use_tile_tags=False,
+        use_image_break_token=False,
+        use_area_weighted_aspect_ratio=False,
+        dynamic_resolution=False,
+    )
+    packing_config = provider.PackingConfig(
+        seq_length=args.seq_length, pad_id=pad_id, image_token_id=image_token_id
+    )
+    adapter_cls = getattr(provider, "TokenizerAdapter", None)
+    if adapter_cls is None:
+        adapter_cls = getattr(provider, "_TokenizerAdapter")
+    return provider.MimoMultiModalPackingEncoder(
+        vision_config=vision_config,
+        packing_config=packing_config,
+        tokenizer=adapter_cls(tokenizer),
+        encoder_name=args.encoder_name,
+        encoder_input_key=args.encoder_input_key,
+        target_seq_length=args.seq_length,
+    )
+
+
+def compare_values(path: str, old_value: Any, current_value: Any) -> list[str]:
+    """Return exact mismatches between nested batch values."""
+    if isinstance(old_value, dict) or isinstance(current_value, dict):
+        if not isinstance(old_value, dict) or not isinstance(current_value, dict):
+            old_type = type(old_value).__name__
+            current_type = type(current_value).__name__
+            return [f"{path}: type mismatch {old_type} != {current_type}"]
+        mismatches = []
+        old_keys = set(old_value)
+        current_keys = set(current_value)
+        if old_keys != current_keys:
+            mismatches.append(
+                f"{path}: keys differ old={sorted(old_keys)} current={sorted(current_keys)}"
+            )
+        for key in sorted(old_keys & current_keys):
+            mismatches.extend(compare_values(f"{path}.{key}", old_value[key], current_value[key]))
+        return mismatches
+
+    if isinstance(old_value, torch.Tensor) or isinstance(current_value, torch.Tensor):
+        if not isinstance(old_value, torch.Tensor) or not isinstance(current_value, torch.Tensor):
+            return [f"{path}: tensor/type mismatch"]
+        if old_value.shape != current_value.shape:
+            return [
+                f"{path}: shape mismatch {tuple(old_value.shape)} != {tuple(current_value.shape)}"
+            ]
+        if old_value.dtype != current_value.dtype:
+            return [f"{path}: dtype mismatch {old_value.dtype} != {current_value.dtype}"]
+        if torch.equal(old_value, current_value):
+            return []
+        detail = f"checksum {tensor_checksum(old_value)} != {tensor_checksum(current_value)}"
+        if old_value.is_floating_point():
+            max_abs = (old_value - current_value).abs().max().item()
+            detail += f", max_abs={max_abs}"
+        return [f"{path}: tensor mismatch ({detail})"]
+
+    if old_value != current_value:
+        return [f"{path}: value mismatch {old_value!r} != {current_value!r}"]
+    return []
+
+
+def batch_summary(batch: dict) -> str:
+    """Return a compact human-readable batch summary."""
+    image_tensor = first_tensor(nested_get(batch, ("modality_inputs", "images")))
+    packing_kwargs = batch.get("packing_kwargs")
+    cu_seqlens = None
+    if packing_kwargs is not None:
+        cu_seqlens = packing_kwargs["cu_seqlens_q"]
+    return (
+        f"input={tuple(batch['input_ids'].shape)}:{tensor_checksum(batch['input_ids'])} "
+        f"labels={tensor_checksum(batch['labels'])} "
+        f"loss_tokens={int(batch['loss_mask'].sum().item())} "
+        f"images={None if image_tensor is None else tuple(image_tensor.shape)}:"
+        f"{tensor_checksum(image_tensor)} "
+        f"cu={None if cu_seqlens is None else cu_seqlens.tolist()[:8]}"
+    )
+
+
+def nested_get(value: dict, keys: tuple[str, ...]):
+    """Return a nested value if every key exists."""
+    current = value
+    for key in keys:
+        if not isinstance(current, dict) or key not in current:
+            return None
+        current = current[key]
+    return current
+
+
+def first_tensor(value):
+    """Return the first tensor in a nested mapping."""
+    if isinstance(value, torch.Tensor):
+        return value
+    if isinstance(value, dict):
+        for item in value.values():
+            tensor = first_tensor(item)
+            if tensor is not None:
+                return tensor
+    return None
+
+
+def tensor_checksum(tensor: Optional[torch.Tensor]) -> int:
+    """Return a deterministic bounded checksum for a tensor."""
+    if tensor is None or tensor.numel() == 0:
+        return 0
+    values = tensor.detach().reshape(-1)
+    stride = max(values.numel() // 4096, 1)
+    values = values[::stride]
+    if values.is_floating_point():
+        values = (values.float() * 1024).to(dtype=torch.long)
+    else:
+        values = values.to(dtype=torch.long)
+    positions = torch.arange(1, values.numel() + 1, dtype=torch.long, device=values.device)
+    return int(((values * positions).sum() % 2_147_483_647).item())
+
+
+if __name__ == "__main__":
+    main()
diff --git a/examples/mimo/scripts/run_hetero_mock_train.sh b/examples/mimo/scripts/run_hetero_mock_train.sh
new file mode 100755
index 00000000000..c0926d7cea2
--- /dev/null
+++ b/examples/mimo/scripts/run_hetero_mock_train.sh
@@ -0,0 +1,19 @@
+#!/bin/bash
+
+# Run from the repository root:
+#   ./examples/mimo/scripts/run_hetero_mock_train.sh
+
+set -euo pipefail
+
+export CUDA_DEVICE_MAX_CONNECTIONS=1
+
+GPUS_PER_NODE=${GPUS_PER_NODE:-8}
+TRAIN_ITERS=${TRAIN_ITERS:-2}
+PYTHON_BIN=${PYTHON_BIN:-python}
+
+"${PYTHON_BIN}" -m torch.distributed.run \
+  --standalone \
+  --nproc-per-node "${GPUS_PER_NODE}" \
+  examples/mimo/train_hetero.py \
+  --train-iters "${TRAIN_ITERS}" \
+  "$@"
diff --git a/examples/mimo/scripts/run_hetero_nemotron_20l_energon_train.sh b/examples/mimo/scripts/run_hetero_nemotron_20l_energon_train.sh
new file mode 100755
index 00000000000..6f4050a966c
--- /dev/null
+++ b/examples/mimo/scripts/run_hetero_nemotron_20l_energon_train.sh
@@ -0,0 +1,129 @@
+#!/bin/bash
+# Run non-colocated heterogeneous MIMO Nemotron6-MoE VLM 20L training on Energon data.
+
+set -euo pipefail
+
+export CUDA_DEVICE_MAX_CONNECTIONS=1
+export PYTORCH_CUDA_ALLOC_CONF="${PYTORCH_CUDA_ALLOC_CONF:-expandable_segments:True}"
+
+TRAINING_STAGE="${TRAINING_STAGE:-stage2}"
+case "${TRAINING_STAGE}" in
+  stage1|stage2|stage3)
+    ;;
+  *)
+    echo "ERROR: Unknown TRAINING_STAGE='${TRAINING_STAGE}'. Use stage1, stage2, or stage3." >&2
+    exit 1
+    ;;
+esac
+
+GPUS_PER_NODE="${GPUS_PER_NODE:-}"
+TRAIN_ITERS="${TRAIN_ITERS:-100}"
+NUM_MICROBATCHES="${NUM_MICROBATCHES:-4}"
+MICRO_BATCH_SIZE="${MICRO_BATCH_SIZE:-1}"
+ENCODER_TP="${ENCODER_TP:-2}"
+ENCODER_PP="${ENCODER_PP:-1}"
+ENCODER_DP="${ENCODER_DP:-2}"
+LLM_TP="${LLM_TP:-2}"
+LLM_PP="${LLM_PP:-1}"
+LLM_DP="${LLM_DP:-2}"
+LLM_EP="${LLM_EP:-4}"
+ENABLE_EXPERIMENTAL="${ENABLE_EXPERIMENTAL:-1}"
+MOE_ROUTER_FORCE_LOAD_BALANCING="${MOE_ROUTER_FORCE_LOAD_BALANCING:-0}"
+ENCODER_SIZE=$((ENCODER_TP * ENCODER_PP * ENCODER_DP))
+LLM_SIZE=$((LLM_TP * LLM_PP * LLM_DP))
+LLM_OFFSET="${LLM_OFFSET:-${ENCODER_SIZE}}"
+EXPECTED_WORLD_SIZE=$((ENCODER_SIZE + LLM_SIZE))
+GPUS_PER_NODE="${GPUS_PER_NODE:-${EXPECTED_WORLD_SIZE}}"
+if [[ "${GPUS_PER_NODE}" -ne "${EXPECTED_WORLD_SIZE}" ]]; then
+  echo "ERROR: GPUS_PER_NODE=${GPUS_PER_NODE} but hetero layout requires ${EXPECTED_WORLD_SIZE}" >&2
+  exit 1
+fi
+GLOBAL_BATCH_SIZE="${GLOBAL_BATCH_SIZE:-$((MICRO_BATCH_SIZE * NUM_MICROBATCHES * LLM_DP))}"
+LR_WARMUP_ITERS="${LR_WARMUP_ITERS:-2}"
+LR_DECAY_ITERS="${LR_DECAY_ITERS:-10}"
+PACKING_BUFFER_SIZE="${PACKING_BUFFER_SIZE:-128}"
+NUM_WORKERS="${NUM_WORKERS:-2}"
+SHUFFLE_BUFFER_SIZE="${SHUFFLE_BUFFER_SIZE:-100}"
+MAX_SAMPLES_PER_SEQUENCE="${MAX_SAMPLES_PER_SEQUENCE:-100}"
+if [[ -z "${PYTHON_BIN:-}" ]]; then
+  if command -v python >/dev/null 2>&1; then
+    PYTHON_BIN=python
+  else
+    PYTHON_BIN=python3
+  fi
+fi
+
+DATA_PATH="${DATA_PATH:-/lustre/fsw/portfolios/llmservice/projects/llmservice_fm_text/users/kshih/workspace/blends/eagle_recipe_online_packing/final_recipe/pretrain_base_non_sft_cw_dfw.yaml}"
+TOKENIZER_MODEL="${TOKENIZER_MODEL:-/lustre/fs1/portfolios/coreai/projects/coreai_dlalgo_genai/users/ykarnati/checkpoints/models--nvidia--NVIDIA-Nemotron-3-Nano-30B-A3B-BF16-multimodal-pretraining/snapshots/7344a79074e20d9ab548e14c25b0492345394f67}"
+
+if [[ "${VERIFY_ENERGON:-1}" == "1" ]]; then
+  PYTHON_BIN="${PYTHON_BIN}" bash examples/mimo/scripts/verify_energon.sh
+fi
+
+echo "=== Hetero MIMO Nemotron6-MoE VLM 20L Energon training ==="
+echo "stage=${TRAINING_STAGE} train_iters=${TRAIN_ITERS} gbs=${GLOBAL_BATCH_SIZE}"
+echo "layout=encoder(tp=${ENCODER_TP},pp=${ENCODER_PP},dp=${ENCODER_DP}) llm(tp=${LLM_TP},pp=${LLM_PP},dp=${LLM_DP},ep=${LLM_EP}) world=${EXPECTED_WORLD_SIZE}"
+echo "enable_experimental=${ENABLE_EXPERIMENTAL}"
+echo "moe_router_force_load_balancing=${MOE_ROUTER_FORCE_LOAD_BALANCING}"
+echo "data=${DATA_PATH}"
+echo "tokenizer=${TOKENIZER_MODEL}"
+echo "==========================================================="
+
+DATA_LOADER_ARGS=(
+  --num-workers "${NUM_WORKERS}"
+  --shuffle-buffer-size "${SHUFFLE_BUFFER_SIZE}"
+  --max-samples-per-sequence "${MAX_SAMPLES_PER_SEQUENCE}"
+)
+if [[ "${PACKING_BUFFER_SIZE}" != "0" ]]; then
+  DATA_LOADER_ARGS+=(--packing-buffer-size "${PACKING_BUFFER_SIZE}")
+fi
+MODEL_ARGS=()
+if [[ "${ENABLE_EXPERIMENTAL}" == "1" || "${ENABLE_EXPERIMENTAL}" == "true" ]]; then
+  MODEL_ARGS+=(--enable-experimental)
+fi
+if [[ "${MOE_ROUTER_FORCE_LOAD_BALANCING}" == "1" || "${MOE_ROUTER_FORCE_LOAD_BALANCING}" == "true" ]]; then
+  MODEL_ARGS+=(--moe-router-force-load-balancing)
+fi
+
+"${PYTHON_BIN}" -m torch.distributed.run \
+  --standalone \
+  --nproc-per-node "${GPUS_PER_NODE}" \
+  examples/mimo/train_hetero.py \
+  --model-provider nemotron-moe-vlm-20l \
+  --dataset-provider energon_multimodal \
+  --training-stage "${TRAINING_STAGE}" \
+  --encoder-tp "${ENCODER_TP}" \
+  --encoder-pp "${ENCODER_PP}" \
+  --encoder-dp "${ENCODER_DP}" \
+  --llm-offset "${LLM_OFFSET}" \
+  --llm-tp "${LLM_TP}" \
+  --llm-pp "${LLM_PP}" \
+  --llm-dp "${LLM_DP}" \
+  --llm-ep "${LLM_EP}" \
+  --llm-expt-tp 1 \
+  --llm-expt-dp 1 \
+  "${MODEL_ARGS[@]}" \
+  --vocab-size 131072 \
+  --max-num-tiles 12 \
+  --data-path "${DATA_PATH}" \
+  "${DATA_LOADER_ARGS[@]}" \
+  --tokenizer-model "${TOKENIZER_MODEL}" \
+  --tokenizer-prompt-format nemotron6-moe \
+  --image-token "<image>" \
+  --micro-batch-size "${MICRO_BATCH_SIZE}" \
+  --global-batch-size "${GLOBAL_BATCH_SIZE}" \
+  --num-microbatches "${NUM_MICROBATCHES}" \
+  --lr 2e-4 \
+  --min-lr 2e-6 \
+  --lr-decay-style cosine \
+  --lr-warmup-iters "${LR_WARMUP_ITERS}" \
+  --lr-decay-iters "${LR_DECAY_ITERS}" \
+  --weight-decay 0.05 \
+  --adam-beta1 0.9 \
+  --adam-beta2 0.95 \
+  --clip-grad 1.0 \
+  --no-overlap-grad-reduce \
+  --ddp-bucket-size 0 \
+  --log-interval 1 \
+  --train-iters "${TRAIN_ITERS}" \
+  "$@"
diff --git a/examples/mimo/scripts/run_hetero_nemotron_20l_mock_train.sh b/examples/mimo/scripts/run_hetero_nemotron_20l_mock_train.sh
new file mode 100755
index 00000000000..f16136cf36d
--- /dev/null
+++ b/examples/mimo/scripts/run_hetero_nemotron_20l_mock_train.sh
@@ -0,0 +1,75 @@
+#!/bin/bash
+
+# Run a heterogeneous mock-data loop with the Nemotron6-MoE VLM 20L architecture.
+
+set -euo pipefail
+
+export CUDA_DEVICE_MAX_CONNECTIONS=1
+export PYTORCH_CUDA_ALLOC_CONF="${PYTORCH_CUDA_ALLOC_CONF:-expandable_segments:True}"
+
+GPUS_PER_NODE=8
+TRAIN_ITERS=${TRAIN_ITERS:-1}
+NUM_MICROBATCHES=${NUM_MICROBATCHES:-4}
+NUM_IMAGE_TILES=${NUM_IMAGE_TILES:-12}
+TRAINING_STAGE=${TRAINING_STAGE:-stage2}
+MICRO_BATCH_SIZE=${MICRO_BATCH_SIZE:-1}
+LLM_DP=2
+GLOBAL_BATCH_SIZE=${GLOBAL_BATCH_SIZE:-$((MICRO_BATCH_SIZE * NUM_MICROBATCHES * LLM_DP))}
+LR_WARMUP_ITERS=${LR_WARMUP_ITERS:-0}
+TOKENIZER_MODEL=${TOKENIZER_MODEL:-}
+IMAGE_TOKEN_ID=${IMAGE_TOKEN_ID:-511}
+PYTHON_BIN=${PYTHON_BIN:-python}
+
+TOKENIZER_ARGS=()
+if [[ -n "${TOKENIZER_MODEL}" ]]; then
+  TOKENIZER_ARGS+=(--tokenizer-model "${TOKENIZER_MODEL}")
+else
+  TOKENIZER_ARGS+=(--image-token-id "${IMAGE_TOKEN_ID}")
+fi
+
+case "${TRAINING_STAGE}" in
+  stage1|stage2|stage3)
+    ;;
+  *)
+    echo "ERROR: Unknown TRAINING_STAGE='${TRAINING_STAGE}'. Use stage1, stage2, or stage3." >&2
+    exit 1
+    ;;
+esac
+
+"${PYTHON_BIN}" -m torch.distributed.run \
+  --standalone \
+  --nproc-per-node "${GPUS_PER_NODE}" \
+  examples/mimo/train_hetero.py \
+  --model-provider nemotron-moe-vlm-20l \
+  --training-stage "${TRAINING_STAGE}" \
+  --encoder-tp 2 \
+  --encoder-pp 1 \
+  --encoder-dp 2 \
+  --llm-offset 4 \
+  --llm-tp 2 \
+  --llm-pp 1 \
+  --llm-dp "${LLM_DP}" \
+  --llm-ep 4 \
+  --llm-expt-tp 1 \
+  --llm-expt-dp 1 \
+  --vocab-size 131072 \
+  --num-image-tiles "${NUM_IMAGE_TILES}" \
+  "${TOKENIZER_ARGS[@]}" \
+  --tokenizer-prompt-format nemotron6-moe \
+  --image-token "<image>" \
+  --micro-batch-size "${MICRO_BATCH_SIZE}" \
+  --global-batch-size "${GLOBAL_BATCH_SIZE}" \
+  --num-microbatches "${NUM_MICROBATCHES}" \
+  --lr 2e-4 \
+  --min-lr 2e-6 \
+  --lr-decay-style cosine \
+  --lr-warmup-iters "${LR_WARMUP_ITERS}" \
+  --lr-decay-iters 10 \
+  --weight-decay 0.05 \
+  --adam-beta1 0.9 \
+  --adam-beta2 0.95 \
+  --clip-grad 1.0 \
+  --no-overlap-grad-reduce \
+  --ddp-bucket-size 0 \
+  --train-iters "${TRAIN_ITERS}" \
+  "$@"
diff --git a/examples/mimo/scripts/run_hetero_nemotron_54l_hel_train.sh b/examples/mimo/scripts/run_hetero_nemotron_54l_hel_train.sh
new file mode 100755
index 00000000000..3d206961c43
--- /dev/null
+++ b/examples/mimo/scripts/run_hetero_nemotron_54l_hel_train.sh
@@ -0,0 +1,308 @@
+#!/bin/bash
+# Run non-colocated heterogeneous MIMO Nemotron6-MoE VLM 54L training on HEL data.
+
+set -euo pipefail
+
+SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+REPO_ROOT="$(cd "${SCRIPT_DIR}/../../.." && pwd)"
+cd "${REPO_ROOT}"
+
+export CUDA_DEVICE_MAX_CONNECTIONS=1
+export PYTORCH_CUDA_ALLOC_CONF="${PYTORCH_CUDA_ALLOC_CONF:-expandable_segments:True}"
+export NCCL_DEBUG="${NCCL_DEBUG:-WARN}"
+export NCCL_SHM_DISABLE="${NCCL_SHM_DISABLE:-1}"
+export NCCL_PROTO="${NCCL_PROTO:-simple}"
+export NCCL_NVLS_ENABLE="${NCCL_NVLS_ENABLE:-0}"
+export TORCH_NCCL_AVOID_RECORD_STREAMS="${TORCH_NCCL_AVOID_RECORD_STREAMS:-0}"
+export NVTE_ALLOW_NONDETERMINISTIC_ALGO="${NVTE_ALLOW_NONDETERMINISTIC_ALGO:-1}"
+export PYTHONNOUSERSITE=1
+
+if [[ -z "${LOCAL_RANK:-}" && -n "${SLURM_LOCALID:-}" ]]; then
+  export LOCAL_RANK="${SLURM_LOCALID}"
+fi
+if [[ -z "${RANK:-}" && -n "${SLURM_PROCID:-}" ]]; then
+  export RANK="${SLURM_PROCID}"
+fi
+if [[ -z "${WORLD_SIZE:-}" && -n "${SLURM_NTASKS:-}" ]]; then
+  export WORLD_SIZE="${SLURM_NTASKS}"
+fi
+if [[ -z "${MASTER_ADDR:-}" && -n "${SLURM_NODELIST:-}" ]] && command -v scontrol >/dev/null 2>&1; then
+  export MASTER_ADDR="$(scontrol show hostnames "${SLURM_NODELIST}" | head -n 1)"
+fi
+export MASTER_PORT="${MASTER_PORT:-29500}"
+
+TRAINING_STAGE="${TRAINING_STAGE:-stage2}"
+MODEL_PROVIDER="${MODEL_PROVIDER:-nemotron-moe-vlm-54l}"
+case "${TRAINING_STAGE}" in
+  stage1|stage2|stage3)
+    ;;
+  *)
+    echo "ERROR: Unknown TRAINING_STAGE='${TRAINING_STAGE}'. Use stage1, stage2, or stage3." >&2
+    exit 1
+    ;;
+esac
+
+TRAIN_ITERS="${TRAIN_ITERS:-100}"
+NUM_MICROBATCHES="${NUM_MICROBATCHES:-12}"
+MICRO_BATCH_SIZE="${MICRO_BATCH_SIZE:-1}"
+ENCODER_TP="${ENCODER_TP:-1}"
+ENCODER_CP="${ENCODER_CP:-1}"
+ENCODER_PP="${ENCODER_PP:-1}"
+ENCODER_DP="${ENCODER_DP:-8}"
+ENCODER_EP="${ENCODER_EP:-1}"
+LLM_TP="${LLM_TP:-4}"
+LLM_CP="${LLM_CP:-1}"
+LLM_PP="${LLM_PP:-1}"
+LLM_DP="${LLM_DP:-64}"
+LLM_EP="${LLM_EP:-16}"
+LLM_EXPT_TP="${LLM_EXPT_TP:-1}"
+LLM_ONLY="${LLM_ONLY:-0}"
+ENABLE_EXPERIMENTAL="${ENABLE_EXPERIMENTAL:-1}"
+MOE_ROUTER_FORCE_LOAD_BALANCING="${MOE_ROUTER_FORCE_LOAD_BALANCING:-0}"
+
+ENCODER_SIZE=$((ENCODER_TP * ENCODER_CP * ENCODER_PP * ENCODER_DP))
+LLM_SIZE=$((LLM_TP * LLM_CP * LLM_PP * LLM_DP))
+if [[ "${LLM_ONLY}" == "1" || "${LLM_ONLY}" == "true" ]]; then
+  ENCODER_SIZE=0
+  LLM_OFFSET="${LLM_OFFSET:-0}"
+else
+  LLM_OFFSET="${LLM_OFFSET:-${ENCODER_SIZE}}"
+fi
+EXPECTED_WORLD_SIZE=$((ENCODER_SIZE + LLM_SIZE))
+LLM_EXPT_DP="${LLM_EXPT_DP:-$((LLM_SIZE / (LLM_EXPT_TP * LLM_EP * LLM_PP)))}"
+
+if [[ $((LLM_EXPT_TP * LLM_EP * LLM_PP * LLM_EXPT_DP)) -ne "${LLM_SIZE}" ]]; then
+  echo "ERROR: LLM expert layout does not cover LLM ranks." >&2
+  echo "       llm_size=${LLM_SIZE} etp=${LLM_EXPT_TP} ep=${LLM_EP} pp=${LLM_PP} edp=${LLM_EXPT_DP}" >&2
+  exit 1
+fi
+if [[ -n "${WORLD_SIZE:-}" && "${WORLD_SIZE}" -ne "${EXPECTED_WORLD_SIZE}" ]]; then
+  echo "ERROR: WORLD_SIZE=${WORLD_SIZE} but hetero layout requires ${EXPECTED_WORLD_SIZE}" >&2
+  echo "       Submit with nodes*tasks_per_node=${EXPECTED_WORLD_SIZE}." >&2
+  exit 1
+fi
+
+GLOBAL_BATCH_SIZE="${GLOBAL_BATCH_SIZE:-$((MICRO_BATCH_SIZE * NUM_MICROBATCHES * LLM_DP))}"
+LR_WARMUP_ITERS="${LR_WARMUP_ITERS:-10}"
+LR_DECAY_ITERS="${LR_DECAY_ITERS:-${TRAIN_ITERS}}"
+LR="${LR:-2e-4}"
+MIN_LR="${MIN_LR:-2e-6}"
+WEIGHT_DECAY="${WEIGHT_DECAY:-0.05}"
+LR_DECAY_STYLE="${LR_DECAY_STYLE:-cosine}"
+# Sample-based scheduler knobs (set to enable Sanjeev-style WSD). Empty = unused.
+LR_WARMUP_SAMPLES="${LR_WARMUP_SAMPLES:-}"
+LR_DECAY_SAMPLES="${LR_DECAY_SAMPLES:-}"
+LR_WSD_DECAY_SAMPLES="${LR_WSD_DECAY_SAMPLES:-}"
+LR_WSD_DECAY_STYLE="${LR_WSD_DECAY_STYLE:-}"
+TRAIN_SAMPLES="${TRAIN_SAMPLES:-}"
+PACKING_BUFFER_SIZE="${PACKING_BUFFER_SIZE:-128}"
+NUM_WORKERS="${NUM_WORKERS:-1}"
+SHUFFLE_BUFFER_SIZE="${SHUFFLE_BUFFER_SIZE:-100}"
+MAX_SAMPLES_PER_SEQUENCE="${MAX_SAMPLES_PER_SEQUENCE:-100}"
+LOG_INTERVAL="${LOG_INTERVAL:-10}"
+
+if [[ -z "${PYTHON_BIN:-}" ]]; then
+  if command -v python >/dev/null 2>&1; then
+    PYTHON_BIN=python
+  else
+    PYTHON_BIN=python3
+  fi
+fi
+
+SCRATCH_ROOT="${SCRATCH_ROOT:-/lustre/fsw/portfolios/nemotron/users/ykarnati/agents-scratch}"
+TOKENIZER_MODEL="${TOKENIZER_MODEL:-${SCRATCH_ROOT}/tokenizers/sanjeevnv-multimodal-pretraining-26f81d5db838eb6dee2ff8692db83a2fbc76f3ff}"
+DATA_TEMPLATE="${DATA_PATH:-${REPO_ROOT}/examples/mimo/blend_files/text_omnicorpus_blend_10_90_hel.yaml}"
+RUN_DIR="${RUN_DIR:-${SCRATCH_ROOT}/runs/mimo_54l_hel/${SLURM_JOB_ID:-local}}"
+RESOLVED_CONFIG_DIR="${RESOLVED_CONFIG_DIR:-${RUN_DIR}/resolved_configs}"
+DATA_TEMPLATE_BASENAME="$(basename "${DATA_TEMPLATE}")"
+DATA_TRAIN="${DATA_TRAIN:-${RESOLVED_CONFIG_DIR}/${DATA_TEMPLATE_BASENAME%.yaml}.train.yaml}"
+DATA_READY_FILE="${DATA_TRAIN}.ready"
+RANK_ID="${RANK:-${SLURM_PROCID:-0}}"
+DATA_READY_TIMEOUT="${DATA_READY_TIMEOUT:-600}"
+TMPDIR="${TMPDIR:-${RUN_DIR}/tmp/rank-${RANK_ID}}"
+mkdir -p "${TMPDIR}"
+export TMPDIR
+if [[ -z "${TRITON_CACHE_DIR:-}" ]]; then
+  export TRITON_CACHE_DIR="${TRITON_CACHE_DIR_BASE:-${RUN_DIR}/triton-cache}/rank-${RANK_ID}"
+fi
+mkdir -p "${TRITON_CACHE_DIR}"
+
+if [[ ! -r "${DATA_TEMPLATE}" ]]; then
+  echo "ERROR: Cannot read DATA_PATH template: ${DATA_TEMPLATE}" >&2
+  exit 1
+fi
+
+if [[ "${RESOLVE_TRAIN_ONLY_CONFIG:-1}" == "1" ]]; then
+  if [[ "${RANK_ID}" -eq 0 ]]; then
+    mkdir -p "${RESOLVED_CONFIG_DIR}"
+    rm -f "${DATA_READY_FILE}"
+    DATA_TEMPLATE="${DATA_TEMPLATE}" \
+    DATA_TRAIN="${DATA_TRAIN}" \
+    REPO_ROOT="${REPO_ROOT}" \
+    USER_HOME="${USER_HOME:-/home/${USER:-ykarnati}}" \
+    MULTIMODAL_DATA_ROOT="${MULTIMODAL_DATA_ROOT:-/home/${USER:-ykarnati}/data/multimodal_data}" \
+      "${PYTHON_BIN}" - <<'PY'
+import os
+from pathlib import Path
+
+src = Path(os.environ["DATA_TEMPLATE"])
+dst = Path(os.environ["DATA_TRAIN"])
+text = src.read_text()
+for key, value in {
+    "__MEGATRON_ROOT__": os.environ["REPO_ROOT"],
+    "__USER_HOME__": os.environ["USER_HOME"],
+    "__MULTIMODAL_DATA_ROOT__": os.environ["MULTIMODAL_DATA_ROOT"],
+}.items():
+    text = text.replace(key, value)
+
+train_only = []
+for line in text.splitlines():
+    if line.startswith("  val:") or line.startswith("  test:"):
+        break
+    train_only.append(line)
+text = "\n".join(train_only) + "\n"
+
+dst.parent.mkdir(parents=True, exist_ok=True)
+tmp = dst.with_suffix(dst.suffix + f".tmp.{os.getpid()}")
+tmp.write_text(text)
+tmp.replace(dst)
+PY
+    touch "${DATA_READY_FILE}"
+  else
+    waited=0
+    until [[ -f "${DATA_READY_FILE}" ]]; do
+      sleep 2
+      waited=$((waited + 2))
+      if [[ "${waited}" -gt "${DATA_READY_TIMEOUT}" ]]; then
+        echo "ERROR: Timed out waiting for resolved data config: ${DATA_READY_FILE}" >&2
+        exit 1
+      fi
+    done
+  fi
+else
+  DATA_TRAIN="${DATA_TEMPLATE}"
+fi
+
+if [[ ! -r "${DATA_TRAIN}" ]]; then
+  echo "ERROR: Cannot read resolved data config: ${DATA_TRAIN}" >&2
+  exit 1
+fi
+if [[ ! -r "${TOKENIZER_MODEL}/tokenizer.json" ]]; then
+  echo "ERROR: Cannot read tokenizer.json under TOKENIZER_MODEL=${TOKENIZER_MODEL}" >&2
+  exit 1
+fi
+
+if [[ "${CHECK_HEL_PATHS:-1}" == "1" ]]; then
+  TEXT_MCORE_JSON="/scratch/fsw/portfolios/llmservice/projects/llmservice_fm_text/users/rkarimimahab/workspace/blends/1T-phase1var-moresft.json"
+  OMNICORPUS_SAMPLE="/lustre/fsw/portfolios/llmservice/projects/llmservice_nlp_fm/multimodal/datasets/OmniCorpus-CC-210M/webdataset/CC-MAIN-2013-20"
+  if [[ ! -r "${TEXT_MCORE_JSON}" ]]; then
+    echo "ERROR: Cannot read text MCore blend JSON: ${TEXT_MCORE_JSON}" >&2
+    exit 1
+  fi
+  if [[ ! -d "${OMNICORPUS_SAMPLE}" ]]; then
+    echo "ERROR: Cannot find OmniCorpus HEL sample directory: ${OMNICORPUS_SAMPLE}" >&2
+    exit 1
+  fi
+fi
+
+if [[ "${RANK_ID}" -eq 0 ]]; then
+  echo "=== Hetero MIMO Nemotron6-MoE VLM 54L HEL training ==="
+  echo "model_provider=${MODEL_PROVIDER}"
+  echo "stage=${TRAINING_STAGE} train_iters=${TRAIN_ITERS} mbs=${MICRO_BATCH_SIZE} microbatches=${NUM_MICROBATCHES} gbs=${GLOBAL_BATCH_SIZE}"
+  echo "llm_only=${LLM_ONLY}"
+  echo "layout=encoder(tp=${ENCODER_TP},cp=${ENCODER_CP},pp=${ENCODER_PP},dp=${ENCODER_DP},ep=${ENCODER_EP}) llm(tp=${LLM_TP},cp=${LLM_CP},pp=${LLM_PP},dp=${LLM_DP},ep=${LLM_EP},etp=${LLM_EXPT_TP},edp=${LLM_EXPT_DP}) world=${EXPECTED_WORLD_SIZE}"
+  echo "enable_experimental=${ENABLE_EXPERIMENTAL}"
+  echo "moe_router_force_load_balancing=${MOE_ROUTER_FORCE_LOAD_BALANCING}"
+  echo "moe_router_fusion=model-provider-default"
+  echo "data=${DATA_TRAIN}"
+  echo "tokenizer=${TOKENIZER_MODEL}"
+  echo "run_dir=${RUN_DIR}"
+  echo "=========================================================="
+fi
+
+DATA_LOADER_ARGS=(
+  --num-workers "${NUM_WORKERS}"
+  --shuffle-buffer-size "${SHUFFLE_BUFFER_SIZE}"
+  --max-samples-per-sequence "${MAX_SAMPLES_PER_SEQUENCE}"
+)
+if [[ "${PACKING_BUFFER_SIZE}" != "0" ]]; then
+  DATA_LOADER_ARGS+=(--packing-buffer-size "${PACKING_BUFFER_SIZE}")
+fi
+MODEL_ARGS=()
+if [[ "${ENABLE_EXPERIMENTAL}" == "1" || "${ENABLE_EXPERIMENTAL}" == "true" ]]; then
+  MODEL_ARGS+=(--enable-experimental)
+fi
+if [[ "${MOE_ROUTER_FORCE_LOAD_BALANCING}" == "1" || "${MOE_ROUTER_FORCE_LOAD_BALANCING}" == "true" ]]; then
+  MODEL_ARGS+=(--moe-router-force-load-balancing)
+fi
+if [[ "${LLM_ONLY}" == "1" || "${LLM_ONLY}" == "true" ]]; then
+  MODEL_ARGS+=(--llm-only)
+fi
+
+CMD=(
+  "${PYTHON_BIN}" -u examples/mimo/train_hetero.py
+  --model-provider "${MODEL_PROVIDER}"
+  --dataset-provider energon_multimodal
+  --training-stage "${TRAINING_STAGE}"
+  --encoder-tp "${ENCODER_TP}"
+  --encoder-cp "${ENCODER_CP}"
+  --encoder-pp "${ENCODER_PP}"
+  --encoder-dp "${ENCODER_DP}"
+  --encoder-ep "${ENCODER_EP}"
+  --llm-offset "${LLM_OFFSET}"
+  --llm-tp "${LLM_TP}"
+  --llm-cp "${LLM_CP}"
+  --llm-pp "${LLM_PP}"
+  --llm-dp "${LLM_DP}"
+  --llm-ep "${LLM_EP}"
+  --llm-expt-tp "${LLM_EXPT_TP}"
+  --llm-expt-dp "${LLM_EXPT_DP}"
+  "${MODEL_ARGS[@]}"
+  --vocab-size 131072
+  --max-num-tiles 12
+  --data-path "${DATA_TRAIN}"
+  "${DATA_LOADER_ARGS[@]}"
+  --tokenizer-model "${TOKENIZER_MODEL}"
+  --tokenizer-prompt-format nemotron6-moe
+  --image-token "<image>"
+  --micro-batch-size "${MICRO_BATCH_SIZE}"
+  --global-batch-size "${GLOBAL_BATCH_SIZE}"
+  --num-microbatches "${NUM_MICROBATCHES}"
+  --lr "${LR}"
+  --min-lr "${MIN_LR}"
+  --lr-decay-style "${LR_DECAY_STYLE}"
+  --lr-warmup-iters "${LR_WARMUP_ITERS}"
+  --lr-decay-iters "${LR_DECAY_ITERS}"
+  --weight-decay "${WEIGHT_DECAY}"
+  --adam-beta1 0.9
+  --adam-beta2 0.95
+  --clip-grad 1.0
+  --no-overlap-grad-reduce
+  --ddp-bucket-size 0
+  --log-interval "${LOG_INTERVAL}"
+  --train-iters "${TRAIN_ITERS}"
+)
+if [[ -n "${LR_WARMUP_SAMPLES}" ]]; then
+  CMD+=(--lr-warmup-samples "${LR_WARMUP_SAMPLES}")
+fi
+if [[ -n "${LR_DECAY_SAMPLES}" ]]; then
+  CMD+=(--lr-decay-samples "${LR_DECAY_SAMPLES}")
+fi
+if [[ -n "${LR_WSD_DECAY_SAMPLES}" ]]; then
+  CMD+=(--lr-wsd-decay-samples "${LR_WSD_DECAY_SAMPLES}")
+fi
+if [[ -n "${LR_WSD_DECAY_STYLE}" ]]; then
+  CMD+=(--lr-wsd-decay-style "${LR_WSD_DECAY_STYLE}")
+fi
+if [[ -n "${TRAIN_SAMPLES}" ]]; then
+  CMD+=(--train-samples "${TRAIN_SAMPLES}")
+fi
+CMD+=("$@")
+
+if [[ "${DRY_RUN:-0}" == "1" ]]; then
+  printf '%q ' "${CMD[@]}"
+  printf '\n'
+  exit 0
+fi
+
+exec "${CMD[@]}"
diff --git a/examples/mimo/scripts/sbatch_hetero_nemotron_20l_hel_1n_text_vision.sh b/examples/mimo/scripts/sbatch_hetero_nemotron_20l_hel_1n_text_vision.sh
new file mode 100755
index 00000000000..ec5fdee7c94
--- /dev/null
+++ b/examples/mimo/scripts/sbatch_hetero_nemotron_20l_hel_1n_text_vision.sh
@@ -0,0 +1,113 @@
+#!/bin/bash
+# Submit a one-node HEL 20L heterogeneous MIMO smoke run on the 90% text / 10% vision blend.
+#
+# Intended use from a Cog-synced nb-hel workspace:
+#   sbatch examples/mimo/scripts/sbatch_hetero_nemotron_20l_hel_1n_text_vision.sh
+
+#SBATCH -A nemotron_n4_pre
+#SBATCH -p interactive
+#SBATCH -N 1
+#SBATCH --gres=gpu:8
+#SBATCH --time=00:30:00
+#SBATCH -J mimo20l1ntv
+#SBATCH --exclusive
+#SBATCH --output=/lustre/fsw/portfolios/nemotron/users/ykarnati/agents-scratch/runs/%x-%j.out
+#SBATCH --error=/lustre/fsw/portfolios/nemotron/users/ykarnati/agents-scratch/runs/%x-%j.err
+
+set -euo pipefail
+
+if [[ -z "${REPO_ROOT:-}" ]]; then
+  if [[ -n "${SLURM_SUBMIT_DIR:-}" && -d "${SLURM_SUBMIT_DIR}/examples/mimo" ]]; then
+    REPO_ROOT="${SLURM_SUBMIT_DIR}"
+  else
+    SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+    REPO_ROOT="$(cd "${SCRIPT_DIR}/../../.." && pwd)"
+  fi
+fi
+
+SCRATCH_ROOT="${SCRATCH_ROOT:-/lustre/fsw/portfolios/nemotron/users/ykarnati/agents-scratch}"
+CONTAINER_IMAGE="${CONTAINER_IMAGE:-${SCRATCH_ROOT}/images/e4b4805e816ada20.sqsh}"
+ENV_ROOT="${ENV_ROOT:-${SCRATCH_ROOT}/envs/megatron_lm/01f0da7539da4b39}"
+
+RUN_NAME="${RUN_NAME:-mimo20l-hel-1n-text-vision-10-90}"
+RUN_DIR="${RUN_DIR:-${SCRATCH_ROOT}/runs/${RUN_NAME}/${SLURM_JOB_ID:-local}}"
+
+mkdir -p \
+  "${RUN_DIR}/tmp" \
+  "${SCRATCH_ROOT}/runtime/megatron_lm/home" \
+  "${SCRATCH_ROOT}/runtime/megatron_lm/xdg/cache" \
+  "${SCRATCH_ROOT}/runtime/megatron_lm/xdg/data" \
+  "${SCRATCH_ROOT}/runtime/megatron_lm/xdg/state" \
+  "${SCRATCH_ROOT}/runtime/megatron_lm/torchinductor-cache" \
+  "${SCRATCH_ROOT}/runtime/megatron_lm/cuda-cache" \
+  "${SCRATCH_ROOT}/uv-cache/megatron_lm"
+
+if [[ ! -r "${CONTAINER_IMAGE}" ]]; then
+  echo "ERROR: Cannot read CONTAINER_IMAGE=${CONTAINER_IMAGE}" >&2
+  exit 1
+fi
+if [[ ! -d "${ENV_ROOT}/.venv" ]]; then
+  echo "ERROR: Cannot find uv environment at ENV_ROOT=${ENV_ROOT}" >&2
+  exit 1
+fi
+
+export SCRATCH_ROOT
+export REPO_ROOT
+export RUN_DIR
+export TMPDIR="${RUN_DIR}/tmp"
+export HOME="${SCRATCH_ROOT}/runtime/megatron_lm/home"
+export XDG_CACHE_HOME="${SCRATCH_ROOT}/runtime/megatron_lm/xdg/cache"
+export XDG_DATA_HOME="${SCRATCH_ROOT}/runtime/megatron_lm/xdg/data"
+export XDG_STATE_HOME="${SCRATCH_ROOT}/runtime/megatron_lm/xdg/state"
+export TORCHINDUCTOR_CACHE_DIR="${TORCHINDUCTOR_CACHE_DIR:-${SCRATCH_ROOT}/runtime/megatron_lm/torchinductor-cache}"
+export TRITON_CACHE_DIR="${TRITON_CACHE_DIR:-${RUN_DIR}/triton-cache}"
+export CUDA_CACHE_PATH="${CUDA_CACHE_PATH:-${SCRATCH_ROOT}/runtime/megatron_lm/cuda-cache}"
+export PYTHONPATH="${REPO_ROOT}"
+export PYTHONNOUSERSITE=1
+export PIP_CONSTRAINT=""
+export UV_LINK_MODE=copy
+export UV_CACHE_DIR="${SCRATCH_ROOT}/uv-cache/megatron_lm"
+export UV_PROJECT_ENVIRONMENT="${ENV_ROOT}/.venv"
+export VIRTUAL_ENV="${UV_PROJECT_ENVIRONMENT}"
+export PATH="${UV_PROJECT_ENVIRONMENT}/bin:${PATH}"
+
+export DATA_PATH="${DATA_PATH:-${REPO_ROOT}/examples/mimo/blend_files/text_omnicorpus_blend_10_90_hel.yaml}"
+export TOKENIZER_MODEL="${TOKENIZER_MODEL:-${SCRATCH_ROOT}/tokenizers/sanjeevnv-multimodal-pretraining-26f81d5db838eb6dee2ff8692db83a2fbc76f3ff}"
+export TRAIN_ITERS="${TRAIN_ITERS:-30}"
+export NUM_MICROBATCHES="${NUM_MICROBATCHES:-4}"
+export MICRO_BATCH_SIZE="${MICRO_BATCH_SIZE:-1}"
+export GPUS_PER_NODE="${GPUS_PER_NODE:-8}"
+export NUM_WORKERS="${NUM_WORKERS:-0}"
+export SHUFFLE_BUFFER_SIZE="${SHUFFLE_BUFFER_SIZE:-100}"
+export PACKING_BUFFER_SIZE="${PACKING_BUFFER_SIZE:-128}"
+export MAX_SAMPLES_PER_SEQUENCE="${MAX_SAMPLES_PER_SEQUENCE:-100}"
+export VERIFY_ENERGON="${VERIFY_ENERGON:-1}"
+export ENABLE_EXPERIMENTAL="${ENABLE_EXPERIMENTAL:-1}"
+export MOE_ROUTER_FORCE_LOAD_BALANCING="${MOE_ROUTER_FORCE_LOAD_BALANCING:-1}"
+
+CONTAINER_MOUNTS="${SCRATCH_ROOT}:${SCRATCH_ROOT},/lustre/fsw/portfolios/llmservice:/lustre/fsw/portfolios/llmservice,/scratch/fsw/portfolios/llmservice:/scratch/fsw/portfolios/llmservice"
+if [[ "${REPO_ROOT}" != "${SCRATCH_ROOT}"/* ]]; then
+  CONTAINER_MOUNTS="${CONTAINER_MOUNTS},${REPO_ROOT}:${REPO_ROOT}"
+fi
+if [[ -n "${CONTAINER_MOUNTS_EXTRA:-}" ]]; then
+  CONTAINER_MOUNTS="${CONTAINER_MOUNTS},${CONTAINER_MOUNTS_EXTRA}"
+fi
+
+echo "=== HEL 20L heterogeneous MIMO sbatch ==="
+echo "repo=${REPO_ROOT}"
+echo "run_dir=${RUN_DIR}"
+echo "container_image=${CONTAINER_IMAGE}"
+echo "env_root=${ENV_ROOT}"
+echo "data=${DATA_PATH}"
+echo "tokenizer=${TOKENIZER_MODEL}"
+echo "train_iters=${TRAIN_ITERS} microbatches=${NUM_MICROBATCHES}"
+echo "================================================"
+
+srun --kill-on-bad-exit=1 \
+  --ntasks=1 \
+  --container-image="${CONTAINER_IMAGE}" \
+  --no-container-mount-home \
+  --container-mounts="${CONTAINER_MOUNTS}" \
+  --container-workdir="${REPO_ROOT}" \
+  bash -lc 'set -euo pipefail; cd "${REPO_ROOT}"; exec uv run --no-sync bash examples/mimo/scripts/run_hetero_nemotron_20l_energon_train.sh "$@"' \
+  bash "$@"
diff --git a/examples/mimo/scripts/sbatch_hetero_parity_gbs192.sh b/examples/mimo/scripts/sbatch_hetero_parity_gbs192.sh
new file mode 100755
index 00000000000..260b4ab1173
--- /dev/null
+++ b/examples/mimo/scripts/sbatch_hetero_parity_gbs192.sh
@@ -0,0 +1,149 @@
+#!/bin/bash
+# Long hetero-MIMO parity run vs Sanjeev pre-vlm-05.
+# 9 nodes (1n encoder DP=8 + 8n LLM TP=2 DP=32 EP=16), GBS=192, 5000 iters, 4h.
+# Paired with sbatch_sanjeev_parity_gbs192.sh.
+
+#SBATCH -A nemotron_n4_pre
+#SBATCH -p batch
+#SBATCH -N 9
+#SBATCH --ntasks-per-node=8
+#SBATCH --gres=gpu:8
+#SBATCH --time=04:00:00
+#SBATCH -J mimo-parity-gbs192
+#SBATCH --exclusive
+#SBATCH --output=/lustre/fsw/portfolios/nemotron/users/ykarnati/agents-scratch/runs/%x-%j.out
+#SBATCH --error=/lustre/fsw/portfolios/nemotron/users/ykarnati/agents-scratch/runs/%x-%j.err
+
+set -euo pipefail
+
+if [[ -n "${SLURM_SUBMIT_DIR:-}" && -d "${SLURM_SUBMIT_DIR}/examples/mimo" ]]; then
+  REPO_ROOT="${SLURM_SUBMIT_DIR}"
+else
+  SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+  REPO_ROOT="$(cd "${SCRIPT_DIR}/../../.." && pwd)"
+fi
+
+SCRATCH_ROOT=/lustre/fsw/portfolios/nemotron/users/ykarnati/agents-scratch
+CONTAINER_IMAGE="${HETERO_CONTAINER_IMAGE:-${SCRATCH_ROOT}/images/m_lm_energon_0506.sqsh}"
+export HETERO_SKIP_UV="${HETERO_SKIP_UV:-1}"
+ENV_ROOT="${SCRATCH_ROOT}/envs/megatron_lm/01f0da7539da4b39"
+TOKENIZER_MODEL="${SCRATCH_ROOT}/tokenizers/sanjeevnv-multimodal-pretraining-26f81d5db838eb6dee2ff8692db83a2fbc76f3ff"
+VISION_CKPT="${SCRATCH_ROOT}/encoders/post-c-radio-omni"
+
+NEMOTRON_CKPT="${NEMOTRON_CKPT:-/scratch/fsw/portfolios/llmservice/projects/llmservice_fm_text/users/sasatheesh/workspace/output/3b_nano_vlm_sota_mtp2_90t10v_post_c_radio_omni_96n_tp2_ep16_selective_300b_20260511/checkpoints/iter_0001000}"
+
+RUN_NAME="mimo-parity-gbs192"
+RUN_DIR="${SCRATCH_ROOT}/runs/${RUN_NAME}/${SLURM_JOB_ID:-local}"
+
+# ---- topology: TP=2 EP=16 LLM (8 nodes, DP=32) + TP=1 DP=8 encoder lane (1 node)
+ENCODER_TP=1;  ENCODER_CP=1;  ENCODER_PP=1;  ENCODER_DP=8;   ENCODER_EP=1
+LLM_TP=2;      LLM_CP=1;      LLM_PP=1;      LLM_DP=32;      LLM_EP=16;   LLM_EXPT_TP=1
+LLM_ONLY=0
+
+MICRO_BATCH_SIZE=1
+GLOBAL_BATCH_SIZE=192
+NUM_MICROBATCHES=$(( GLOBAL_BATCH_SIZE / (MICRO_BATCH_SIZE * LLM_DP) ))   # = 6
+TRAIN_ITERS=5000
+LOG_INTERVAL=1
+SAVE_INTERVAL=99999999
+
+LR=1.2e-3
+MIN_LR=1.2e-5
+WEIGHT_DECAY=0.1
+LR_DECAY_STYLE=WSD
+LR_WARMUP_SAMPLES=0
+LR_DECAY_SAMPLES=121046313
+LR_WSD_DECAY_SAMPLES=1
+LR_WSD_DECAY_STYLE=minus_sqrt
+TRAIN_SAMPLES=$(( TRAIN_ITERS * GLOBAL_BATCH_SIZE ))
+
+TRAINING_STAGE=stage2
+MODEL_PROVIDER=nemotron-moe-vlm-54l
+ENABLE_EXPERIMENTAL=1
+MOE_ROUTER_FORCE_LOAD_BALANCING=0
+NUM_WORKERS=2
+PACKING_BUFFER_SIZE=4
+SHUFFLE_BUFFER_SIZE=100
+MAX_SAMPLES_PER_SEQUENCE=100
+CHECK_HEL_PATHS=1
+
+WORLD_SIZE=$(( ENCODER_TP * ENCODER_CP * ENCODER_PP * ENCODER_DP \
+             + LLM_TP * LLM_CP * LLM_PP * LLM_DP ))
+[[ "${WORLD_SIZE}" -eq 72 ]] || { echo "ERROR: derived world_size=${WORLD_SIZE} (expected 72)" >&2; exit 1; }
+
+mkdir -p "${RUN_DIR}/logs/app" "${RUN_DIR}/logs/torchrun" "${RUN_DIR}/checkpoints" \
+         "${RUN_DIR}/tensorboard" "${RUN_DIR}/data_cache" "${RUN_DIR}/tmp"
+
+export REPO_ROOT RUN_DIR SCRATCH_ROOT
+export OUTPUT_PATH="${RUN_DIR}" LOG_DIR="${RUN_DIR}/logs/app" APP_LOG_DIR="${RUN_DIR}/logs/app"
+export TORCHRUN_LOG_DIR="${RUN_DIR}/logs/torchrun"
+export CHECKPOINT_SAVE_PATH="${RUN_DIR}/checkpoints" CHECKPOINT_LOAD_PATH="${NEMOTRON_CKPT}"
+export CHECKPOINT_DIR="${RUN_DIR}/checkpoints" TENSORBOARD_PATH="${RUN_DIR}/tensorboard" TB_DIR="${RUN_DIR}/tensorboard"
+export DATA_CACHE_DIR="${RUN_DIR}/data_cache"
+export TMPDIR="/tmp"
+
+export HOME="${SCRATCH_ROOT}/runtime/megatron_lm/home"
+export XDG_CACHE_HOME="${SCRATCH_ROOT}/runtime/megatron_lm/xdg/cache"
+export XDG_DATA_HOME="${SCRATCH_ROOT}/runtime/megatron_lm/xdg/data"
+export XDG_STATE_HOME="${SCRATCH_ROOT}/runtime/megatron_lm/xdg/state"
+export TORCHINDUCTOR_CACHE_DIR="${SCRATCH_ROOT}/runtime/megatron_lm/torchinductor-cache"
+export TRITON_CACHE_DIR_BASE="${RUN_DIR}/triton-cache"
+export CUDA_CACHE_PATH="${SCRATCH_ROOT}/runtime/megatron_lm/cuda-cache"
+export PYTHONPATH="${REPO_ROOT}" PYTHONNOUSERSITE=1 PIP_CONSTRAINT=""
+export UV_CACHE_DIR="${SCRATCH_ROOT}/uv-cache/megatron_lm" UV_LINK_MODE=copy
+export UV_PROJECT_ENVIRONMENT="${ENV_ROOT}/.venv"
+export VIRTUAL_ENV="${UV_PROJECT_ENVIRONMENT}"
+export PATH="${UV_PROJECT_ENVIRONMENT}/bin:${PATH}"
+
+export CUDA_DEVICE_MAX_CONNECTIONS=1
+export NVTE_FWD_LAYERNORM_SM_MARGIN=16 NVTE_BWD_LAYERNORM_SM_MARGIN=16
+export NCCL_P2P_NET_CHUNKSIZE=2097152 PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
+export NCCL_DEBUG=WARN NCCL_SHM_DISABLE=1 NCCL_PROTO=simple NCCL_NVLS_ENABLE=0
+export TORCH_NCCL_AVOID_RECORD_STREAMS=0 NVTE_ALLOW_NONDETERMINISTIC_ALGO=1
+
+export TRAINING_STAGE MODEL_PROVIDER ENABLE_EXPERIMENTAL MOE_ROUTER_FORCE_LOAD_BALANCING
+export TRAIN_ITERS NUM_MICROBATCHES MICRO_BATCH_SIZE GLOBAL_BATCH_SIZE LOG_INTERVAL
+export ENCODER_TP ENCODER_CP ENCODER_PP ENCODER_DP ENCODER_EP
+export LLM_TP LLM_CP LLM_PP LLM_DP LLM_EP LLM_EXPT_TP LLM_ONLY
+export LR MIN_LR WEIGHT_DECAY LR_DECAY_STYLE
+export LR_WARMUP_SAMPLES LR_DECAY_SAMPLES LR_WSD_DECAY_SAMPLES LR_WSD_DECAY_STYLE TRAIN_SAMPLES
+export NUM_WORKERS PACKING_BUFFER_SIZE SHUFFLE_BUFFER_SIZE MAX_SAMPLES_PER_SEQUENCE CHECK_HEL_PATHS
+export TOKENIZER_MODEL VISION_CKPT
+
+TRAIN_LAUNCH_ARGS=(
+  --class-token-len 10
+  --image-tag-type internvl
+  --max-num-tiles 1
+  --overlap-grad-reduce --overlap-param-gather
+  --ddp-num-buckets 8 --ddp-pad-buckets-for-high-nccl-busbw
+  --correct-encoder-grad-for-partial-participation
+  --seed 1234
+  --save "${CHECKPOINT_SAVE_PATH}"
+  --save-interval "${SAVE_INTERVAL}"
+  --no-load-optim --no-load-rng
+  --load-nemotron-checkpoint "${NEMOTRON_CKPT}"
+  --dynamic-resolution
+  --tensorboard-dir "${RUN_DIR}/tensorboard"
+)
+
+CONTAINER_MOUNTS="${SCRATCH_ROOT}:${SCRATCH_ROOT},/lustre/fsw/portfolios/llmservice:/lustre/fsw/portfolios/llmservice,/scratch/fsw/portfolios/llmservice:/scratch/fsw/portfolios/llmservice"
+[[ "${REPO_ROOT}" == "${SCRATCH_ROOT}"/* ]] || CONTAINER_MOUNTS="${CONTAINER_MOUNTS},${REPO_ROOT}:${REPO_ROOT}"
+
+echo "=== hetero parity GBS=192 (${TRAIN_ITERS} iters, ~4h) ==="
+echo "repo=${REPO_ROOT} run_dir=${RUN_DIR}"
+echo "world_size=${WORLD_SIZE} gbs=${GLOBAL_BATCH_SIZE} microbatches=${NUM_MICROBATCHES}"
+echo "layout: encoder(dp=${ENCODER_DP}) llm(tp=${LLM_TP},dp=${LLM_DP},ep=${LLM_EP})"
+echo "ckpt=${NEMOTRON_CKPT}"
+echo "========================================================"
+
+srun --kill-on-bad-exit=1 \
+  --ntasks="${WORLD_SIZE}" \
+  --ntasks-per-node=8 \
+  --container-image="${CONTAINER_IMAGE}" \
+  --no-container-mount-home \
+  --container-mounts="${CONTAINER_MOUNTS}" \
+  --container-workdir="${REPO_ROOT}" \
+  bash -lc 'set -euo pipefail; cd "${REPO_ROOT}";
+    if [ -n "${HETERO_SKIP_UV:-}" ]; then export PYTHONPATH="${REPO_ROOT}:${PYTHONPATH:-}"; exec bash examples/mimo/scripts/run_hetero_nemotron_54l_hel_train.sh "$@"; else exec uv run --no-sync bash examples/mimo/scripts/run_hetero_nemotron_54l_hel_train.sh "$@"; fi
+  ' \
+  bash "${TRAIN_LAUNCH_ARGS[@]}"
diff --git a/examples/mimo/scripts/sbatch_hetero_parity_gbs32.sh b/examples/mimo/scripts/sbatch_hetero_parity_gbs32.sh
new file mode 100755
index 00000000000..39c73aedfa4
--- /dev/null
+++ b/examples/mimo/scripts/sbatch_hetero_parity_gbs32.sh
@@ -0,0 +1,150 @@
+#!/bin/bash
+# Short hetero-MIMO parity run vs Sanjeev pre-vlm-05.
+# 3 nodes (1n encoder DP=8 + 2n LLM TP=2 DP=8 EP=16), GBS=32, 20 iters.
+# Paired with sbatch_sanjeev_parity_gbs32.sh.
+
+#SBATCH -A nemotron_n4_pre
+#SBATCH -p batch
+#SBATCH -N 3
+#SBATCH --ntasks-per-node=8
+#SBATCH --gres=gpu:8
+#SBATCH --time=00:30:00
+#SBATCH -J mimo-parity-gbs32
+#SBATCH --exclusive
+#SBATCH --output=/lustre/fsw/portfolios/nemotron/users/ykarnati/agents-scratch/runs/%x-%j.out
+#SBATCH --error=/lustre/fsw/portfolios/nemotron/users/ykarnati/agents-scratch/runs/%x-%j.err
+
+set -euo pipefail
+
+if [[ -n "${SLURM_SUBMIT_DIR:-}" && -d "${SLURM_SUBMIT_DIR}/examples/mimo" ]]; then
+  REPO_ROOT="${SLURM_SUBMIT_DIR}"
+else
+  SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+  REPO_ROOT="$(cd "${SCRIPT_DIR}/../../.." && pwd)"
+fi
+
+SCRATCH_ROOT=/lustre/fsw/portfolios/nemotron/users/ykarnati/agents-scratch
+CONTAINER_IMAGE="${HETERO_CONTAINER_IMAGE:-${SCRATCH_ROOT}/images/m_lm_energon_0506.sqsh}"
+export HETERO_SKIP_UV="${HETERO_SKIP_UV:-1}"
+ENV_ROOT="${SCRATCH_ROOT}/envs/megatron_lm/01f0da7539da4b39"
+TOKENIZER_MODEL="${SCRATCH_ROOT}/tokenizers/sanjeevnv-multimodal-pretraining-26f81d5db838eb6dee2ff8692db83a2fbc76f3ff"
+VISION_CKPT="${SCRATCH_ROOT}/encoders/post-c-radio-omni"
+
+NEMOTRON_CKPT="${NEMOTRON_CKPT:-/scratch/fsw/portfolios/llmservice/projects/llmservice_fm_text/users/sasatheesh/workspace/output/3b_nano_vlm_sota_mtp2_90t10v_post_c_radio_omni_96n_tp2_ep16_selective_300b_20260511/checkpoints/iter_0001000}"
+
+RUN_NAME="mimo-parity-gbs32"
+RUN_DIR="${SCRATCH_ROOT}/runs/${RUN_NAME}/${SLURM_JOB_ID:-local}"
+
+# ---- topology: TP=2 EP=16 LLM + TP=1 DP=8 encoder lane ----------------------
+ENCODER_TP=1; ENCODER_CP=1; ENCODER_PP=1; ENCODER_DP=8; ENCODER_EP=1
+LLM_TP=2;     LLM_CP=1;     LLM_PP=1;     LLM_DP=8;    LLM_EP=16;   LLM_EXPT_TP=1
+LLM_ONLY=0
+
+MICRO_BATCH_SIZE=1
+GLOBAL_BATCH_SIZE=32
+NUM_MICROBATCHES=$(( GLOBAL_BATCH_SIZE / (MICRO_BATCH_SIZE * LLM_DP) ))   # = 4
+TRAIN_ITERS=20
+LOG_INTERVAL=1
+SAVE_INTERVAL=99999999
+
+LR=1.2e-3
+MIN_LR=1.2e-5
+WEIGHT_DECAY=0.1
+LR_DECAY_STYLE=WSD
+LR_WARMUP_SAMPLES=0
+LR_DECAY_SAMPLES=121046313
+LR_WSD_DECAY_SAMPLES=1
+LR_WSD_DECAY_STYLE=minus_sqrt
+TRAIN_SAMPLES=$(( TRAIN_ITERS * GLOBAL_BATCH_SIZE ))
+
+TRAINING_STAGE=stage2
+MODEL_PROVIDER=nemotron-moe-vlm-54l
+ENABLE_EXPERIMENTAL=1
+MOE_ROUTER_FORCE_LOAD_BALANCING=0
+NUM_WORKERS=2
+PACKING_BUFFER_SIZE=4
+SHUFFLE_BUFFER_SIZE=100
+MAX_SAMPLES_PER_SEQUENCE=100
+CHECK_HEL_PATHS=1
+
+WORLD_SIZE=$(( ENCODER_TP * ENCODER_CP * ENCODER_PP * ENCODER_DP \
+             + LLM_TP * LLM_CP * LLM_PP * LLM_DP ))
+[[ "${WORLD_SIZE}" -eq 24 ]] || { echo "ERROR: derived world_size=${WORLD_SIZE} (expected 24)" >&2; exit 1; }
+
+mkdir -p "${RUN_DIR}/logs/app" "${RUN_DIR}/logs/torchrun" "${RUN_DIR}/checkpoints" \
+         "${RUN_DIR}/tensorboard" "${RUN_DIR}/data_cache" "${RUN_DIR}/tmp"
+
+export REPO_ROOT RUN_DIR SCRATCH_ROOT
+export OUTPUT_PATH="${RUN_DIR}" LOG_DIR="${RUN_DIR}/logs/app" APP_LOG_DIR="${RUN_DIR}/logs/app"
+export TORCHRUN_LOG_DIR="${RUN_DIR}/logs/torchrun"
+export CHECKPOINT_SAVE_PATH="${RUN_DIR}/checkpoints" CHECKPOINT_LOAD_PATH="${NEMOTRON_CKPT}"
+export CHECKPOINT_DIR="${RUN_DIR}/checkpoints" TENSORBOARD_PATH="${RUN_DIR}/tensorboard" TB_DIR="${RUN_DIR}/tensorboard"
+export DATA_CACHE_DIR="${RUN_DIR}/data_cache"
+# DataLoader worker AF_UNIX sockets must stay under 108 chars; RUN_DIR is too long.
+export TMPDIR="/tmp"
+
+export HOME="${SCRATCH_ROOT}/runtime/megatron_lm/home"
+export XDG_CACHE_HOME="${SCRATCH_ROOT}/runtime/megatron_lm/xdg/cache"
+export XDG_DATA_HOME="${SCRATCH_ROOT}/runtime/megatron_lm/xdg/data"
+export XDG_STATE_HOME="${SCRATCH_ROOT}/runtime/megatron_lm/xdg/state"
+export TORCHINDUCTOR_CACHE_DIR="${SCRATCH_ROOT}/runtime/megatron_lm/torchinductor-cache"
+export TRITON_CACHE_DIR_BASE="${RUN_DIR}/triton-cache"
+export CUDA_CACHE_PATH="${SCRATCH_ROOT}/runtime/megatron_lm/cuda-cache"
+export PYTHONPATH="${REPO_ROOT}" PYTHONNOUSERSITE=1 PIP_CONSTRAINT=""
+export UV_CACHE_DIR="${SCRATCH_ROOT}/uv-cache/megatron_lm" UV_LINK_MODE=copy
+export UV_PROJECT_ENVIRONMENT="${ENV_ROOT}/.venv"
+export VIRTUAL_ENV="${UV_PROJECT_ENVIRONMENT}"
+export PATH="${UV_PROJECT_ENVIRONMENT}/bin:${PATH}"
+
+export CUDA_DEVICE_MAX_CONNECTIONS=1
+export NVTE_FWD_LAYERNORM_SM_MARGIN=16 NVTE_BWD_LAYERNORM_SM_MARGIN=16
+export NCCL_P2P_NET_CHUNKSIZE=2097152 PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
+export NCCL_DEBUG=WARN NCCL_SHM_DISABLE=1 NCCL_PROTO=simple NCCL_NVLS_ENABLE=0
+export TORCH_NCCL_AVOID_RECORD_STREAMS=0 NVTE_ALLOW_NONDETERMINISTIC_ALGO=1
+
+export TRAINING_STAGE MODEL_PROVIDER ENABLE_EXPERIMENTAL MOE_ROUTER_FORCE_LOAD_BALANCING
+export TRAIN_ITERS NUM_MICROBATCHES MICRO_BATCH_SIZE GLOBAL_BATCH_SIZE LOG_INTERVAL
+export ENCODER_TP ENCODER_CP ENCODER_PP ENCODER_DP ENCODER_EP
+export LLM_TP LLM_CP LLM_PP LLM_DP LLM_EP LLM_EXPT_TP LLM_ONLY
+export LR MIN_LR WEIGHT_DECAY LR_DECAY_STYLE
+export LR_WARMUP_SAMPLES LR_DECAY_SAMPLES LR_WSD_DECAY_SAMPLES LR_WSD_DECAY_STYLE TRAIN_SAMPLES
+export NUM_WORKERS PACKING_BUFFER_SIZE SHUFFLE_BUFFER_SIZE MAX_SAMPLES_PER_SEQUENCE CHECK_HEL_PATHS
+export TOKENIZER_MODEL VISION_CKPT
+
+TRAIN_LAUNCH_ARGS=(
+  --class-token-len 10
+  --image-tag-type internvl
+  --max-num-tiles 1
+  --overlap-grad-reduce --overlap-param-gather
+  --ddp-num-buckets 8 --ddp-pad-buckets-for-high-nccl-busbw
+  --correct-encoder-grad-for-partial-participation
+  --seed 1234
+  --save "${CHECKPOINT_SAVE_PATH}"
+  --save-interval "${SAVE_INTERVAL}"
+  --no-load-optim --no-load-rng
+  --load-nemotron-checkpoint "${NEMOTRON_CKPT}"
+  --dynamic-resolution
+  --tensorboard-dir "${RUN_DIR}/tensorboard"
+)
+
+CONTAINER_MOUNTS="${SCRATCH_ROOT}:${SCRATCH_ROOT},/lustre/fsw/portfolios/llmservice:/lustre/fsw/portfolios/llmservice,/scratch/fsw/portfolios/llmservice:/scratch/fsw/portfolios/llmservice"
+[[ "${REPO_ROOT}" == "${SCRATCH_ROOT}"/* ]] || CONTAINER_MOUNTS="${CONTAINER_MOUNTS},${REPO_ROOT}:${REPO_ROOT}"
+
+echo "=== hetero parity GBS=32 (${TRAIN_ITERS} iters) ==="
+echo "repo=${REPO_ROOT} run_dir=${RUN_DIR}"
+echo "world_size=${WORLD_SIZE} gbs=${GLOBAL_BATCH_SIZE} microbatches=${NUM_MICROBATCHES}"
+echo "layout: encoder(dp=${ENCODER_DP}) llm(tp=${LLM_TP},dp=${LLM_DP},ep=${LLM_EP})"
+echo "ckpt=${NEMOTRON_CKPT}"
+echo "=================================================="
+
+srun --kill-on-bad-exit=1 \
+  --ntasks="${WORLD_SIZE}" \
+  --ntasks-per-node=8 \
+  --container-image="${CONTAINER_IMAGE}" \
+  --no-container-mount-home \
+  --container-mounts="${CONTAINER_MOUNTS}" \
+  --container-workdir="${REPO_ROOT}" \
+  bash -lc 'set -euo pipefail; cd "${REPO_ROOT}";
+    if [ -n "${HETERO_SKIP_UV:-}" ]; then export PYTHONPATH="${REPO_ROOT}:${PYTHONPATH:-}"; exec bash examples/mimo/scripts/run_hetero_nemotron_54l_hel_train.sh "$@"; else exec uv run --no-sync bash examples/mimo/scripts/run_hetero_nemotron_54l_hel_train.sh "$@"; fi
+  ' \
+  bash "${TRAIN_LAUNCH_ARGS[@]}"
diff --git a/examples/mimo/scripts/sbatch_hetero_prod_gbs768_100n.sh b/examples/mimo/scripts/sbatch_hetero_prod_gbs768_100n.sh
new file mode 100755
index 00000000000..ff6d5ad1c99
--- /dev/null
+++ b/examples/mimo/scripts/sbatch_hetero_prod_gbs768_100n.sh
@@ -0,0 +1,159 @@
+#!/bin/bash
+# Production hetero MIMO Nemotron6-MoE VLM training at 100 nodes (4 enc + 96 LLM).
+# Adapted from sbatch_hetero_parity_gbs768_100n.sh (scaling-study sbatch) by
+# pinning Sanjeev's production knobs from
+# examples/multimodal/v3/pretrain_3b_nano_vlm_sota_90t_10v.sh:
+#   * TRAIN_SAMPLES=122070313
+#   * LR_WARMUP_SAMPLES=1024000, LR_DECAY_SAMPLES=121046313,
+#     LR_WSD_DECAY_SAMPLES=18310547, LR_WSD_DECAY_STYLE=minus_sqrt
+#   * PACKING_BUFFER_SIZE=128
+#   * SAVE_INTERVAL=1000 (LOG_INTERVAL=1 for per-iter visibility)
+#   * NUM_WORKERS=1
+# Deviations: LLM_EP=8 (vs 16), hetero TP=2 (vs 4), force-LB=0, no MTP.
+
+#SBATCH -A nemotron_n4_pre
+#SBATCH -p batch
+#SBATCH -N 100
+#SBATCH --ntasks-per-node=8
+#SBATCH --gres=gpu:8
+#SBATCH --time=04:00:00
+#SBATCH -J mimo-prod-gbs768-100n-ep8
+#SBATCH --exclusive
+#SBATCH --output=/lustre/fsw/portfolios/nemotron/users/ykarnati/agents-scratch/runs/%x-%j.out
+#SBATCH --error=/lustre/fsw/portfolios/nemotron/users/ykarnati/agents-scratch/runs/%x-%j.err
+
+set -euo pipefail
+
+if [[ -n "${SLURM_SUBMIT_DIR:-}" && -d "${SLURM_SUBMIT_DIR}/examples/mimo" ]]; then
+  REPO_ROOT="${SLURM_SUBMIT_DIR}"
+else
+  SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+  REPO_ROOT="$(cd "${SCRIPT_DIR}/../../.." && pwd)"
+fi
+
+SCRATCH_ROOT=/lustre/fsw/portfolios/nemotron/users/ykarnati/agents-scratch
+CONTAINER_IMAGE="${HETERO_CONTAINER_IMAGE:-${SCRATCH_ROOT}/images/m_lm_energon_0506.sqsh}"
+export HETERO_SKIP_UV="${HETERO_SKIP_UV:-1}"
+ENV_ROOT="${SCRATCH_ROOT}/envs/megatron_lm/01f0da7539da4b39"
+TOKENIZER_MODEL="${SCRATCH_ROOT}/tokenizers/sanjeevnv-multimodal-pretraining-26f81d5db838eb6dee2ff8692db83a2fbc76f3ff"
+VISION_CKPT="${SCRATCH_ROOT}/encoders/post-c-radio-omni"
+
+NEMOTRON_CKPT="${NEMOTRON_CKPT:-/scratch/fsw/portfolios/llmservice/projects/llmservice_fm_text/users/sasatheesh/workspace/output/3b_nano_vlm_sota_mtp2_90t10v_post_c_radio_omni_96n_tp2_ep16_selective_300b_20260511/checkpoints/iter_0001000}"
+
+RUN_NAME="mimo-prod-gbs768-100n-ep8"
+RUN_DIR="${SCRATCH_ROOT}/runs/${RUN_NAME}/${SLURM_JOB_ID:-local}"
+
+# ---- topology: TP=2 EP=8 LLM (96 nodes, DP=384) + TP=1 DP=32 encoder lane (4 nodes)
+ENCODER_TP=1;  ENCODER_CP=1;  ENCODER_PP=1;  ENCODER_DP=32;  ENCODER_EP=1
+LLM_TP=2;      LLM_CP=1;      LLM_PP=1;      LLM_DP=384;     LLM_EP=8;    LLM_EXPT_TP=1
+LLM_ONLY=0
+
+MICRO_BATCH_SIZE=1
+GLOBAL_BATCH_SIZE=768
+NUM_MICROBATCHES=$(( GLOBAL_BATCH_SIZE / (MICRO_BATCH_SIZE * LLM_DP) ))   # = 2
+
+# Sanjeev's sample-based WSD schedule from pretrain_3b_nano_vlm_sota_90t_10v.sh.
+TRAIN_SAMPLES=122070313
+LR_WARMUP_SAMPLES=1024000
+LR_DECAY_SAMPLES=$(( TRAIN_SAMPLES - LR_WARMUP_SAMPLES ))   # = 121046313
+LR_WSD_DECAY_SAMPLES=18310547
+LR_WSD_DECAY_STYLE=minus_sqrt
+LR=1.2e-3
+MIN_LR=1.2e-5
+WEIGHT_DECAY=0.1
+LR_DECAY_STYLE=WSD
+
+# --train-samples drives the stopping condition; TRAIN_ITERS is a derived fallback.
+TRAIN_ITERS=$(( (TRAIN_SAMPLES + GLOBAL_BATCH_SIZE - 1) / GLOBAL_BATCH_SIZE ))
+LOG_INTERVAL=1
+SAVE_INTERVAL=1000
+
+TRAINING_STAGE=stage2
+MODEL_PROVIDER=nemotron-moe-vlm-54l
+ENABLE_EXPERIMENTAL=1
+MOE_ROUTER_FORCE_LOAD_BALANCING=0
+NUM_WORKERS=1
+PACKING_BUFFER_SIZE=128
+SHUFFLE_BUFFER_SIZE=100
+MAX_SAMPLES_PER_SEQUENCE=100
+CHECK_HEL_PATHS=1
+
+WORLD_SIZE=$(( ENCODER_TP * ENCODER_CP * ENCODER_PP * ENCODER_DP \
+             + LLM_TP * LLM_CP * LLM_PP * LLM_DP ))
+[[ "${WORLD_SIZE}" -eq 800 ]] || { echo "ERROR: derived world_size=${WORLD_SIZE} (expected 800)" >&2; exit 1; }
+
+mkdir -p "${RUN_DIR}/logs/app" "${RUN_DIR}/logs/torchrun" "${RUN_DIR}/checkpoints" \
+         "${RUN_DIR}/tensorboard" "${RUN_DIR}/data_cache" "${RUN_DIR}/tmp"
+
+export REPO_ROOT RUN_DIR SCRATCH_ROOT
+export OUTPUT_PATH="${RUN_DIR}" LOG_DIR="${RUN_DIR}/logs/app" APP_LOG_DIR="${RUN_DIR}/logs/app"
+export TORCHRUN_LOG_DIR="${RUN_DIR}/logs/torchrun"
+export CHECKPOINT_SAVE_PATH="${RUN_DIR}/checkpoints" CHECKPOINT_LOAD_PATH="${NEMOTRON_CKPT}"
+export CHECKPOINT_DIR="${RUN_DIR}/checkpoints" TENSORBOARD_PATH="${RUN_DIR}/tensorboard" TB_DIR="${RUN_DIR}/tensorboard"
+export DATA_CACHE_DIR="${RUN_DIR}/data_cache"
+export TMPDIR="/tmp"
+
+export HOME="${SCRATCH_ROOT}/runtime/megatron_lm/home"
+export XDG_CACHE_HOME="${SCRATCH_ROOT}/runtime/megatron_lm/xdg/cache"
+export XDG_DATA_HOME="${SCRATCH_ROOT}/runtime/megatron_lm/xdg/data"
+export XDG_STATE_HOME="${SCRATCH_ROOT}/runtime/megatron_lm/xdg/state"
+export TORCHINDUCTOR_CACHE_DIR="${SCRATCH_ROOT}/runtime/megatron_lm/torchinductor-cache"
+export TRITON_CACHE_DIR_BASE="${RUN_DIR}/triton-cache"
+export CUDA_CACHE_PATH="${SCRATCH_ROOT}/runtime/megatron_lm/cuda-cache"
+export PYTHONPATH="${REPO_ROOT}" PYTHONNOUSERSITE=1 PIP_CONSTRAINT=""
+export UV_CACHE_DIR="${SCRATCH_ROOT}/uv-cache/megatron_lm" UV_LINK_MODE=copy
+export UV_PROJECT_ENVIRONMENT="${ENV_ROOT}/.venv"
+export VIRTUAL_ENV="${UV_PROJECT_ENVIRONMENT}"
+export PATH="${UV_PROJECT_ENVIRONMENT}/bin:${PATH}"
+
+export CUDA_DEVICE_MAX_CONNECTIONS=1
+export NVTE_FWD_LAYERNORM_SM_MARGIN=16 NVTE_BWD_LAYERNORM_SM_MARGIN=16
+export NCCL_P2P_NET_CHUNKSIZE=2097152 PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
+export NCCL_DEBUG=WARN NCCL_SHM_DISABLE=1 NCCL_PROTO=simple NCCL_NVLS_ENABLE=0
+export TORCH_NCCL_AVOID_RECORD_STREAMS=0 NVTE_ALLOW_NONDETERMINISTIC_ALGO=1
+
+export TRAINING_STAGE MODEL_PROVIDER ENABLE_EXPERIMENTAL MOE_ROUTER_FORCE_LOAD_BALANCING
+export TRAIN_ITERS NUM_MICROBATCHES MICRO_BATCH_SIZE GLOBAL_BATCH_SIZE LOG_INTERVAL
+export ENCODER_TP ENCODER_CP ENCODER_PP ENCODER_DP ENCODER_EP
+export LLM_TP LLM_CP LLM_PP LLM_DP LLM_EP LLM_EXPT_TP LLM_ONLY
+export LR MIN_LR WEIGHT_DECAY LR_DECAY_STYLE
+export LR_WARMUP_SAMPLES LR_DECAY_SAMPLES LR_WSD_DECAY_SAMPLES LR_WSD_DECAY_STYLE TRAIN_SAMPLES
+export NUM_WORKERS PACKING_BUFFER_SIZE SHUFFLE_BUFFER_SIZE MAX_SAMPLES_PER_SEQUENCE CHECK_HEL_PATHS
+export TOKENIZER_MODEL VISION_CKPT
+
+TRAIN_LAUNCH_ARGS=(
+  --class-token-len 10
+  --image-tag-type internvl
+  --max-num-tiles 1
+  --overlap-grad-reduce --overlap-param-gather
+  --ddp-num-buckets 8 --ddp-pad-buckets-for-high-nccl-busbw
+  --correct-encoder-grad-for-partial-participation
+  --seed 1234
+  --save "${CHECKPOINT_SAVE_PATH}"
+  --save-interval "${SAVE_INTERVAL}"
+  --no-load-optim --no-load-rng
+  --load-nemotron-checkpoint "${NEMOTRON_CKPT}"
+  --dynamic-resolution
+  --tensorboard-dir "${RUN_DIR}/tensorboard"
+)
+CONTAINER_MOUNTS="${SCRATCH_ROOT}:${SCRATCH_ROOT},/lustre/fsw/portfolios/llmservice:/lustre/fsw/portfolios/llmservice,/scratch/fsw/portfolios/llmservice:/scratch/fsw/portfolios/llmservice"
+[[ "${REPO_ROOT}" == "${SCRATCH_ROOT}"/* ]] || CONTAINER_MOUNTS="${CONTAINER_MOUNTS},${REPO_ROOT}:${REPO_ROOT}"
+
+echo "=== hetero PROD GBS=768 100n EP=8 (TRAIN_SAMPLES=${TRAIN_SAMPLES}, warmup=${LR_WARMUP_SAMPLES}, wsd-decay=${LR_WSD_DECAY_SAMPLES}, packing=${PACKING_BUFFER_SIZE}) ==="
+echo "repo=${REPO_ROOT} run_dir=${RUN_DIR}"
+echo "world_size=${WORLD_SIZE} gbs=${GLOBAL_BATCH_SIZE} microbatches=${NUM_MICROBATCHES}"
+echo "layout: encoder(dp=${ENCODER_DP}) llm(tp=${LLM_TP},dp=${LLM_DP},ep=${LLM_EP})"
+echo "ckpt=${NEMOTRON_CKPT}"
+echo "========================================================"
+
+srun --kill-on-bad-exit=1 \
+  --ntasks="${WORLD_SIZE}" \
+  --ntasks-per-node=8 \
+  --container-image="${CONTAINER_IMAGE}" \
+  --no-container-mount-home \
+  --container-mounts="${CONTAINER_MOUNTS}" \
+  --container-workdir="${REPO_ROOT}" \
+  bash -lc 'set -euo pipefail; cd "${REPO_ROOT}";
+    if [ -n "${HETERO_SKIP_UV:-}" ]; then export PYTHONPATH="${REPO_ROOT}:${PYTHONPATH:-}"; exec bash examples/mimo/scripts/run_hetero_nemotron_54l_hel_train.sh "$@"; else exec uv run --no-sync bash examples/mimo/scripts/run_hetero_nemotron_54l_hel_train.sh "$@"; fi
+  ' \
+  bash "${TRAIN_LAUNCH_ARGS[@]}"
diff --git a/examples/mimo/scripts/sbatch_hetero_prod_gbs768_33n_ep8.sh b/examples/mimo/scripts/sbatch_hetero_prod_gbs768_33n_ep8.sh
new file mode 100755
index 00000000000..1caf4221f79
--- /dev/null
+++ b/examples/mimo/scripts/sbatch_hetero_prod_gbs768_33n_ep8.sh
@@ -0,0 +1,165 @@
+#!/bin/bash
+# Production hetero MIMO Nemotron6-MoE VLM training at 33 nodes (1 enc + 32 LLM).
+# Adapted from sbatch_hetero_parity_gbs768_33n_ep8.sh (scaling-study sbatch) by
+# pinning Sanjeev's production knobs from
+# examples/multimodal/v3/pretrain_3b_nano_vlm_sota_90t_10v.sh:
+#   * TRAIN_SAMPLES=122070313
+#   * LR_WARMUP_SAMPLES=1024000, LR_DECAY_SAMPLES=121046313,
+#     LR_WSD_DECAY_SAMPLES=18310547, LR_WSD_DECAY_STYLE=minus_sqrt
+#   * PACKING_BUFFER_SIZE=128
+#   * SAVE_INTERVAL=1000 (LOG_INTERVAL=1 for per-iter visibility)
+#   * NUM_WORKERS=1
+# Deviations from Sanjeev's baseline:
+#   * LLM_EP=8 (vs Sanjeev's EP=16) — kept from our scaling study
+#   * Hetero topology TP=2 (vs Sanjeev's TP=4)
+#   * MOE_ROUTER_FORCE_LOAD_BALANCING=0 (natural seq_aux_loss)
+#   * No MTP layers
+
+#SBATCH -A nemotron_n4_pre
+#SBATCH -p batch
+#SBATCH -N 33
+#SBATCH --ntasks-per-node=8
+#SBATCH --gres=gpu:8
+#SBATCH --time=04:00:00
+#SBATCH -J mimo-prod-gbs768-33n-ep8
+#SBATCH --exclusive
+#SBATCH --output=/lustre/fsw/portfolios/nemotron/users/ykarnati/agents-scratch/runs/%x-%j.out
+#SBATCH --error=/lustre/fsw/portfolios/nemotron/users/ykarnati/agents-scratch/runs/%x-%j.err
+
+set -euo pipefail
+
+if [[ -n "${SLURM_SUBMIT_DIR:-}" && -d "${SLURM_SUBMIT_DIR}/examples/mimo" ]]; then
+  REPO_ROOT="${SLURM_SUBMIT_DIR}"
+else
+  SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+  REPO_ROOT="$(cd "${SCRIPT_DIR}/../../.." && pwd)"
+fi
+
+SCRATCH_ROOT=/lustre/fsw/portfolios/nemotron/users/ykarnati/agents-scratch
+CONTAINER_IMAGE="${HETERO_CONTAINER_IMAGE:-${SCRATCH_ROOT}/images/m_lm_energon_0506.sqsh}"
+export HETERO_SKIP_UV="${HETERO_SKIP_UV:-1}"
+ENV_ROOT="${SCRATCH_ROOT}/envs/megatron_lm/01f0da7539da4b39"
+TOKENIZER_MODEL="${SCRATCH_ROOT}/tokenizers/sanjeevnv-multimodal-pretraining-26f81d5db838eb6dee2ff8692db83a2fbc76f3ff"
+VISION_CKPT="${SCRATCH_ROOT}/encoders/post-c-radio-omni"
+
+NEMOTRON_CKPT="${NEMOTRON_CKPT:-/scratch/fsw/portfolios/llmservice/projects/llmservice_fm_text/users/sasatheesh/workspace/output/3b_nano_vlm_sota_mtp2_90t10v_post_c_radio_omni_96n_tp2_ep16_selective_300b_20260511/checkpoints/iter_0001000}"
+
+RUN_NAME="mimo-prod-gbs768-33n-ep8"
+RUN_DIR="${SCRATCH_ROOT}/runs/${RUN_NAME}/${SLURM_JOB_ID:-local}"
+
+# ---- topology: TP=2 EP=8 LLM (32 nodes, DP=128, expt_dp=32) + TP=1 DP=8 encoder lane (1 node)
+ENCODER_TP=1;  ENCODER_CP=1;  ENCODER_PP=1;  ENCODER_DP=8;   ENCODER_EP=1
+LLM_TP=2;      LLM_CP=1;      LLM_PP=1;      LLM_DP=128;     LLM_EP=8;    LLM_EXPT_TP=1
+LLM_ONLY=0
+
+MICRO_BATCH_SIZE=1
+GLOBAL_BATCH_SIZE=768
+NUM_MICROBATCHES=$(( GLOBAL_BATCH_SIZE / (MICRO_BATCH_SIZE * LLM_DP) ))   # = 6
+
+# Sanjeev's sample-based WSD schedule from pretrain_3b_nano_vlm_sota_90t_10v.sh.
+TRAIN_SAMPLES=122070313
+LR_WARMUP_SAMPLES=1024000
+LR_DECAY_SAMPLES=$(( TRAIN_SAMPLES - LR_WARMUP_SAMPLES ))   # = 121046313
+LR_WSD_DECAY_SAMPLES=18310547
+LR_WSD_DECAY_STYLE=minus_sqrt
+LR=1.2e-3
+MIN_LR=1.2e-5
+WEIGHT_DECAY=0.1
+LR_DECAY_STYLE=WSD
+
+# --train-samples drives the actual stopping condition; TRAIN_ITERS is a derived
+# fallback that validate_args overrides via ceil(TRAIN_SAMPLES / GBS).
+TRAIN_ITERS=$(( (TRAIN_SAMPLES + GLOBAL_BATCH_SIZE - 1) / GLOBAL_BATCH_SIZE ))
+LOG_INTERVAL=1
+SAVE_INTERVAL=1000
+
+TRAINING_STAGE=stage2
+MODEL_PROVIDER=nemotron-moe-vlm-54l
+ENABLE_EXPERIMENTAL=1
+MOE_ROUTER_FORCE_LOAD_BALANCING=0
+NUM_WORKERS=1
+PACKING_BUFFER_SIZE=128
+SHUFFLE_BUFFER_SIZE=100
+MAX_SAMPLES_PER_SEQUENCE=100
+CHECK_HEL_PATHS=1
+
+WORLD_SIZE=$(( ENCODER_TP * ENCODER_CP * ENCODER_PP * ENCODER_DP \
+             + LLM_TP * LLM_CP * LLM_PP * LLM_DP ))
+[[ "${WORLD_SIZE}" -eq 264 ]] || { echo "ERROR: derived world_size=${WORLD_SIZE} (expected 264)" >&2; exit 1; }
+
+mkdir -p "${RUN_DIR}/logs/app" "${RUN_DIR}/logs/torchrun" "${RUN_DIR}/checkpoints" \
+         "${RUN_DIR}/tensorboard" "${RUN_DIR}/data_cache" "${RUN_DIR}/tmp"
+
+export REPO_ROOT RUN_DIR SCRATCH_ROOT
+export OUTPUT_PATH="${RUN_DIR}" LOG_DIR="${RUN_DIR}/logs/app" APP_LOG_DIR="${RUN_DIR}/logs/app"
+export TORCHRUN_LOG_DIR="${RUN_DIR}/logs/torchrun"
+export CHECKPOINT_SAVE_PATH="${RUN_DIR}/checkpoints" CHECKPOINT_LOAD_PATH="${NEMOTRON_CKPT}"
+export CHECKPOINT_DIR="${RUN_DIR}/checkpoints" TENSORBOARD_PATH="${RUN_DIR}/tensorboard" TB_DIR="${RUN_DIR}/tensorboard"
+export DATA_CACHE_DIR="${RUN_DIR}/data_cache"
+export TMPDIR="/tmp"
+
+export HOME="${SCRATCH_ROOT}/runtime/megatron_lm/home"
+export XDG_CACHE_HOME="${SCRATCH_ROOT}/runtime/megatron_lm/xdg/cache"
+export XDG_DATA_HOME="${SCRATCH_ROOT}/runtime/megatron_lm/xdg/data"
+export XDG_STATE_HOME="${SCRATCH_ROOT}/runtime/megatron_lm/xdg/state"
+export TORCHINDUCTOR_CACHE_DIR="${SCRATCH_ROOT}/runtime/megatron_lm/torchinductor-cache"
+export TRITON_CACHE_DIR_BASE="${RUN_DIR}/triton-cache"
+export CUDA_CACHE_PATH="${SCRATCH_ROOT}/runtime/megatron_lm/cuda-cache"
+export PYTHONPATH="${REPO_ROOT}" PYTHONNOUSERSITE=1 PIP_CONSTRAINT=""
+export UV_CACHE_DIR="${SCRATCH_ROOT}/uv-cache/megatron_lm" UV_LINK_MODE=copy
+export UV_PROJECT_ENVIRONMENT="${ENV_ROOT}/.venv"
+export VIRTUAL_ENV="${UV_PROJECT_ENVIRONMENT}"
+export PATH="${UV_PROJECT_ENVIRONMENT}/bin:${PATH}"
+
+export CUDA_DEVICE_MAX_CONNECTIONS=1
+export NVTE_FWD_LAYERNORM_SM_MARGIN=16 NVTE_BWD_LAYERNORM_SM_MARGIN=16
+export NCCL_P2P_NET_CHUNKSIZE=2097152 PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
+export NCCL_DEBUG=WARN NCCL_SHM_DISABLE=1 NCCL_PROTO=simple NCCL_NVLS_ENABLE=0
+export TORCH_NCCL_AVOID_RECORD_STREAMS=0 NVTE_ALLOW_NONDETERMINISTIC_ALGO=1
+
+export TRAINING_STAGE MODEL_PROVIDER ENABLE_EXPERIMENTAL MOE_ROUTER_FORCE_LOAD_BALANCING
+export TRAIN_ITERS NUM_MICROBATCHES MICRO_BATCH_SIZE GLOBAL_BATCH_SIZE LOG_INTERVAL
+export ENCODER_TP ENCODER_CP ENCODER_PP ENCODER_DP ENCODER_EP
+export LLM_TP LLM_CP LLM_PP LLM_DP LLM_EP LLM_EXPT_TP LLM_ONLY
+export LR MIN_LR WEIGHT_DECAY LR_DECAY_STYLE
+export LR_WARMUP_SAMPLES LR_DECAY_SAMPLES LR_WSD_DECAY_SAMPLES LR_WSD_DECAY_STYLE TRAIN_SAMPLES
+export NUM_WORKERS PACKING_BUFFER_SIZE SHUFFLE_BUFFER_SIZE MAX_SAMPLES_PER_SEQUENCE CHECK_HEL_PATHS
+export TOKENIZER_MODEL VISION_CKPT
+
+TRAIN_LAUNCH_ARGS=(
+  --class-token-len 10
+  --image-tag-type internvl
+  --max-num-tiles 1
+  --overlap-grad-reduce --overlap-param-gather
+  --ddp-num-buckets 8 --ddp-pad-buckets-for-high-nccl-busbw
+  --correct-encoder-grad-for-partial-participation
+  --seed 1234
+  --save "${CHECKPOINT_SAVE_PATH}"
+  --save-interval "${SAVE_INTERVAL}"
+  --no-load-optim --no-load-rng
+  --load-nemotron-checkpoint "${NEMOTRON_CKPT}"
+  --dynamic-resolution
+  --tensorboard-dir "${RUN_DIR}/tensorboard"
+)
+
+CONTAINER_MOUNTS="${SCRATCH_ROOT}:${SCRATCH_ROOT},/lustre/fsw/portfolios/llmservice:/lustre/fsw/portfolios/llmservice,/scratch/fsw/portfolios/llmservice:/scratch/fsw/portfolios/llmservice"
+[[ "${REPO_ROOT}" == "${SCRATCH_ROOT}"/* ]] || CONTAINER_MOUNTS="${CONTAINER_MOUNTS},${REPO_ROOT}:${REPO_ROOT}"
+
+echo "=== hetero PROD GBS=768 33n EP=8 (TRAIN_SAMPLES=${TRAIN_SAMPLES}, warmup=${LR_WARMUP_SAMPLES}, wsd-decay=${LR_WSD_DECAY_SAMPLES}, packing=${PACKING_BUFFER_SIZE}) ==="
+echo "repo=${REPO_ROOT} run_dir=${RUN_DIR}"
+echo "world_size=${WORLD_SIZE} gbs=${GLOBAL_BATCH_SIZE} microbatches=${NUM_MICROBATCHES}"
+echo "layout: encoder(dp=${ENCODER_DP}) llm(tp=${LLM_TP},dp=${LLM_DP},ep=${LLM_EP})"
+echo "ckpt=${NEMOTRON_CKPT}"
+echo "========================================================"
+
+srun --kill-on-bad-exit=1 \
+  --ntasks="${WORLD_SIZE}" \
+  --ntasks-per-node=8 \
+  --container-image="${CONTAINER_IMAGE}" \
+  --no-container-mount-home \
+  --container-mounts="${CONTAINER_MOUNTS}" \
+  --container-workdir="${REPO_ROOT}" \
+  bash -lc 'set -euo pipefail; cd "${REPO_ROOT}";
+    if [ -n "${HETERO_SKIP_UV:-}" ]; then export PYTHONPATH="${REPO_ROOT}:${PYTHONPATH:-}"; exec bash examples/mimo/scripts/run_hetero_nemotron_54l_hel_train.sh "$@"; else exec uv run --no-sync bash examples/mimo/scripts/run_hetero_nemotron_54l_hel_train.sh "$@"; fi
+  ' \
+  bash "${TRAIN_LAUNCH_ARGS[@]}"
diff --git a/examples/mimo/scripts/sbatch_hetero_prod_gbs768_68n_ep8.sh b/examples/mimo/scripts/sbatch_hetero_prod_gbs768_68n_ep8.sh
new file mode 100755
index 00000000000..c6676343901
--- /dev/null
+++ b/examples/mimo/scripts/sbatch_hetero_prod_gbs768_68n_ep8.sh
@@ -0,0 +1,160 @@
+#!/bin/bash
+# Production hetero MIMO Nemotron6-MoE VLM training at 68 nodes (4 enc + 64 LLM).
+# Adapted from sbatch_hetero_parity_gbs768_68n_ep8.sh (scaling-study sbatch) by
+# pinning Sanjeev's production knobs from
+# examples/multimodal/v3/pretrain_3b_nano_vlm_sota_90t_10v.sh:
+#   * TRAIN_SAMPLES=122070313
+#   * LR_WARMUP_SAMPLES=1024000, LR_DECAY_SAMPLES=121046313,
+#     LR_WSD_DECAY_SAMPLES=18310547, LR_WSD_DECAY_STYLE=minus_sqrt
+#   * PACKING_BUFFER_SIZE=128
+#   * SAVE_INTERVAL=1000 (LOG_INTERVAL=1 for per-iter visibility)
+#   * NUM_WORKERS=1
+# Deviations: LLM_EP=8 (vs 16), hetero TP=2 (vs 4), force-LB=0, no MTP.
+
+#SBATCH -A nemotron_n4_pre
+#SBATCH -p batch
+#SBATCH -N 68
+#SBATCH --ntasks-per-node=8
+#SBATCH --gres=gpu:8
+#SBATCH --time=04:00:00
+#SBATCH -J mimo-prod-gbs768-68n-ep8
+#SBATCH --exclusive
+#SBATCH --output=/lustre/fsw/portfolios/nemotron/users/ykarnati/agents-scratch/runs/%x-%j.out
+#SBATCH --error=/lustre/fsw/portfolios/nemotron/users/ykarnati/agents-scratch/runs/%x-%j.err
+
+set -euo pipefail
+
+if [[ -n "${SLURM_SUBMIT_DIR:-}" && -d "${SLURM_SUBMIT_DIR}/examples/mimo" ]]; then
+  REPO_ROOT="${SLURM_SUBMIT_DIR}"
+else
+  SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+  REPO_ROOT="$(cd "${SCRIPT_DIR}/../../.." && pwd)"
+fi
+
+SCRATCH_ROOT=/lustre/fsw/portfolios/nemotron/users/ykarnati/agents-scratch
+CONTAINER_IMAGE="${HETERO_CONTAINER_IMAGE:-${SCRATCH_ROOT}/images/m_lm_energon_0506.sqsh}"
+export HETERO_SKIP_UV="${HETERO_SKIP_UV:-1}"
+ENV_ROOT="${SCRATCH_ROOT}/envs/megatron_lm/01f0da7539da4b39"
+TOKENIZER_MODEL="${SCRATCH_ROOT}/tokenizers/sanjeevnv-multimodal-pretraining-26f81d5db838eb6dee2ff8692db83a2fbc76f3ff"
+VISION_CKPT="${SCRATCH_ROOT}/encoders/post-c-radio-omni"
+
+NEMOTRON_CKPT="${NEMOTRON_CKPT:-/scratch/fsw/portfolios/llmservice/projects/llmservice_fm_text/users/sasatheesh/workspace/output/3b_nano_vlm_sota_mtp2_90t10v_post_c_radio_omni_96n_tp2_ep16_selective_300b_20260511/checkpoints/iter_0001000}"
+
+RUN_NAME="mimo-prod-gbs768-68n-ep8"
+RUN_DIR="${SCRATCH_ROOT}/runs/${RUN_NAME}/${SLURM_JOB_ID:-local}"
+
+# ---- topology: TP=2 EP=8 LLM (64 nodes, DP=256, expt_dp=64) + TP=1 DP=32 encoder lane (4 nodes)
+ENCODER_TP=1;  ENCODER_CP=1;  ENCODER_PP=1;  ENCODER_DP=32;  ENCODER_EP=1
+LLM_TP=2;      LLM_CP=1;      LLM_PP=1;      LLM_DP=256;     LLM_EP=8;    LLM_EXPT_TP=1
+LLM_ONLY=0
+
+MICRO_BATCH_SIZE=1
+GLOBAL_BATCH_SIZE=768
+NUM_MICROBATCHES=$(( GLOBAL_BATCH_SIZE / (MICRO_BATCH_SIZE * LLM_DP) ))   # = 3
+
+# Sanjeev's sample-based WSD schedule from pretrain_3b_nano_vlm_sota_90t_10v.sh.
+TRAIN_SAMPLES=122070313
+LR_WARMUP_SAMPLES=1024000
+LR_DECAY_SAMPLES=$(( TRAIN_SAMPLES - LR_WARMUP_SAMPLES ))   # = 121046313
+LR_WSD_DECAY_SAMPLES=18310547
+LR_WSD_DECAY_STYLE=minus_sqrt
+LR=1.2e-3
+MIN_LR=1.2e-5
+WEIGHT_DECAY=0.1
+LR_DECAY_STYLE=WSD
+
+# --train-samples drives the stopping condition; TRAIN_ITERS is a derived fallback.
+TRAIN_ITERS=$(( (TRAIN_SAMPLES + GLOBAL_BATCH_SIZE - 1) / GLOBAL_BATCH_SIZE ))
+LOG_INTERVAL=1
+SAVE_INTERVAL=1000
+
+TRAINING_STAGE=stage2
+MODEL_PROVIDER=nemotron-moe-vlm-54l
+ENABLE_EXPERIMENTAL=1
+MOE_ROUTER_FORCE_LOAD_BALANCING=0
+NUM_WORKERS=1
+PACKING_BUFFER_SIZE=128
+SHUFFLE_BUFFER_SIZE=100
+MAX_SAMPLES_PER_SEQUENCE=100
+CHECK_HEL_PATHS=1
+
+WORLD_SIZE=$(( ENCODER_TP * ENCODER_CP * ENCODER_PP * ENCODER_DP \
+             + LLM_TP * LLM_CP * LLM_PP * LLM_DP ))
+[[ "${WORLD_SIZE}" -eq 544 ]] || { echo "ERROR: derived world_size=${WORLD_SIZE} (expected 544)" >&2; exit 1; }
+
+mkdir -p "${RUN_DIR}/logs/app" "${RUN_DIR}/logs/torchrun" "${RUN_DIR}/checkpoints" \
+         "${RUN_DIR}/tensorboard" "${RUN_DIR}/data_cache" "${RUN_DIR}/tmp"
+
+export REPO_ROOT RUN_DIR SCRATCH_ROOT
+export OUTPUT_PATH="${RUN_DIR}" LOG_DIR="${RUN_DIR}/logs/app" APP_LOG_DIR="${RUN_DIR}/logs/app"
+export TORCHRUN_LOG_DIR="${RUN_DIR}/logs/torchrun"
+export CHECKPOINT_SAVE_PATH="${RUN_DIR}/checkpoints" CHECKPOINT_LOAD_PATH="${NEMOTRON_CKPT}"
+export CHECKPOINT_DIR="${RUN_DIR}/checkpoints" TENSORBOARD_PATH="${RUN_DIR}/tensorboard" TB_DIR="${RUN_DIR}/tensorboard"
+export DATA_CACHE_DIR="${RUN_DIR}/data_cache"
+export TMPDIR="/tmp"
+
+export HOME="${SCRATCH_ROOT}/runtime/megatron_lm/home"
+export XDG_CACHE_HOME="${SCRATCH_ROOT}/runtime/megatron_lm/xdg/cache"
+export XDG_DATA_HOME="${SCRATCH_ROOT}/runtime/megatron_lm/xdg/data"
+export XDG_STATE_HOME="${SCRATCH_ROOT}/runtime/megatron_lm/xdg/state"
+export TORCHINDUCTOR_CACHE_DIR="${SCRATCH_ROOT}/runtime/megatron_lm/torchinductor-cache"
+export TRITON_CACHE_DIR_BASE="${RUN_DIR}/triton-cache"
+export CUDA_CACHE_PATH="${SCRATCH_ROOT}/runtime/megatron_lm/cuda-cache"
+export PYTHONPATH="${REPO_ROOT}" PYTHONNOUSERSITE=1 PIP_CONSTRAINT=""
+export UV_CACHE_DIR="${SCRATCH_ROOT}/uv-cache/megatron_lm" UV_LINK_MODE=copy
+export UV_PROJECT_ENVIRONMENT="${ENV_ROOT}/.venv"
+export VIRTUAL_ENV="${UV_PROJECT_ENVIRONMENT}"
+export PATH="${UV_PROJECT_ENVIRONMENT}/bin:${PATH}"
+
+export CUDA_DEVICE_MAX_CONNECTIONS=1
+export NVTE_FWD_LAYERNORM_SM_MARGIN=16 NVTE_BWD_LAYERNORM_SM_MARGIN=16
+export NCCL_P2P_NET_CHUNKSIZE=2097152 PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
+export NCCL_DEBUG=WARN NCCL_SHM_DISABLE=1 NCCL_PROTO=simple NCCL_NVLS_ENABLE=0
+export TORCH_NCCL_AVOID_RECORD_STREAMS=0 NVTE_ALLOW_NONDETERMINISTIC_ALGO=1
+
+export TRAINING_STAGE MODEL_PROVIDER ENABLE_EXPERIMENTAL MOE_ROUTER_FORCE_LOAD_BALANCING
+export TRAIN_ITERS NUM_MICROBATCHES MICRO_BATCH_SIZE GLOBAL_BATCH_SIZE LOG_INTERVAL
+export ENCODER_TP ENCODER_CP ENCODER_PP ENCODER_DP ENCODER_EP
+export LLM_TP LLM_CP LLM_PP LLM_DP LLM_EP LLM_EXPT_TP LLM_ONLY
+export LR MIN_LR WEIGHT_DECAY LR_DECAY_STYLE
+export LR_WARMUP_SAMPLES LR_DECAY_SAMPLES LR_WSD_DECAY_SAMPLES LR_WSD_DECAY_STYLE TRAIN_SAMPLES
+export NUM_WORKERS PACKING_BUFFER_SIZE SHUFFLE_BUFFER_SIZE MAX_SAMPLES_PER_SEQUENCE CHECK_HEL_PATHS
+export TOKENIZER_MODEL VISION_CKPT
+
+TRAIN_LAUNCH_ARGS=(
+  --class-token-len 10
+  --image-tag-type internvl
+  --max-num-tiles 1
+  --overlap-grad-reduce --overlap-param-gather
+  --ddp-num-buckets 8 --ddp-pad-buckets-for-high-nccl-busbw
+  --correct-encoder-grad-for-partial-participation
+  --seed 1234
+  --save "${CHECKPOINT_SAVE_PATH}"
+  --save-interval "${SAVE_INTERVAL}"
+  --no-load-optim --no-load-rng
+  --load-nemotron-checkpoint "${NEMOTRON_CKPT}"
+  --dynamic-resolution
+  --tensorboard-dir "${RUN_DIR}/tensorboard"
+)
+
+CONTAINER_MOUNTS="${SCRATCH_ROOT}:${SCRATCH_ROOT},/lustre/fsw/portfolios/llmservice:/lustre/fsw/portfolios/llmservice,/scratch/fsw/portfolios/llmservice:/scratch/fsw/portfolios/llmservice"
+[[ "${REPO_ROOT}" == "${SCRATCH_ROOT}"/* ]] || CONTAINER_MOUNTS="${CONTAINER_MOUNTS},${REPO_ROOT}:${REPO_ROOT}"
+
+echo "=== hetero PROD GBS=768 68n EP=8 (TRAIN_SAMPLES=${TRAIN_SAMPLES}, warmup=${LR_WARMUP_SAMPLES}, wsd-decay=${LR_WSD_DECAY_SAMPLES}, packing=${PACKING_BUFFER_SIZE}) ==="
+echo "repo=${REPO_ROOT} run_dir=${RUN_DIR}"
+echo "world_size=${WORLD_SIZE} gbs=${GLOBAL_BATCH_SIZE} microbatches=${NUM_MICROBATCHES}"
+echo "layout: encoder(dp=${ENCODER_DP}) llm(tp=${LLM_TP},dp=${LLM_DP},ep=${LLM_EP})"
+echo "ckpt=${NEMOTRON_CKPT}"
+echo "========================================================"
+
+srun --kill-on-bad-exit=1 \
+  --ntasks="${WORLD_SIZE}" \
+  --ntasks-per-node=8 \
+  --container-image="${CONTAINER_IMAGE}" \
+  --no-container-mount-home \
+  --container-mounts="${CONTAINER_MOUNTS}" \
+  --container-workdir="${REPO_ROOT}" \
+  bash -lc 'set -euo pipefail; cd "${REPO_ROOT}";
+    if [ -n "${HETERO_SKIP_UV:-}" ]; then export PYTHONPATH="${REPO_ROOT}:${PYTHONPATH:-}"; exec bash examples/mimo/scripts/run_hetero_nemotron_54l_hel_train.sh "$@"; else exec uv run --no-sync bash examples/mimo/scripts/run_hetero_nemotron_54l_hel_train.sh "$@"; fi
+  ' \
+  bash "${TRAIN_LAUNCH_ARGS[@]}"
diff --git a/examples/mimo/scripts/sbatch_sanjeev_parity_gbs192.sh b/examples/mimo/scripts/sbatch_sanjeev_parity_gbs192.sh
new file mode 100755
index 00000000000..a73fa68ce78
--- /dev/null
+++ b/examples/mimo/scripts/sbatch_sanjeev_parity_gbs192.sh
@@ -0,0 +1,75 @@
+#!/bin/bash
+# Long Sanjeev pre-vlm-05 parity run (reference side).
+# 8 nodes, GBS=192, 5000 iters, 4h. Paired with sbatch_hetero_parity_gbs192.sh.
+
+#SBATCH -A nemotron_n4_pre
+#SBATCH -p batch
+#SBATCH -N 8
+#SBATCH --ntasks-per-node=8
+#SBATCH --gres=gpu:8
+#SBATCH --time=04:00:00
+#SBATCH -J sanj-parity-gbs192
+#SBATCH --exclusive
+#SBATCH --output=/lustre/fsw/portfolios/nemotron/users/ykarnati/agents-scratch/runs/%x-%j.out
+#SBATCH --error=/lustre/fsw/portfolios/nemotron/users/ykarnati/agents-scratch/runs/%x-%j.err
+
+set -euo pipefail
+
+SCRATCH_ROOT=/lustre/fsw/portfolios/nemotron/users/ykarnati/agents-scratch
+SANJEEV_REPO="${SANJEEV_REPO:-${SCRATCH_ROOT}/sanjeev-repos/megatron-lm-clean}"
+CONTAINER_IMAGE="${SANJEEV_CONTAINER_IMAGE:-${SCRATCH_ROOT}/images/m_lm_energon_0506.sqsh}"
+TOKENIZER_MODEL="${SCRATCH_ROOT}/tokenizers/sanjeevnv-multimodal-pretraining-26f81d5db838eb6dee2ff8692db83a2fbc76f3ff"
+
+CKPT_RUN_ROOT="/scratch/fsw/portfolios/llmservice/projects/llmservice_fm_text/users/sasatheesh/workspace/output/3b_nano_vlm_sota_mtp2_90t10v_post_c_radio_omni_96n_tp2_ep16_selective_300b_20260511"
+CKPT_STEP="${CKPT_STEP:-1000}"
+
+RUN_NAME="sanj-parity-gbs192"
+RUN_DIR="${SCRATCH_ROOT}/runs/${RUN_NAME}/${SLURM_JOB_ID:-local}"
+mkdir -p "${RUN_DIR}/logs" "${RUN_DIR}/save" "${RUN_DIR}/tb"
+
+export VISION_MODEL_TYPE=radio
+export RADIO_ENCODER_DIR=post-c-radio-omni
+export TP=2
+export EP=16
+export NUM_EXPERTS=128
+export MOE_ROUTER_TOPK=6
+export MBS=1
+export GBS=192
+
+export NUM_WORKERS=2
+export PACKING_BUFFER_SIZE=4
+export SEQ_LEN=8192
+export DECODER_SEQ_LEN=8192
+# 5000 optimizer steps after the resume + the ckpt's iter_1000 offset.
+export TRAIN_SAMPLES=$(( 5000 * GBS + CKPT_STEP * GBS ))
+export LR_WARMUP_SAMPLES=0
+export LR_WSD_DECAY_SAMPLES=1
+export EXIT_MIN=240
+export LOG_INTERVAL=1
+export EVAL_INTERVAL=99999999999
+export EVAL_ITERS=0
+export SAVE_INTERVAL=99999999999
+export USE_DYNAMIC_RES=1
+export SEQUENCE_PARALLEL=1
+
+export LOAD_CHECKPOINT_DIR="${CKPT_RUN_ROOT}/checkpoints"
+export SAVE_CHECKPOINT_DIR="${RUN_DIR}/save"
+export OUTPUT="${RUN_DIR}"
+export LOGS_DIR="${RUN_DIR}/logs"
+export TENSORBOARD_DIR="${RUN_DIR}/tb"
+export WANDB_DIR="${RUN_DIR}/wandb"
+export RUN_NAME
+
+export HYBRID_LAYER_PATTERN="MEMEM*EMEM*EMEM*EMEM*EMEMEM*EMEMEM*EMEMEM*EMEMEM*EMEME"
+export DISABLE_RECOMPUTE=1
+export EXTRA_MEGATRON_ARGS="--ckpt-step ${CKPT_STEP} --calculate-per-token-loss --no-load-rng --no-load-optim --mtp-num-layers 0"
+
+export CONTAINER_IMAGE_OVERRIDE="${CONTAINER_IMAGE}"
+export TOKENIZER_MODEL="${TOKENIZER_MODEL}"
+export MEGATRON_ROOT="${SANJEEV_REPO}"
+export SBATCH_NODES=8
+
+export MULTIMODAL_DATA_ROOT=/home/sasatheesh/data/multimodal_data
+
+cd "${SANJEEV_REPO}"
+exec bash "${SANJEEV_REPO}/examples/multimodal/v3/pretrain_3b_nano_vlm_sota_90t_10v.sh"
diff --git a/examples/mimo/scripts/sbatch_sanjeev_parity_gbs32.sh b/examples/mimo/scripts/sbatch_sanjeev_parity_gbs32.sh
new file mode 100755
index 00000000000..e45360a0921
--- /dev/null
+++ b/examples/mimo/scripts/sbatch_sanjeev_parity_gbs32.sh
@@ -0,0 +1,80 @@
+#!/bin/bash
+# Short Sanjeev pre-vlm-05 parity run (reference side).
+# 2 nodes, GBS=32, 20 iters. Paired with sbatch_hetero_parity_gbs32.sh.
+
+#SBATCH -A nemotron_n4_pre
+#SBATCH -p batch
+#SBATCH -N 2
+#SBATCH --ntasks-per-node=8
+#SBATCH --gres=gpu:8
+#SBATCH --time=00:30:00
+#SBATCH -J sanj-parity-gbs32
+#SBATCH --exclusive
+#SBATCH --output=/lustre/fsw/portfolios/nemotron/users/ykarnati/agents-scratch/runs/%x-%j.out
+#SBATCH --error=/lustre/fsw/portfolios/nemotron/users/ykarnati/agents-scratch/runs/%x-%j.err
+
+set -euo pipefail
+
+SCRATCH_ROOT=/lustre/fsw/portfolios/nemotron/users/ykarnati/agents-scratch
+SANJEEV_REPO="${SANJEEV_REPO:-${SCRATCH_ROOT}/sanjeev-repos/megatron-lm-clean}"
+CONTAINER_IMAGE="${SANJEEV_CONTAINER_IMAGE:-${SCRATCH_ROOT}/images/m_lm_energon_0506.sqsh}"
+TOKENIZER_MODEL="${SCRATCH_ROOT}/tokenizers/sanjeevnv-multimodal-pretraining-26f81d5db838eb6dee2ff8692db83a2fbc76f3ff"
+
+CKPT_RUN_ROOT="/scratch/fsw/portfolios/llmservice/projects/llmservice_fm_text/users/sasatheesh/workspace/output/3b_nano_vlm_sota_mtp2_90t10v_post_c_radio_omni_96n_tp2_ep16_selective_300b_20260511"
+CKPT_STEP="${CKPT_STEP:-1000}"
+
+RUN_NAME="sanj-parity-gbs32"
+RUN_DIR="${SCRATCH_ROOT}/runs/${RUN_NAME}/${SLURM_JOB_ID:-local}"
+mkdir -p "${RUN_DIR}/logs" "${RUN_DIR}/save" "${RUN_DIR}/tb"
+
+export VISION_MODEL_TYPE=radio
+export RADIO_ENCODER_DIR=post-c-radio-omni
+export TP=2
+export EP=16
+export NUM_EXPERTS=128
+export MOE_ROUTER_TOPK=6
+export MBS=1
+export GBS=32
+
+export NUM_WORKERS=2
+export PACKING_BUFFER_SIZE=4
+export SEQ_LEN=8192
+export DECODER_SEQ_LEN=8192
+export TRAIN_SAMPLES=$(( 20 * GBS + CKPT_STEP * GBS ))
+export LR_WARMUP_SAMPLES=0
+export LR_WSD_DECAY_SAMPLES=1
+export EXIT_MIN=240
+export LOG_INTERVAL=1
+export EVAL_INTERVAL=99999999999
+export EVAL_ITERS=0
+export SAVE_INTERVAL=99999999999
+export USE_DYNAMIC_RES=1
+export SEQUENCE_PARALLEL=1
+
+export LOAD_CHECKPOINT_DIR="${CKPT_RUN_ROOT}/checkpoints"
+export SAVE_CHECKPOINT_DIR="${RUN_DIR}/save"
+export OUTPUT="${RUN_DIR}"
+export LOGS_DIR="${RUN_DIR}/logs"
+export TENSORBOARD_DIR="${RUN_DIR}/tb"
+export WANDB_DIR="${RUN_DIR}/wandb"
+export RUN_NAME
+
+# --ckpt-step pins the resume iter. --calculate-per-token-loss aligns the
+# gradient formula with hetero. --no-load-rng / --no-load-optim restart the
+# scheduler at iter 0. --mtp-num-layers 0 disables MTP (hetero side runs
+# without MTP too).
+export HYBRID_LAYER_PATTERN="MEMEM*EMEM*EMEM*EMEM*EMEMEM*EMEMEM*EMEMEM*EMEMEM*EMEME"
+export DISABLE_RECOMPUTE=1
+export EXTRA_MEGATRON_ARGS="--ckpt-step ${CKPT_STEP} --calculate-per-token-loss --no-load-rng --no-load-optim --mtp-num-layers 0"
+
+export CONTAINER_IMAGE_OVERRIDE="${CONTAINER_IMAGE}"
+export TOKENIZER_MODEL="${TOKENIZER_MODEL}"
+export MEGATRON_ROOT="${SANJEEV_REPO}"
+export SBATCH_NODES=2
+
+# /home is NFS-mounted; the blend yaml's val: section eagerly post_initializes
+# both splits even with --eval-iters 0.
+export MULTIMODAL_DATA_ROOT=/home/sasatheesh/data/multimodal_data
+
+cd "${SANJEEV_REPO}"
+exec bash "${SANJEEV_REPO}/examples/multimodal/v3/pretrain_3b_nano_vlm_sota_90t_10v.sh"
diff --git a/examples/mimo/scripts/verify_energon.sh b/examples/mimo/scripts/verify_energon.sh
new file mode 100755
index 00000000000..91c11ef4cb9
--- /dev/null
+++ b/examples/mimo/scripts/verify_energon.sh
@@ -0,0 +1,66 @@
+#!/bin/bash
+# Verify the custom Megatron-Energon build used by the MIMO multimodal data path.
+
+set -euo pipefail
+
+if [[ -z "${PYTHON_BIN:-}" ]]; then
+  if command -v python >/dev/null 2>&1; then
+    PYTHON_BIN=python
+  else
+    PYTHON_BIN=python3
+  fi
+fi
+
+"${PYTHON_BIN}" - <<'PY'
+import json
+from importlib import metadata
+
+try:
+    import megatron.energon
+    import torchvision
+except ModuleNotFoundError as exc:
+    raise SystemExit(
+        "ERROR: missing Energon multimodal runtime dependency. "
+        "Run through a PyTorch base image/Cog synced venv that already provides torch and "
+        "torchvision, then install repo deps with `uv sync --locked --extra dev --extra mlm`. "
+        "For a non-container local env, install torch/torchvision separately with versions that "
+        "match your CUDA stack before syncing this project. "
+        f"Original error: {exc}"
+    ) from exc
+
+from megatron.energon.task_encoder.multimodal import MultiModalPackingEncoder, PackingConfig, VisionConfig
+from megatron.energon.task_encoder.multimodal.sample_types import PackedSample
+from megatron.energon.task_encoder.multimodal.vision_tokens import get_num_image_embeddings
+from packaging.version import InvalidVersion, Version
+
+EXPECTED_COMMIT = "d456cbd4a9a8a760b20be51194a0209c9a945b0a"
+EXPECTED_LOCAL = f"g{EXPECTED_COMMIT[:9]}"
+
+dist = metadata.distribution("megatron-energon")
+version = dist.version
+direct_url = dist.read_text("direct_url.json")
+commit = None
+if direct_url:
+    commit = json.loads(direct_url).get("vcs_info", {}).get("commit_id")
+
+try:
+    local_version = Version(version).local
+except InvalidVersion:
+    local_version = None
+
+if commit != EXPECTED_COMMIT and local_version != EXPECTED_LOCAL:
+    raise SystemExit(
+        "ERROR: megatron-energon is not the pinned MIMO fork "
+        f"({EXPECTED_COMMIT}); found version={version!r}, commit={commit!r}"
+    )
+
+print(f"Megatron-Energon path: {megatron.energon.__file__}")
+print(f"Megatron-Energon version: {version}")
+print(f"Megatron-Energon commit: {commit or 'version-local-tag'}")
+print(f"torchvision OK: {torchvision.__version__}")
+print(f"MultiModalPackingEncoder OK: {MultiModalPackingEncoder.__name__}")
+print(f"PackingConfig OK: {PackingConfig.__name__}")
+print(f"VisionConfig OK: {VisionConfig.__name__}")
+print(f"PackedSample OK: {PackedSample.__name__}")
+print(f"get_num_image_embeddings OK: {get_num_image_embeddings.__name__}")
+PY
diff --git a/examples/mimo/train_hetero.py b/examples/mimo/train_hetero.py
new file mode 100644
index 00000000000..af46e3235ea
--- /dev/null
+++ b/examples/mimo/train_hetero.py
@@ -0,0 +1,40 @@
+# Copyright (c) 2026, NVIDIA CORPORATION. All rights reserved.
+
+"""Standalone heterogeneous MIMO training entrypoint."""
+
+import os
+import sys
+
+import torch.distributed as dist
+
+_REPO_ROOT = os.path.abspath(os.path.join(os.path.dirname(__file__), "..", ".."))
+if _REPO_ROOT not in sys.path:
+    sys.path.insert(0, _REPO_ROOT)
+
+from megatron.core.config import set_experimental_flag
+
+from examples.mimo.training.hetero.args import parse_args
+from examples.mimo.training.hetero.distributed import (
+    initialize_distributed,
+    print_rank_0,
+    shutdown_distributed,
+)
+from examples.mimo.training.hetero.loop import run_train_loop
+
+
+def main() -> None:
+    """Program entrypoint."""
+    args = parse_args()
+    if args.enable_experimental:
+        set_experimental_flag(True)
+    initialize_distributed()
+    try:
+        run_train_loop(args)
+        dist.barrier()
+        print_rank_0("Heterogeneous MIMO training completed")
+    finally:
+        shutdown_distributed()
+
+
+if __name__ == "__main__":
+    main()
diff --git a/examples/mimo/training/__init__.py b/examples/mimo/training/__init__.py
new file mode 100644
index 00000000000..3f37e3ee40d
--- /dev/null
+++ b/examples/mimo/training/__init__.py
@@ -0,0 +1,2 @@
+# Copyright (c) 2026, NVIDIA CORPORATION. All rights reserved.
+
diff --git a/examples/mimo/training/hetero/__init__.py b/examples/mimo/training/hetero/__init__.py
new file mode 100644
index 00000000000..26496bfed70
--- /dev/null
+++ b/examples/mimo/training/hetero/__init__.py
@@ -0,0 +1 @@
+# Copyright (c) 2026, NVIDIA CORPORATION. All rights reserved.
diff --git a/examples/mimo/training/hetero/args.py b/examples/mimo/training/hetero/args.py
new file mode 100644
index 00000000000..e7f7c3b07cb
--- /dev/null
+++ b/examples/mimo/training/hetero/args.py
@@ -0,0 +1,432 @@
+# Copyright (c) 2026, NVIDIA CORPORATION. All rights reserved.
+
+"""Argument handling for the standalone heterogeneous MIMO training loop."""
+
+from __future__ import annotations
+
+import argparse
+
+from examples.mimo.data.hetero_mock import validate_mock_data_args
+from examples.mimo.model_providers.nemotron_moe_vlm import (
+    NEMOTRON_20L_MODEL_PROVIDER,
+    NEMOTRON_54L_MODEL_PROVIDER,
+    add_model_provider_args,
+    prepare_model_provider_args,
+    validate_model_provider_args,
+)
+
+
+def parse_args() -> argparse.Namespace:
+    """Parse standalone hetero MIMO loop arguments."""
+    parser = argparse.ArgumentParser(
+        description=(
+            "Standalone heterogeneous MIMO training loop. "
+            "This entrypoint owns one HyperCommGrid per MIMO module."
+        )
+    )
+
+    grid = parser.add_argument_group("module grids")
+    grid.add_argument("--encoder-offset", type=int, default=0)
+    grid.add_argument("--encoder-tp", type=int, default=2)
+    grid.add_argument("--encoder-cp", type=int, default=1)
+    grid.add_argument("--encoder-pp", type=int, default=2)
+    grid.add_argument("--encoder-dp", type=int, default=1)
+    grid.add_argument("--encoder-ep", type=int, default=1)
+    grid.add_argument("--encoder-expt-tp", type=int, default=None)
+    grid.add_argument("--encoder-expt-dp", type=int, default=None)
+    grid.add_argument("--llm-offset", type=int, default=4)
+    grid.add_argument("--llm-tp", type=int, default=1)
+    grid.add_argument("--llm-cp", type=int, default=1)
+    grid.add_argument("--llm-pp", type=int, default=2)
+    grid.add_argument("--llm-dp", type=int, default=2)
+    grid.add_argument("--llm-ep", type=int, default=2)
+    grid.add_argument("--llm-expt-tp", type=int, default=1)
+    grid.add_argument("--llm-expt-dp", type=int, default=None)
+    grid.add_argument(
+        "--llm-only",
+        action="store_true",
+        help=(
+            "Run only the MIMO language module on the LLM grid. This keeps the MIMO "
+            "training/data path but does not create encoder ranks or bridge communicators."
+        ),
+    )
+
+    add_model_provider_args(parser)
+
+    runtime = parser.add_argument_group("runtime")
+    runtime.add_argument(
+        "--enable-experimental",
+        action="store_true",
+        help="Enable Megatron experimental kernels/features used by some MoE performance paths.",
+    )
+    runtime.add_argument(
+        "--timeline-profile",
+        action="store_true",
+        help="Write rank-local 1F1B timeline JSONL traces for selected debug ranks.",
+    )
+    runtime.add_argument(
+        "--timeline-dir",
+        type=str,
+        default=None,
+        help="Directory for rank-local timeline JSONL traces.",
+    )
+    runtime.add_argument(
+        "--timeline-ranks",
+        type=str,
+        default="dp-replica",
+        help="'dp-replica', 'all', or comma-separated global ranks to trace.",
+    )
+    runtime.add_argument(
+        "--timeline-dp-replica",
+        type=int,
+        default=0,
+        help="Dense data-parallel replica to trace when --timeline-ranks=dp-replica.",
+    )
+    runtime.add_argument(
+        "--timeline-cuda-events",
+        action="store_true",
+        help="Also record CUDA event elapsed time for compute events.",
+    )
+    runtime.add_argument(
+        "--timeline-nvtx",
+        action="store_true",
+        help="Push NVTX ranges with timeline event names for Nsight Systems.",
+    )
+
+    data = parser.add_argument_group("data")
+    data.add_argument("--dataset-provider", choices=["mock", "energon_multimodal"], default="mock")
+    data.add_argument("--data-path", type=str, default=None)
+    data.add_argument("--num-workers", type=int, default=2)
+    data.add_argument("--packing-buffer-size", type=int, default=None)
+    data.add_argument("--shuffle-buffer-size", type=int, default=100)
+    data.add_argument("--max-samples-per-sequence", type=int, default=100)
+    data.add_argument(
+        "--validate-energon-data-alignment",
+        action=argparse.BooleanOptionalAction,
+        default=False,
+        help=(
+            "Check that encoder and LLM Energon readers start from matching samples. "
+            "This is disabled by default because the validation all-gather is expensive at scale."
+        ),
+    )
+
+    train = parser.add_argument_group("training")
+    train.add_argument("--micro-batch-size", type=int, default=2)
+    train.add_argument("--global-batch-size", type=int, default=None)
+    train.add_argument("--num-microbatches", type=int, default=2)
+    train.add_argument("--train-iters", type=int, default=2)
+    train.add_argument(
+        "--train-samples",
+        type=int,
+        default=None,
+        help=(
+            "Total training budget in consumed samples. When set, --train-iters is "
+            "re-derived as ceil(train_samples / global_batch_size)."
+        ),
+    )
+    train.add_argument("--lr", type=float, default=1.0e-4)
+    train.add_argument("--min-lr", type=float, default=None)
+    train.add_argument(
+        "--lr-decay-style",
+        type=str,
+        default="constant",
+        choices=["constant", "linear", "cosine", "inverse-square-root", "WSD"],
+    )
+    train.add_argument("--lr-warmup-iters", type=int, default=0)
+    train.add_argument("--lr-decay-iters", type=int, default=None)
+    train.add_argument(
+        "--lr-warmup-samples",
+        type=int,
+        default=None,
+        help="LR warmup duration in consumed samples. Overrides --lr-warmup-iters when set.",
+    )
+    train.add_argument(
+        "--lr-decay-samples",
+        type=int,
+        default=None,
+        help="LR decay duration in consumed samples. Overrides --lr-decay-iters when set.",
+    )
+    train.add_argument(
+        "--lr-wsd-decay-samples",
+        type=int,
+        default=None,
+        help=(
+            "Length of the WSD decay tail in consumed samples. Required when "
+            "--lr-decay-style=WSD."
+        ),
+    )
+    train.add_argument(
+        "--lr-wsd-decay-style",
+        type=str,
+        default=None,
+        choices=["linear", "cosine", "exponential", "minus_sqrt"],
+        help="Decay-style applied during the WSD tail.",
+    )
+    train.add_argument("--weight-decay", type=float, default=0.01)
+    train.add_argument("--adam-beta1", type=float, default=0.9)
+    train.add_argument("--adam-beta2", type=float, default=0.999)
+    train.add_argument("--clip-grad", type=float, default=1.0)
+    train.add_argument("--log-num-zeros-in-grad", action="store_true")
+    train.add_argument(
+        "--overlap-grad-reduce",
+        action=argparse.BooleanOptionalAction,
+        default=False,
+        help=(
+            "Enable DDP gradient-reduce overlap for the language module. Vision encoder DDP "
+            "keeps overlap disabled because actual-data batches may be text-only."
+        ),
+    )
+    train.add_argument(
+        "--overlap-param-gather",
+        action=argparse.BooleanOptionalAction,
+        default=False,
+        help=(
+            "Enable distributed-optimizer param all-gather overlap with forward compute. "
+            "Requires --use-distributed-optimizer (already on for the hetero loop)."
+        ),
+    )
+    train.add_argument(
+        "--ddp-bucket-size",
+        type=int,
+        default=10000,
+        help="DDP bucket size in parameters. Use 0 for a single unbounded bucket.",
+    )
+    train.add_argument(
+        "--ddp-num-buckets",
+        type=int,
+        default=None,
+        help=(
+            "If set, DDP bucket_size is derived from num_parameters // ddp_num_buckets "
+            "(mutually exclusive with --ddp-bucket-size > 0)."
+        ),
+    )
+    train.add_argument(
+        "--ddp-pad-buckets-for-high-nccl-busbw",
+        action=argparse.BooleanOptionalAction,
+        default=False,
+        help=(
+            "Pad DDP bucket sizes to a multiple of 2^16 so NCCL collectives have high "
+            "bus bandwidth at large DP counts."
+        ),
+    )
+    train.add_argument(
+        "--correct-encoder-grad-for-partial-participation",
+        action=argparse.BooleanOptionalAction,
+        default=True,
+        help=(
+            "When some encoder DP ranks see text-only batches, scale vision "
+            "grads post-DP-reduce by encoder_dp_size / participation_count so "
+            "the vision encoder learns at full rate instead of being diluted. "
+            "Default on; pass --no-correct-encoder-grad-for-partial-participation "
+            "to disable."
+        ),
+    )
+    train.add_argument("--seed", type=int, default=12345)
+    train.add_argument("--log-interval", type=int, default=1)
+    train.add_argument(
+        "--tensorboard-dir",
+        type=str,
+        default=None,
+        help="Directory for tensorboard scalar logs. When set, the language "
+        "logging rank writes lm_loss/grad-norm/learning-rate/etc. each log "
+        "interval, matching the scalar keys used by Megatron's standard "
+        "training_log so hetero and reference runs can be diffed in TB.",
+    )
+
+    ckpt = parser.add_argument_group("checkpointing")
+    ckpt.add_argument(
+        "--save",
+        type=str,
+        default=None,
+        help="Directory to save distributed checkpoints into. Each save creates iter_NNNNNNN/.",
+    )
+    ckpt.add_argument(
+        "--load",
+        type=str,
+        default=None,
+        help=(
+            "Directory to resume from. If the directory has no completed checkpoint, "
+            "training starts from iteration 0."
+        ),
+    )
+    ckpt.add_argument(
+        "--save-interval",
+        type=int,
+        default=None,
+        help=(
+            "Iteration interval between checkpoint saves. When unset, --save still "
+            "produces exactly one checkpoint at --train-iters (the final iter). Set to "
+            "an integer >=1 for periodic saves; the final iter is also always saved."
+        ),
+    )
+    ckpt.add_argument("--no-save-optim", action="store_true", help="Skip optimizer state on save.")
+    ckpt.add_argument(
+        "--no-load-optim",
+        action="store_true",
+        help="Skip optimizer state on load (fresh optimizer at the loaded iteration).",
+    )
+    ckpt.add_argument(
+        "--no-load-scheduler", action="store_true", help="Skip LR/WD scheduler state on load."
+    )
+    ckpt.add_argument(
+        "--no-save-rng", action="store_true", help="Skip Python/NumPy/Torch/CUDA RNG state on save."
+    )
+    ckpt.add_argument(
+        "--no-load-rng",
+        action="store_true",
+        help="Skip Python/NumPy/Torch/CUDA RNG state on load (start with fresh RNG).",
+    )
+    ckpt.add_argument(
+        "--finetune",
+        action="store_true",
+        help=(
+            "Treat the load directory as a pretrained checkpoint: restart from iteration 0 and "
+            "skip optimizer + scheduler state regardless of the other flags."
+        ),
+    )
+    ckpt.add_argument(
+        "--load-nemotron-checkpoint",
+        type=str,
+        default=None,
+        help=(
+            "Path to a flat Nemotron-format VLM dist-ckpt. Loads weights and "
+            "starts training at iter 0; mutually exclusive with --load."
+        ),
+    )
+    ckpt.add_argument(
+        "--dist-ckpt-optim-fully-reshardable",
+        action=argparse.BooleanOptionalAction,
+        default=False,
+        help=(
+            "Use the 'fully_reshardable' DistributedOptimizer sharding type so a saved "
+            "checkpoint can be reloaded under a different TP/EP layout. Defaults to False "
+            "('dp_reshardable', DP-only reshardable, lower save-time memory). Enable when "
+            "you intend to change --llm-tp / --llm-ep on resume. WARNING: this gathers "
+            "the full per-DP optimizer state on DP rank 0 during save; on <80 GB GPUs "
+            "(or when running near peak memory) the gather will OOM. Prefer leaving this "
+            "False unless you actually need cross-TP/EP resharding."
+        ),
+    )
+
+    return parser.parse_args()
+
+
+def prepare_args(args: argparse.Namespace, world_size: int) -> tuple[int, int]:
+    """Apply presets, resolve runtime args, and validate the hetero layout."""
+    prepare_model_provider_args(args)
+    return validate_args(args, world_size)
+
+
+def validate_args(args: argparse.Namespace, world_size: int) -> tuple[int, int]:
+    """Validate the current disjoint-grid training layout."""
+    if args.encoder_cp != 1 or args.llm_cp != 1:
+        raise ValueError("Phase 2 mock training currently supports CP=1 only")
+    if args.log_interval < 1:
+        raise ValueError("--log-interval must be >= 1")
+    if args.timeline_dp_replica < 0:
+        raise ValueError("--timeline-dp-replica must be >= 0")
+
+    validate_model_provider_args(args)
+    if args.dataset_provider == "mock":
+        validate_mock_data_args(args)
+    else:
+        validate_energon_data_args(args)
+    if args.num_moe_experts > 0 and args.num_moe_experts % args.llm_ep != 0:
+        raise ValueError("--num-moe-experts must be divisible by --llm-ep")
+    if args.save_interval is not None and args.save_interval < 1:
+        raise ValueError("--save-interval must be >= 1 when set")
+    if args.save_interval is not None and args.save is None:
+        raise ValueError("--save-interval requires --save")
+
+    # Sample-based scheduler resolution: when --train-samples is set, derive
+    # --train-iters from it using the (now-known) global batch size. The
+    # OptimizerParamScheduler tracks "steps" in units of consumed samples, so
+    # the sample-based knobs flow through unchanged downstream.
+    if args.train_samples is not None:
+        derived_gbs = args.micro_batch_size * args.num_microbatches * args.llm_dp
+        gbs = args.global_batch_size if args.global_batch_size is not None else derived_gbs
+        if gbs <= 0:
+            raise ValueError(
+                "--train-samples requires a positive derived/explicit --global-batch-size"
+            )
+        import math as _math
+
+        derived_iters = _math.ceil(args.train_samples / gbs)
+        args.train_iters = derived_iters
+
+    if args.lr_decay_style == "WSD":
+        if args.lr_wsd_decay_samples is None:
+            raise ValueError("--lr-decay-style=WSD requires --lr-wsd-decay-samples")
+        if args.lr_wsd_decay_style is None:
+            raise ValueError("--lr-decay-style=WSD requires --lr-wsd-decay-style")
+
+    llm_size = args.llm_tp * args.llm_cp * args.llm_pp * args.llm_dp
+    if args.llm_only:
+        if args.llm_offset != 0:
+            raise ValueError(
+                "--llm-only requires --llm-offset 0 so language ranks cover WORLD_SIZE"
+            )
+        llm_ranks = set(range(args.llm_offset, args.llm_offset + llm_size))
+        all_ranks = set(range(world_size))
+        if llm_ranks != all_ranks:
+            raise ValueError(
+                "--llm-only requires the language grid to cover every torchrun rank exactly "
+                f"once; covered={sorted(llm_ranks)}, world={sorted(all_ranks)}"
+            )
+        return 0, llm_size
+
+    if (args.micro_batch_size * args.llm_dp) % args.encoder_dp != 0:
+        raise ValueError("--micro-batch-size * --llm-dp must be divisible by --encoder-dp")
+
+    encoder_size = args.encoder_tp * args.encoder_cp * args.encoder_pp * args.encoder_dp
+    encoder_ranks = set(range(args.encoder_offset, args.encoder_offset + encoder_size))
+    llm_ranks = set(range(args.llm_offset, args.llm_offset + llm_size))
+    all_ranks = set(range(world_size))
+
+    if not encoder_ranks.isdisjoint(llm_ranks):
+        raise ValueError(
+            "train_hetero.py currently expects disjoint module rank spans; "
+            f"module rank spans overlap at {sorted(encoder_ranks & llm_ranks)}"
+        )
+    if encoder_ranks | llm_ranks != all_ranks:
+        raise ValueError(
+            "The non-colocated module grids must cover every torchrun rank exactly once; "
+            f"covered={sorted(encoder_ranks | llm_ranks)}, world={sorted(all_ranks)}"
+        )
+
+    return encoder_size, llm_size
+
+
+def validate_energon_data_args(args: argparse.Namespace) -> None:
+    """Validate the actual-data non-colocated path."""
+    if not args.data_path:
+        raise ValueError("--data-path is required for --dataset-provider energon_multimodal")
+    if not args.tokenizer_model:
+        raise ValueError("--tokenizer-model is required for --dataset-provider energon_multimodal")
+    if args.model_provider not in (NEMOTRON_20L_MODEL_PROVIDER, NEMOTRON_54L_MODEL_PROVIDER):
+        raise ValueError("energon_multimodal is currently wired for Nemotron MoE VLM providers")
+    if args.llm_pp != 1:
+        raise ValueError("energon_multimodal currently supports LLM PP size 1")
+    if args.llm_only:
+        return
+    if args.encoder_pp != 1:
+        raise ValueError("energon_multimodal currently supports encoder PP size 1")
+    if args.encoder_dp > args.llm_dp:
+        raise ValueError(
+            "energon_multimodal currently supports fan-out only: --encoder-dp must be "
+            "<= --llm-dp"
+        )
+    if args.llm_dp % args.encoder_dp != 0:
+        raise ValueError(
+            "energon_multimodal fan-out requires --llm-dp to be divisible by --encoder-dp"
+        )
+    if args.encoder_dp != args.llm_dp and args.micro_batch_size != 1:
+        raise ValueError(
+            "energon_multimodal fan-out currently requires --micro-batch-size 1 so bridge "
+            "splits map one encoder sample to one LLM DP lane"
+        )
+    if args.packing_buffer_size is not None and args.packing_buffer_size > 0:
+        if args.micro_batch_size != 1:
+            raise ValueError(
+                "Energon packed multimodal batches currently require --micro-batch-size 1"
+            )
diff --git a/examples/mimo/training/hetero/checkpointing.py b/examples/mimo/training/hetero/checkpointing.py
new file mode 100644
index 00000000000..90a40c42059
--- /dev/null
+++ b/examples/mimo/training/hetero/checkpointing.py
@@ -0,0 +1,334 @@
+# Copyright (c) 2026, NVIDIA CORPORATION. All rights reserved.
+
+"""Distributed checkpoint save/load for the heterogeneous MIMO training loop.
+
+Wraps `megatron.core.dist_checkpointing` so the standalone hetero loop can
+persist MimoModel + MimoOptimizer + LR scheduler state without depending on
+`megatron.training.checkpointing` (which assumes the parallel_state singleton).
+
+Stays intentionally close to the layout that `megatron/training/checkpointing.py`
+produces so existing inspection tooling keeps working:
+
+    <save>/
+      latest_checkpointed_iteration.txt
+      iter_0000010/
+        common.pt              # args, checkpoint_version, iteration, scheduler
+        metadata.json          # backend + version + sharding-type content_metadata
+        ...torch_dist shards...
+"""
+
+from __future__ import annotations
+
+import argparse
+import os
+import random
+from pathlib import Path
+from typing import Any, Dict, Optional
+
+import numpy as np
+import torch
+import torch.distributed as dist
+
+from examples.mimo.training.hetero.distributed import print_rank_0
+from examples.mimo.training.hetero.topology import HeteroTopology, is_rank_in_grid
+from examples.mimo.utils.hetero import is_process_group_member
+from megatron.core import dist_checkpointing, tensor_parallel
+from megatron.core.dist_checkpointing.mapping import ShardedObject
+from megatron.core.dist_checkpointing.utils import _clean_metadata_for_serialization
+from megatron.core.models.mimo.model.base import MimoModel
+from megatron.core.models.mimo.optimizer import MimoOptimizer
+from megatron.core.optimizer_param_scheduler import OptimizerParamScheduler
+
+_TRACKER_FILE = "latest_checkpointed_iteration.txt"
+_CHECKPOINT_VERSION = 3.0
+
+
+def _iter_directory(root: str, iteration: int) -> str:
+    return os.path.join(root, f"iter_{iteration:07d}")
+
+
+def _tracker_path(root: str) -> str:
+    return os.path.join(root, _TRACKER_FILE)
+
+
+def _build_optim_metadata(args: argparse.Namespace) -> Dict[str, Any]:
+    """Optimizer-side metadata controlling DistributedOptimizer sharding format."""
+    metadata: Dict[str, Any] = {"chained_optim_avoid_prefix": True, "singleton_local_shards": False}
+    if args.dist_ckpt_optim_fully_reshardable:
+        metadata["distrib_optim_sharding_type"] = "fully_reshardable"
+    else:
+        metadata["distrib_optim_sharding_type"] = "dp_reshardable"
+    return metadata
+
+
+def _pg_rank_size(pg: Optional[dist.ProcessGroup]) -> tuple[int, int]:
+    """Return (rank, size) for a process group, or (0, 1) when this rank isn't a member."""
+    if pg is not None and is_process_group_member(pg):
+        return pg.rank(), pg.size()
+    return 0, 1
+
+
+def _collect_rng_state(topology: HeteroTopology) -> Optional[Dict[str, ShardedObject]]:
+    """Collect this rank's Python/NumPy/Torch/CUDA RNG state, sharded by (pp, tp).
+
+    Mirrors `megatron.training.checkpointing.get_rng_state` but reads pp/tp/dp
+    groups from the active hetero branch's pg_collection instead of parallel_state.
+    The returned dict has a single per-branch entry: encoder ranks publish
+    ``mimo.<encoder_name>.rng_state`` and LLM ranks publish ``mimo.language.rng_state``
+    so the two branches don't collide on the same ShardedObject key.
+    Returns None when the rank is not in any branch (should not happen in
+    non-colocated layouts, but defensive).
+    """
+    if is_rank_in_grid(topology.llm_grid):
+        pg = topology.language_pg
+        branch_name = "language"
+    elif is_rank_in_grid(topology.encoder_grid):
+        pg = topology.vision_pg
+        branch_name = topology.encoder_name
+    else:
+        return None
+
+    rng_state = {
+        "random_rng_state": random.getstate(),
+        "np_rng_state": np.random.get_state(),
+        "torch_rng_state": torch.get_rng_state(),
+        "cuda_rng_state": torch.cuda.get_rng_state(),
+        "rng_tracker_states": tensor_parallel.get_cuda_rng_tracker().get_states(),
+    }
+
+    pp_rank, pp_size = _pg_rank_size(getattr(pg, "pp", None))
+    tp_rank, tp_size = _pg_rank_size(getattr(pg, "tp", None))
+    dp_rank, _ = _pg_rank_size(getattr(pg, "dp", None))
+
+    key = f"mimo.{branch_name}.rng_state"
+    # One RNG snapshot per (pp, tp) shard; replicated across DP within that shard.
+    return {
+        key: ShardedObject(
+            key, [rng_state], (pp_size, tp_size), (pp_rank, tp_rank), replica_id=dp_rank
+        )
+    }
+
+
+def _restore_rng_state(rng_state_obj) -> None:
+    """Apply RNG state previously captured by `_collect_rng_state`."""
+    if rng_state_obj is None:
+        return
+    rng_state_list = rng_state_obj
+    if isinstance(rng_state_list, list) and rng_state_list and isinstance(rng_state_list[0], dict):
+        rng_state = rng_state_list[0]
+    elif isinstance(rng_state_list, dict):
+        rng_state = rng_state_list
+    else:
+        # Unknown payload shape — skip silently rather than crash the run.
+        return
+
+    random.setstate(rng_state["random_rng_state"])
+    np.random.set_state(rng_state["np_rng_state"])
+    torch.set_rng_state(rng_state["torch_rng_state"])
+    torch.cuda.set_rng_state(rng_state["cuda_rng_state"])
+    if rng_state.get("rng_tracker_states"):
+        tensor_parallel.get_cuda_rng_tracker().set_states(rng_state["rng_tracker_states"])
+
+
+def _assemble_state_dict(
+    model: MimoModel,
+    optimizer: Optional[MimoOptimizer],
+    opt_param_scheduler: Optional[OptimizerParamScheduler],
+    iteration: Optional[int],
+    args: argparse.Namespace,
+    topology: HeteroTopology,
+    include_optimizer: bool,
+    include_scheduler: bool,
+    include_rng: bool,
+    include_args: bool,
+    is_loading: bool,
+) -> Dict[str, Any]:
+    """Build the (sharded) state dict consumed by `dist_checkpointing.save`/`load`.
+
+    The MimoModel and MimoOptimizer already inject per-submodule `dp_cp_group`
+    from each module's pg_collection, so no global dp_cp_group needs to be set.
+    """
+    state_dict: Dict[str, Any] = {"checkpoint_version": _CHECKPOINT_VERSION}
+    if iteration is not None:
+        state_dict["iteration"] = iteration
+
+    if include_args:
+        # Stored as a plain dict (not vars(args) directly) so torch.save can pickle it
+        # via the common-state path. argparse.Namespace round-trips fine; using a dict
+        # gives us better forward-compat across argparse internals.
+        state_dict["args"] = dict(vars(args))
+
+    state_dict["model"] = model.sharded_state_dict()
+
+    if include_optimizer and optimizer is not None and not optimizer.is_stub_optimizer:
+        optim_kwargs = {"metadata": _build_optim_metadata(args)}
+        state_dict["optimizer"] = optimizer.sharded_state_dict(
+            state_dict, is_loading=is_loading, **optim_kwargs
+        )
+
+    if include_scheduler and opt_param_scheduler is not None:
+        state_dict["opt_param_scheduler"] = opt_param_scheduler.state_dict()
+
+    if include_rng:
+        rng = _collect_rng_state(topology)
+        if rng is not None:
+            # The dict contains exactly one entry; merge it at top level so each
+            # branch's ShardedObject lives under its own key (no cross-branch collision).
+            state_dict.update(rng)
+
+    return state_dict
+
+
+def save_checkpoint(
+    iteration: int,
+    model: MimoModel,
+    optimizer: Optional[MimoOptimizer],
+    opt_param_scheduler: Optional[OptimizerParamScheduler],
+    args: argparse.Namespace,
+    topology: HeteroTopology,
+) -> None:
+    """Save a hetero MIMO checkpoint at iteration `iteration` under `args.save`."""
+    if not args.save:
+        return
+
+    save_root = args.save
+    target_dir = _iter_directory(save_root, iteration)
+
+    # mkdir on every rank with exist_ok=True so a single rank's mkdir failure
+    # doesn't strand peers behind a barrier.
+    Path(target_dir).mkdir(parents=True, exist_ok=True)
+    dist.barrier()
+
+    print_rank_0(f"saving hetero checkpoint at iteration {iteration} to {target_dir}")
+
+    state_dict = _assemble_state_dict(
+        model=model,
+        optimizer=optimizer,
+        opt_param_scheduler=opt_param_scheduler,
+        iteration=iteration,
+        args=args,
+        topology=topology,
+        include_optimizer=not args.no_save_optim,
+        include_scheduler=True,
+        include_rng=not args.no_save_rng,
+        include_args=True,
+        is_loading=False,
+    )
+
+    content_metadata = _clean_metadata_for_serialization(_build_optim_metadata(args))
+
+    dist_checkpointing.save(state_dict, target_dir, content_metadata=content_metadata)
+
+    if dist.get_rank() == 0:
+        tracker_tmp = _tracker_path(save_root) + ".tmp"
+        with open(tracker_tmp, "w") as f:
+            f.write(str(iteration))
+        os.replace(tracker_tmp, _tracker_path(save_root))
+    dist.barrier()
+    print_rank_0(f"hetero checkpoint at iteration {iteration} saved")
+
+
+def _read_tracker(load_root: str) -> Optional[int]:
+    """Return the iteration recorded in the tracker file (max-reduced across ranks).
+
+    Mirrors `megatron.training.checkpointing.read_metadata`: each rank reads the
+    local file and we agree on the largest value. None if no checkpoint exists
+    at this path on any rank.
+    """
+    tracker = _tracker_path(load_root)
+    local_iter = -1
+    if os.path.isfile(tracker):
+        with open(tracker) as f:
+            contents = f.read().strip()
+        if contents:
+            try:
+                local_iter = int(contents)
+            except ValueError as e:
+                raise RuntimeError(f"Tracker file {tracker} is corrupted: {contents!r}") from e
+
+    if dist.is_available() and dist.is_initialized():
+        iters_cuda = torch.tensor([local_iter], dtype=torch.long, device="cuda")
+        dist.all_reduce(iters_cuda, op=dist.ReduceOp.MAX)
+        max_iter = int(iters_cuda[0].item())
+    else:
+        max_iter = local_iter
+
+    return max_iter if max_iter >= 0 else None
+
+
+def load_checkpoint(
+    model: MimoModel,
+    optimizer: Optional[MimoOptimizer],
+    opt_param_scheduler: Optional[OptimizerParamScheduler],
+    args: argparse.Namespace,
+    topology: HeteroTopology,
+) -> int:
+    """Restore a hetero MIMO checkpoint from `args.load` and return the resume iteration.
+
+    Returns 0 if `--load` is not set or no completed checkpoint exists at that path.
+    With `--finetune`, model state is loaded but iteration/optimizer/scheduler/rng
+    are reset.
+    """
+    if not args.load:
+        return 0
+
+    load_root = args.load
+    iteration = _read_tracker(load_root)
+    if iteration is None:
+        print_rank_0(f"no checkpoint found at {load_root}; starting from iteration 0")
+        return 0
+
+    source_dir = _iter_directory(load_root, iteration)
+    if not os.path.isdir(source_dir):
+        raise RuntimeError(
+            f"Tracker at {load_root} points to iteration {iteration} but "
+            f"{source_dir} is missing"
+        )
+
+    is_finetune = bool(args.finetune)
+    include_optimizer = (not args.no_load_optim) and not is_finetune
+    include_scheduler = (not args.no_load_scheduler) and not is_finetune
+    include_rng = (not args.no_load_rng) and not is_finetune
+
+    print_rank_0(
+        f"loading hetero checkpoint from {source_dir}"
+        f" (optimizer={'yes' if include_optimizer else 'no'},"
+        f" scheduler={'yes' if include_scheduler else 'no'},"
+        f" rng={'yes' if include_rng else 'no'},"
+        f" finetune={is_finetune})"
+    )
+
+    sharded_state_dict = _assemble_state_dict(
+        model=model,
+        optimizer=optimizer,
+        opt_param_scheduler=opt_param_scheduler,
+        iteration=iteration,
+        args=args,
+        topology=topology,
+        include_optimizer=include_optimizer,
+        include_scheduler=include_scheduler,
+        include_rng=include_rng,
+        include_args=False,  # args round-trips via common.pt, not via the request dict
+        is_loading=True,
+    )
+
+    loaded = dist_checkpointing.load(sharded_state_dict, source_dir)
+
+    model.load_state_dict(loaded["model"], strict=True)
+
+    if include_optimizer and optimizer is not None and not optimizer.is_stub_optimizer:
+        optimizer.load_state_dict(loaded["optimizer"])
+
+    if include_scheduler and opt_param_scheduler is not None and "opt_param_scheduler" in loaded:
+        opt_param_scheduler.load_state_dict(loaded["opt_param_scheduler"])
+
+    if include_rng:
+        # Find this rank's per-branch rng key in the loaded dict.
+        for key, value in loaded.items():
+            if key.startswith("mimo.") and key.endswith(".rng_state"):
+                _restore_rng_state(value)
+                break
+
+    resume_iter = 0 if is_finetune else int(loaded.get("iteration", iteration))
+    print_rank_0(f"resuming hetero training at iteration {resume_iter}")
+    return resume_iter
diff --git a/examples/mimo/training/hetero/data.py b/examples/mimo/training/hetero/data.py
new file mode 100644
index 00000000000..b79f5272353
--- /dev/null
+++ b/examples/mimo/training/hetero/data.py
@@ -0,0 +1,102 @@
+# Copyright (c) 2026, NVIDIA CORPORATION. All rights reserved.
+
+"""Data iterator selection for heterogeneous MIMO training."""
+
+from __future__ import annotations
+
+import argparse
+from typing import Optional
+
+from examples.mimo.data.hetero_mock import MockVLMIterator
+from examples.mimo.training.hetero.topology import (
+    HeteroTopology,
+    get_grid_coordinate,
+    is_rank_in_grid,
+)
+from megatron.core.pipeline_parallel.utils import is_pp_first_stage, is_pp_last_stage
+
+
+def select_data_iterator(args: argparse.Namespace, topology: HeteroTopology) -> Optional[object]:
+    """Create the per-role data iterator needed by local ranks."""
+    if args.dataset_provider == "mock":
+        return select_mock_data_iterator(args, topology)
+    if args.dataset_provider == "energon_multimodal":
+        from examples.mimo.data.hetero_energon import build_energon_iterator
+
+        return build_energon_iterator(args, topology)
+    raise ValueError(f"unsupported dataset provider: {args.dataset_provider}")
+
+
+def validate_data_iterator(
+    args: argparse.Namespace, data_iterator, topology: HeteroTopology
+) -> None:
+    """Run data-provider checks that must happen outside the pipeline schedule."""
+    if (
+        args.dataset_provider == "energon_multimodal"
+        and args.validate_energon_data_alignment
+        and topology.encoder_grid is not None
+    ):
+        from examples.mimo.data.hetero_energon import validate_energon_data_alignment
+
+        validate_energon_data_alignment(data_iterator, topology)
+
+
+def select_mock_data_iterator(
+    args: argparse.Namespace, topology: HeteroTopology
+) -> Optional[MockVLMIterator]:
+    """Create the per-role mock-data iterator needed by local ranks."""
+    llm_mbs = args.micro_batch_size
+    encoder_grid = topology.encoder_grid
+    llm_grid = topology.llm_grid
+    if encoder_grid is None:
+        llm_needs_data = is_rank_in_grid(llm_grid) and (
+            is_pp_first_stage(llm_grid.get_pg("pp")) or is_pp_last_stage(llm_grid.get_pg("pp"))
+        )
+        if llm_needs_data:
+            return MockVLMIterator(
+                args,
+                llm_mbs,
+                topology.encoder_name,
+                get_mock_data_seed(args, llm_grid, module_seed_offset=100_000),
+            )
+        return None
+
+    if (args.micro_batch_size * args.llm_dp) % args.encoder_dp != 0:
+        raise ValueError("micro_batch_size * llm_dp must be divisible by encoder_dp")
+    encoder_mbs = args.micro_batch_size * args.llm_dp // args.encoder_dp
+
+    encoder_needs_data = is_rank_in_grid(encoder_grid) and is_pp_first_stage(
+        encoder_grid.get_pg("pp")
+    )
+    llm_needs_data = is_rank_in_grid(llm_grid) and (
+        is_pp_first_stage(llm_grid.get_pg("pp")) or is_pp_last_stage(llm_grid.get_pg("pp"))
+    )
+
+    if encoder_needs_data and not llm_needs_data:
+        return MockVLMIterator(
+            args,
+            encoder_mbs,
+            topology.encoder_name,
+            get_mock_data_seed(args, encoder_grid, module_seed_offset=0),
+        )
+    if llm_needs_data and not encoder_needs_data:
+        return MockVLMIterator(
+            args,
+            llm_mbs,
+            topology.encoder_name,
+            get_mock_data_seed(args, llm_grid, module_seed_offset=100_000),
+        )
+    if encoder_needs_data and llm_needs_data:
+        return MockVLMIterator(
+            args,
+            llm_mbs,
+            topology.encoder_name,
+            get_mock_data_seed(args, llm_grid, module_seed_offset=100_000),
+        )
+    return None
+
+
+def get_mock_data_seed(args: argparse.Namespace, grid, module_seed_offset: int) -> int:
+    """Seed mock data by data-parallel lane so PP/TP stages see coherent batches."""
+    dp_lane = get_grid_coordinate(grid, "dp") if "dp" in grid.dim_names else 0
+    return args.seed + module_seed_offset + dp_lane
diff --git a/examples/mimo/training/hetero/distributed.py b/examples/mimo/training/hetero/distributed.py
new file mode 100644
index 00000000000..ad617c0f472
--- /dev/null
+++ b/examples/mimo/training/hetero/distributed.py
@@ -0,0 +1,71 @@
+# Copyright (c) 2026, NVIDIA CORPORATION. All rights reserved.
+
+"""Distributed setup helpers for heterogeneous MIMO examples."""
+
+from __future__ import annotations
+
+import sys
+
+import torch
+import torch.distributed as dist
+
+from megatron.core import parallel_state
+
+
+def initialize_distributed() -> None:
+    """Initialize torch.distributed for torchrun."""
+    import os
+
+    local_rank = int(os.environ.get("LOCAL_RANK", "0"))
+    torch.cuda.set_device(local_rank)
+    if not dist.is_initialized():
+        dist.init_process_group(backend="nccl")
+    assert_megatron_parallel_state_uninitialized()
+    try:
+        parallel_state.get_global_memory_buffer()
+    except AssertionError:
+        parallel_state._set_global_memory_buffer()
+    dist.barrier()
+
+
+def assert_megatron_parallel_state_uninitialized() -> None:
+    """Ensure this standalone hetero path owns Megatron process-group setup."""
+    initialized_groups = []
+    if parallel_state.is_initialized():
+        initialized_groups.append("data_parallel")
+    if parallel_state.get_model_parallel_group(check_initialized=False) is not None:
+        initialized_groups.append("model_parallel")
+    if parallel_state.get_tensor_model_parallel_group(check_initialized=False) is not None:
+        initialized_groups.append("tensor_model_parallel")
+    if parallel_state.get_pipeline_model_parallel_group(check_initialized=False) is not None:
+        initialized_groups.append("pipeline_model_parallel")
+    if parallel_state.get_context_parallel_group(check_initialized=False) is not None:
+        initialized_groups.append("context_parallel")
+    if parallel_state.get_embedding_group(check_initialized=False) is not None:
+        initialized_groups.append("embedding")
+    if parallel_state.get_position_embedding_group(check_initialized=False) is not None:
+        initialized_groups.append("position_embedding")
+
+    if initialized_groups:
+        raise RuntimeError(
+            "train_hetero.py expects Megatron parallel_state process groups to be "
+            f"uninitialized, but found: {', '.join(initialized_groups)}"
+        )
+
+
+def print_rank_0(message: str) -> None:
+    """Print only on global rank zero."""
+    if not dist.is_initialized() or dist.get_rank() == 0:
+        sys.stdout.write(f"{message}\n")
+        sys.stdout.flush()
+
+
+def shutdown_distributed() -> None:
+    """Tear down process-global Megatron and torch.distributed state."""
+    try:
+        torch.cuda.synchronize()
+    except Exception:
+        pass
+    parallel_state.destroy_global_memory_buffer()
+    if dist.is_initialized():
+        dist.destroy_process_group()
diff --git a/examples/mimo/training/hetero/grad_sync.py b/examples/mimo/training/hetero/grad_sync.py
new file mode 100644
index 00000000000..2e72196c415
--- /dev/null
+++ b/examples/mimo/training/hetero/grad_sync.py
@@ -0,0 +1,164 @@
+# Copyright (c) 2026, NVIDIA CORPORATION. All rights reserved.
+
+"""Gradient finalization and DDP sync helpers for heterogeneous MIMO training."""
+
+from __future__ import annotations
+
+from contextlib import ExitStack, contextmanager
+
+import torch
+import torch.distributed as dist
+
+from examples.mimo.training.hetero.runtime import iter_active_ddp_modules
+from examples.mimo.training.hetero.topology import HeteroTopology
+from examples.mimo.utils.hetero import debug_rank, is_process_group_member
+from megatron.core.distributed.finalize_model_grads import finalize_model_grads
+from megatron.core.models.mimo.model.base import MimoModel
+from megatron.core.pipeline_parallel.utils import is_pp_last_stage
+
+# Sentinel attribute set on a modality submodule by forward_step when its rank
+# processed image input this step. Used instead of scanning grad buffers.
+_PARTICIPATED_ATTR = "_mimo_rank_processed_input"
+
+
+def mark_modality_participation(model, batch) -> None:
+    """Tag each modality submodule with whether this rank has image input
+    this step. Called from forward_step before the model forward.
+    """
+    if not hasattr(model, "modality_submodules"):
+        return
+    images = batch.get("images") if isinstance(batch, dict) else None
+    if isinstance(images, torch.Tensor):
+        had_input = images.numel() > 0
+    elif isinstance(images, (list, tuple)):
+        had_input = len(images) > 0
+    else:
+        had_input = False
+    for submodule in model.modality_submodules.values():
+        if submodule is not None:
+            setattr(submodule, _PARTICIPATED_ATTR, had_input)
+
+
+def reset_modality_participation(mimo_model: MimoModel) -> None:
+    """Clear per-step participation flags at the top of each train_step."""
+    for submodule in mimo_model.modality_submodules.values():
+        if submodule is not None:
+            setattr(submodule, _PARTICIPATED_ATTR, False)
+
+
+def _vision_participation_count(submodule, vision_dp_group) -> float:
+    """All-reduce a 1-element bool across the vision DP group to get the
+    number of DP ranks that processed image input this step.
+    """
+    val = 1.0 if getattr(submodule, _PARTICIPATED_ATTR, False) else 0.0
+    indicator = torch.tensor([val], dtype=torch.float32, device="cuda")
+    dist.all_reduce(indicator, op=dist.ReduceOp.SUM, group=vision_dp_group)
+    return float(indicator.item())
+
+
+def configure_grad_sync(args, mimo_model: MimoModel, topology: HeteroTopology) -> None:
+    """Configure grad-finalization callbacks consumed by the pipeline schedule."""
+    language_pg = topology.language_pg
+    vision_pg = topology.vision_pg
+    correct_encoder_grad = bool(
+        getattr(args, "correct_encoder_grad_for_partial_participation", False)
+    )
+
+    def is_token_source_rank() -> bool:
+        return (
+            is_process_group_member(getattr(language_pg, "pp", None))
+            and is_process_group_member(getattr(language_pg, "tp", None))
+            and is_pp_last_stage(language_pg.pp)
+            and language_pg.tp.rank() == 0
+        )
+
+    def finalize_grads_func(_model_list, num_tokens, force_all_reduce=False, **_kwargs):
+        if num_tokens is None:
+            raise RuntimeError("hetero train loop expects calculate_per_token_loss=True")
+
+        global_num_tokens = torch.zeros(1, dtype=torch.float32, device="cuda")
+        if is_token_source_rank():
+            # MCore has already summed loss-mask token counts across microbatches
+            # for this gradient-accumulation step. Reduce over DP/CP to match
+            # Megatron's normalization domain.
+            token_count = num_tokens.to(device="cuda", dtype=torch.float32).sum().view(1)
+            dist.all_reduce(token_count, op=dist.ReduceOp.SUM, group=language_pg.dp_cp)
+            if dist.get_rank(language_pg.dp_cp) == 0:
+                global_num_tokens.copy_(token_count)
+        # Publish the language-side count to encoder ranks too.
+        dist.all_reduce(global_num_tokens, op=dist.ReduceOp.MAX)
+        global_num_tokens_value = global_num_tokens.item()
+
+        if mimo_model.language_model is not None:
+            debug_rank("finalizing language grads")
+            finalize_model_grads(
+                [mimo_model.language_model],
+                num_tokens=None,
+                pg_collection=language_pg,
+                force_all_reduce=force_all_reduce,
+            )
+            debug_rank("language grads finalized")
+
+        # Combine the per-token normalization with any partial-participation
+        # correction into a single scale_gradients call per submodule.
+        lang_scale = 1.0 / global_num_tokens_value if global_num_tokens_value > 0 else 0.0
+        if lang_scale != 0.0 and mimo_model.language_model is not None:
+            debug_rank("scaling language grads")
+            mimo_model.language_model.scale_gradients(lang_scale)
+
+        for submodule in mimo_model.modality_submodules.values():
+            if submodule is None:
+                continue
+            vision_scale = lang_scale
+            if correct_encoder_grad and vision_pg is not None:
+                vision_dp_group = getattr(vision_pg, "dp", None)
+                if is_process_group_member(vision_dp_group):
+                    vision_dp_size = dist.get_world_size(vision_dp_group)
+                    if vision_dp_size > 1:
+                        participation = _vision_participation_count(
+                            submodule, vision_dp_group
+                        )
+                        debug_rank(
+                            f"vision participation: {participation}/{vision_dp_size}"
+                        )
+                        if 0.0 < participation < vision_dp_size:
+                            vision_scale *= vision_dp_size / participation
+
+            debug_rank("finalizing vision grads")
+            finalize_model_grads(
+                [submodule],
+                num_tokens=None,
+                pg_collection=vision_pg,
+                force_all_reduce=force_all_reduce,
+            )
+            debug_rank("vision grads finalized")
+            if vision_scale != 0.0:
+                debug_rank("scaling vision grads")
+                submodule.scale_gradients(vision_scale)
+
+    mimo_model.config.no_sync_func = build_no_sync_func(mimo_model)
+    mimo_model.config.finalize_model_grads_func = finalize_grads_func
+    mimo_model.config.grad_scale_func = lambda loss: (
+        torch.tensor(loss, dtype=torch.float32, device="cuda", requires_grad=True)
+        if isinstance(loss, (int, float))
+        else loss
+    )
+
+
+def zero_active_grad_buffers(mimo_model: MimoModel) -> None:
+    """Clear MCore DDP grad buffers before each training iteration."""
+    for module in iter_active_ddp_modules(mimo_model):
+        module.zero_grad_buffer()
+
+
+def build_no_sync_func(mimo_model: MimoModel):
+    """Build a no_sync context spanning all active MIMO submodules."""
+
+    @contextmanager
+    def no_sync_func():
+        with ExitStack() as stack:
+            for module in iter_active_ddp_modules(mimo_model):
+                stack.enter_context(module.no_sync())
+            yield
+
+    return no_sync_func
diff --git a/examples/mimo/training/hetero/logging.py b/examples/mimo/training/hetero/logging.py
new file mode 100644
index 00000000000..a4f04766d8c
--- /dev/null
+++ b/examples/mimo/training/hetero/logging.py
@@ -0,0 +1,199 @@
+# Copyright (c) 2026, NVIDIA CORPORATION. All rights reserved.
+
+"""Megatron-shaped interval logging for heterogeneous MIMO training."""
+
+from __future__ import annotations
+
+import argparse
+import math
+import sys
+import time
+from dataclasses import dataclass, field
+from datetime import datetime
+from typing import Optional
+
+import torch
+import torch.distributed as dist
+
+from examples.mimo.training.hetero.optimizer import get_global_batch_size
+from examples.mimo.training.hetero.step import TrainStepResult
+from examples.mimo.training.hetero.topology import HeteroTopology
+from examples.mimo.utils.hetero import is_process_group_member
+from megatron.core.optimizer_param_scheduler import get_canonical_lr_for_logging
+from megatron.core.pipeline_parallel.utils import is_pp_last_stage
+from megatron.core.transformer.moe.moe_utils import track_moe_metrics
+
+
+@dataclass
+class HeteroTrainingLogger:
+    """Accumulate and print interval training metrics."""
+
+    args: argparse.Namespace
+    topology: HeteroTopology
+    consumed_train_samples: int = 0
+    advanced_iterations: int = 0
+    skipped_iterations: int = 0
+    nan_iterations: int = 0
+    loss_total: float = 0.0
+    loss_count: int = 0
+    interval_start: float = field(default_factory=time.time)
+    _tb_writer: Optional[object] = field(default=None, init=False, repr=False)
+    _moe_total_loss_dict: dict = field(default_factory=dict, init=False, repr=False)
+
+    def __post_init__(self) -> None:
+        # Only the language logging rank owns the writer; other ranks no-op.
+        tb_dir = getattr(self.args, "tensorboard_dir", None)
+        if tb_dir and is_language_log_rank(self.topology):
+            from torch.utils.tensorboard import SummaryWriter
+
+            self._tb_writer = SummaryWriter(log_dir=tb_dir)
+
+    def record_step(self, result: TrainStepResult) -> Optional[float]:
+        """Update interval state from one train step and return this iteration's loss."""
+        self.consumed_train_samples += get_global_batch_size(self.args)
+        loss_value = reduce_language_loss(result.losses, self.topology)
+
+        if result.skipped_iter:
+            self.skipped_iterations += result.skipped_iter
+            if loss_value is not None and not math.isfinite(loss_value):
+                self.nan_iterations += 1
+            return loss_value
+
+        self.advanced_iterations += 1
+        if loss_value is not None:
+            if math.isfinite(loss_value):
+                self.loss_total += loss_value
+                self.loss_count += 1
+            else:
+                self.nan_iterations += 1
+        return loss_value
+
+    def maybe_log(self, iteration: int, optimizer, result: TrainStepResult) -> None:
+        """Print Megatron-like interval metrics on the language logging rank."""
+        if iteration % self.args.log_interval != 0:
+            return
+
+        elapsed = time.time() - self.interval_start
+        interval_iters = max(1, self.advanced_iterations + self.skipped_iterations)
+        elapsed_ms = (elapsed / interval_iters) * 1000.0
+        loss_value = self.loss_total / self.loss_count if self.loss_count else None
+        learning_rate = get_canonical_lr_for_logging(optimizer.param_groups)
+        loss_scale = optimizer.get_loss_scale().item()
+
+        if is_language_log_rank(self.topology):
+            log_string = f" [{datetime.now().strftime('%Y-%m-%d %H:%M:%S.%f')}]"
+            log_string += " iteration {:8d}/{:8d} |".format(iteration, self.args.train_iters)
+            log_string += " consumed samples: {:12d} |".format(self.consumed_train_samples)
+            log_string += " elapsed time per iteration (ms): {:.1f} |".format(elapsed_ms)
+            if learning_rate is not None:
+                log_string += f" learning rate: {learning_rate:.6E} |"
+            log_string += f" global batch size: {get_global_batch_size(self.args):5d} |"
+            if loss_value is not None:
+                log_string += f" lm loss: {loss_value:.6E} |"
+            log_string += f" loss scale: {loss_scale:.1f} |"
+            if result.grad_norm is not None:
+                log_string += f" grad norm: {result.grad_norm:.3f} |"
+            if result.num_zeros_in_grad is not None:
+                log_string += f" num zeros: {int(result.num_zeros_in_grad)} |"
+            log_string += " number of skipped iterations: {:3d} |".format(self.skipped_iterations)
+            log_string += " number of nan iterations: {:3d} |".format(self.nan_iterations)
+            sys.stdout.write(f"{log_string}\n")
+            sys.stdout.flush()
+        num_moe_experts = getattr(self.args, "num_moe_experts", None)
+        if num_moe_experts and is_process_group_member(
+            getattr(self.topology.language_pg, "dp_cp", None)
+        ):
+            hybrid_pat = getattr(self.args, "hybrid_layer_pattern", None)
+            if hybrid_pat:
+                num_moe_layers = hybrid_pat.count("E")
+            else:
+                num_moe_layers = getattr(self.args, "num_layers", 0)
+            track_moe_metrics(
+                loss_scale=1.0 / max(1, getattr(self.args, "num_microbatches", 1)),
+                iteration=iteration,
+                writer=self._tb_writer,
+                wandb_writer=None,
+                total_loss_dict=self._moe_total_loss_dict,
+                per_layer_logging=False,
+                force_initialize=True,
+                track_names=["seq_load_balancing_loss"],
+                num_layers=num_moe_layers,
+                moe_layer_freq=None,
+                mtp_num_layers=getattr(self.args, "mtp_num_layers", None),
+                pg_collection=self.topology.language_pg,
+            )
+
+        if self._tb_writer is not None:
+            batch_size = get_global_batch_size(self.args)
+            samples = self.consumed_train_samples
+            if loss_value is not None:
+                self._tb_writer.add_scalar("lm loss", loss_value, iteration)
+                self._tb_writer.add_scalar("lm loss vs samples", loss_value, samples)
+            if learning_rate is not None:
+                self._tb_writer.add_scalar("learning-rate", learning_rate, iteration)
+                self._tb_writer.add_scalar(
+                    "learning-rate vs samples", learning_rate, samples
+                )
+            self._tb_writer.add_scalar("batch-size", batch_size, iteration)
+            self._tb_writer.add_scalar("batch-size vs samples", batch_size, samples)
+            self._tb_writer.add_scalar("loss-scale", loss_scale, iteration)
+            if result.grad_norm is not None:
+                self._tb_writer.add_scalar("grad-norm", result.grad_norm, iteration)
+                self._tb_writer.add_scalar(
+                    "grad-norm vs samples", result.grad_norm, samples
+                )
+            if result.num_zeros_in_grad is not None:
+                self._tb_writer.add_scalar(
+                    "num-zeros", result.num_zeros_in_grad, iteration
+                )
+            self._tb_writer.add_scalar(
+                "iteration-time-ms", elapsed_ms, iteration
+            )
+            self._tb_writer.flush()
+        self.reset_interval()
+
+    def reset_interval(self) -> None:
+        """Reset interval accumulators after a log event."""
+        self.advanced_iterations = 0
+        self.skipped_iterations = 0
+        self.nan_iterations = 0
+        self.loss_total = 0.0
+        self.loss_count = 0
+        self.interval_start = time.time()
+
+
+@torch.no_grad()
+def reduce_language_loss(losses: list[dict], topology: HeteroTopology) -> Optional[float]:
+    """Reduce raw loss/token vectors over the language DP/CP logging group."""
+    language_pg = topology.language_pg
+    loss_acc = torch.zeros(2, dtype=torch.float32, device="cuda")
+    is_log_stage = (
+        is_process_group_member(getattr(language_pg, "dp_cp", None))
+        and (is_pp_last_stage(language_pg.pp))
+        and language_pg.tp.rank() == 0
+    )
+    if not is_log_stage:
+        return None
+
+    if losses:
+        for loss_dict in losses:
+            loss = loss_dict.get("lm loss")
+            if isinstance(loss, torch.Tensor):
+                loss_acc += loss.detach().to(device="cuda", dtype=torch.float32).view(2)
+            elif loss is not None:
+                loss_acc += torch.tensor(loss, dtype=torch.float32, device="cuda").view(2)
+
+    dist.all_reduce(loss_acc, op=dist.ReduceOp.SUM, group=language_pg.dp_cp)
+    return loss_acc[0].item() / loss_acc[1].item() if loss_acc[1].item() else None
+
+
+def is_language_log_rank(topology: HeteroTopology) -> bool:
+    """Return whether this rank should print language-side training metrics."""
+    language_pg = topology.language_pg
+    if not (
+        is_process_group_member(getattr(language_pg, "dp_cp", None))
+        and is_pp_last_stage(language_pg.pp)
+        and language_pg.tp.rank() == 0
+    ):
+        return False
+    return dist.get_rank() == dist.get_global_rank(language_pg.dp_cp, 0)
diff --git a/examples/mimo/training/hetero/loop.py b/examples/mimo/training/hetero/loop.py
new file mode 100644
index 00000000000..882db12cb18
--- /dev/null
+++ b/examples/mimo/training/hetero/loop.py
@@ -0,0 +1,139 @@
+# Copyright (c) 2026, NVIDIA CORPORATION. All rights reserved.
+
+"""Top-level orchestration for heterogeneous MIMO training."""
+
+from __future__ import annotations
+
+import argparse
+import random
+from typing import Optional
+
+import numpy as np
+import torch
+
+from examples.mimo.training.hetero.args import prepare_args
+from examples.mimo.training.hetero.checkpointing import load_checkpoint, save_checkpoint
+from examples.mimo.training.hetero.data import select_data_iterator, validate_data_iterator
+from examples.mimo.training.hetero.distributed import print_rank_0
+from examples.mimo.training.hetero.grad_sync import configure_grad_sync
+from examples.mimo.training.hetero.logging import HeteroTrainingLogger
+from examples.mimo.training.hetero.optimizer import build_optimizer, build_optimizer_param_scheduler
+from examples.mimo.training.hetero.runtime import build_mimo_runtime
+from examples.mimo.training.hetero.step import train_step
+from examples.mimo.training.hetero.timeline import configure_hetero_timeline
+from examples.mimo.training.hetero.topology import HeteroTopology, create_topology
+from examples.mimo.utils.hetero import debug_rank
+from examples.mimo.utils.model_helpers import load_and_refresh_nemotron_checkpoint
+from megatron.core.models.mimo.model.base import MimoModel
+from megatron.core.pipeline_parallel.multimodule_communicator import MultiModulePipelineCommunicator
+from megatron.core.pipeline_parallel.timeline import (
+    close_pipeline_timeline,
+    flush_pipeline_timeline,
+    set_pipeline_timeline_iteration,
+)
+
+
+def run_train_loop(args: argparse.Namespace) -> None:
+    """Run heterogeneous MIMO training."""
+    world_size = torch.distributed.get_world_size()
+    encoder_size, llm_size = prepare_args(args, world_size)
+
+    topology: Optional[HeteroTopology] = None
+    model: Optional[MimoModel] = None
+    try:
+        topology = create_topology(args, encoder_size, llm_size)
+        timeline_summary = configure_hetero_timeline(args, topology)
+        if timeline_summary is not None:
+            print_rank_0(timeline_summary)
+
+        # Match Megatron's _set_random_seed: seed python random and numpy
+        # too. energon's text_packing.random.shuffle uses the global random
+        # module, so dataset-construction RNG draws would diverge otherwise.
+        random.seed(args.seed)
+        np.random.seed(args.seed)
+        torch.manual_seed(args.seed)
+
+        debug_rank("building MIMO model")
+        model = build_mimo_runtime(args, topology)
+        debug_rank("configuring gradient sync")
+        configure_grad_sync(args, model, topology)
+
+        debug_rank("building MIMO optimizer")
+        optimizer = build_optimizer(args, model)
+        opt_param_scheduler = build_optimizer_param_scheduler(args, optimizer)
+        debug_rank("MIMO optimizer ready")
+
+        debug_rank("building pipeline communicator")
+        communicator = build_pipeline_communicator(model, topology)
+        debug_rank("selecting data iterator")
+        data_iterator = select_data_iterator(args, topology)
+        validate_data_iterator(args, data_iterator, topology)
+        logger = HeteroTrainingLogger(args=args, topology=topology)
+        debug_rank("training setup ready")
+
+        nemotron_ckpt = getattr(args, "load_nemotron_checkpoint", None)
+        if nemotron_ckpt:
+            load_and_refresh_nemotron_checkpoint(model, optimizer, topology, args)
+            start_iteration = 0
+        else:
+            start_iteration = load_checkpoint(model, optimizer, opt_param_scheduler, args, topology)
+        if start_iteration >= args.train_iters:
+            print_rank_0(
+                f"Resume iteration ({start_iteration}) >= --train-iters ({args.train_iters}); "
+                "nothing to train."
+            )
+            return
+
+        print_rank_0(
+            "Starting hetero MIMO training: "
+            f"world_size={world_size}, encoder_size={topology.encoder_size}, "
+            f"llm_size={topology.llm_size}, "
+            f"iters={start_iteration + 1}..{args.train_iters}, "
+            f"dataset_provider={args.dataset_provider}"
+        )
+
+        last_saved = start_iteration
+        for iteration in range(start_iteration + 1, args.train_iters + 1):
+            debug_rank(f"iteration {iteration}: train step start")
+            set_pipeline_timeline_iteration(iteration)
+            result = train_step(
+                args, model, topology, optimizer, opt_param_scheduler, communicator, data_iterator
+            )
+            flush_pipeline_timeline()
+            logger.record_step(result)
+            logger.maybe_log(iteration, optimizer, result)
+            debug_rank(f"iteration {iteration}: train step complete")
+
+            if (
+                args.save
+                and args.save_interval
+                and iteration % args.save_interval == 0
+                and iteration != args.train_iters
+            ):
+                save_checkpoint(iteration, model, optimizer, opt_param_scheduler, args, topology)
+                last_saved = iteration
+
+        if args.save and last_saved != args.train_iters:
+            save_checkpoint(args.train_iters, model, optimizer, opt_param_scheduler, args, topology)
+    finally:
+        close_pipeline_timeline()
+        if model is not None:
+            model.destroy()
+        if topology is not None:
+            topology.destroy()
+
+
+def build_pipeline_communicator(
+    model: MimoModel, topology: HeteroTopology
+) -> MultiModulePipelineCommunicator:
+    """Build the MIMO pipeline communicator used by the train schedule."""
+    module_output_ndim = {}
+    if topology.encoder_grid is not None:
+        module_output_ndim[topology.encoder_name] = 2
+    return MultiModulePipelineCommunicator(
+        topology.module_to_grid_map,
+        topology.module_dependency_map,
+        model.config,
+        dim_mapping={"s": 0, "h": 2, "b": 1},
+        module_output_ndim=module_output_ndim,
+    )
diff --git a/examples/mimo/training/hetero/optimizer.py b/examples/mimo/training/hetero/optimizer.py
new file mode 100644
index 00000000000..2e214b1943b
--- /dev/null
+++ b/examples/mimo/training/hetero/optimizer.py
@@ -0,0 +1,83 @@
+# Copyright (c) 2026, NVIDIA CORPORATION. All rights reserved.
+
+"""Optimizer and scheduler construction for heterogeneous MIMO training."""
+
+from __future__ import annotations
+
+import argparse
+
+from megatron.core.models.mimo.model.base import MimoModel
+from megatron.core.models.mimo.optimizer import get_mimo_optimizer
+from megatron.core.optimizer.optimizer_config import OptimizerConfig
+from megatron.core.optimizer_param_scheduler import OptimizerParamScheduler
+
+
+def build_optimizer(args: argparse.Namespace, model: MimoModel):
+    """Build the MIMO optimizer for active hetero module optimizers."""
+    return get_mimo_optimizer(
+        model,
+        OptimizerConfig(
+            optimizer="adam",
+            lr=args.lr,
+            min_lr=args.min_lr,
+            weight_decay=args.weight_decay,
+            adam_beta1=args.adam_beta1,
+            adam_beta2=args.adam_beta2,
+            clip_grad=args.clip_grad,
+            bf16=not args.fp32,
+            use_distributed_optimizer=True,
+            log_num_zeros_in_grad=args.log_num_zeros_in_grad,
+        ),
+    )
+
+
+def get_global_batch_size(args: argparse.Namespace) -> int:
+    """Return the language-side global batch size for scheduler accounting."""
+    derived_global_batch_size = args.micro_batch_size * args.num_microbatches * args.llm_dp
+    if args.global_batch_size is None:
+        return derived_global_batch_size
+    if args.global_batch_size != derived_global_batch_size:
+        raise ValueError(
+            "--global-batch-size must equal "
+            "--micro-batch-size * --num-microbatches * --llm-dp in this hetero loop "
+            f"({derived_global_batch_size}); got {args.global_batch_size}"
+        )
+    return args.global_batch_size
+
+
+def build_optimizer_param_scheduler(args: argparse.Namespace, optimizer) -> OptimizerParamScheduler:
+    """Build the MCore optimizer parameter scheduler.
+
+    The scheduler tracks "steps" in units of consumed samples (incremented by the
+    global batch size per call). Sample-based knobs take precedence when set;
+    iter-based knobs are converted via iter * global_batch_size for back-compat.
+    """
+    global_batch_size = get_global_batch_size(args)
+    if args.lr_warmup_samples is not None:
+        lr_warmup_steps = args.lr_warmup_samples
+    else:
+        lr_warmup_steps = args.lr_warmup_iters * global_batch_size
+    if args.lr_decay_samples is not None:
+        lr_decay_steps = args.lr_decay_samples
+    else:
+        lr_decay_iters = (
+            args.lr_decay_iters if args.lr_decay_iters is not None else args.train_iters
+        )
+        lr_decay_steps = lr_decay_iters * global_batch_size
+    return OptimizerParamScheduler(
+        optimizer,
+        init_lr=0.0,
+        max_lr=args.lr,
+        min_lr=args.min_lr if args.min_lr is not None else 0.0,
+        lr_warmup_steps=lr_warmup_steps,
+        lr_decay_steps=lr_decay_steps,
+        lr_decay_style=args.lr_decay_style,
+        start_wd=args.weight_decay,
+        end_wd=args.weight_decay,
+        wd_incr_steps=args.train_iters * global_batch_size,
+        wd_incr_style="constant",
+        use_checkpoint_opt_param_scheduler=False,
+        override_opt_param_scheduler=True,
+        wsd_decay_steps=args.lr_wsd_decay_samples,
+        lr_wsd_decay_style=args.lr_wsd_decay_style,
+    )
diff --git a/examples/mimo/training/hetero/runtime.py b/examples/mimo/training/hetero/runtime.py
new file mode 100644
index 00000000000..0550099d066
--- /dev/null
+++ b/examples/mimo/training/hetero/runtime.py
@@ -0,0 +1,205 @@
+# Copyright (c) 2026, NVIDIA CORPORATION. All rights reserved.
+
+"""Model runtime construction for heterogeneous MIMO training."""
+
+from __future__ import annotations
+
+import argparse
+from typing import Iterator, Optional
+
+import torch
+
+from examples.mimo.model_providers.nemotron_moe_vlm import (
+    get_vision_encoder_module,
+    iter_vision_projection_modules,
+    language_model_spec,
+    vision_submodules_spec,
+)
+from examples.mimo.training.hetero.topology import HeteroTopology, is_rank_in_grid
+from examples.mimo.utils.hetero import debug_rank, get_group_rank_or
+from megatron.core.distributed import DistributedDataParallel, DistributedDataParallelConfig
+from megatron.core.models.mimo.config.base_configs import MimoModelConfig
+from megatron.core.models.mimo.model.base import MimoModel
+from megatron.core.process_groups_config import ProcessGroupCollection
+from megatron.core.tensor_parallel.random import model_parallel_cuda_manual_seed
+
+
+def build_mimo_runtime(args: argparse.Namespace, topology: HeteroTopology) -> MimoModel:
+    """Build the MIMO model and wrap active modules in MCore DDP."""
+    language_pg = topology.language_pg
+    vision_pg = topology.vision_pg
+    rank_in_language_grid = is_rank_in_grid(topology.llm_grid)
+    rank_in_encoder_grid = topology.encoder_grid is not None and is_rank_in_grid(
+        topology.encoder_grid
+    )
+    debug_rank(
+        "building model specs "
+        f"rank_in_encoder={rank_in_encoder_grid} rank_in_language={rank_in_language_grid}"
+    )
+    # The CUDA RNG tracker is process-global; this runtime assumes non-colocated module grids,
+    # so each rank configures RNG state for exactly one module role.
+    if rank_in_language_grid:
+        configure_module_rng(args, language_pg, role_seed_offset=20_000)
+    elif rank_in_encoder_grid:
+        assert vision_pg is not None
+        configure_module_rng(args, vision_pg, role_seed_offset=10_000)
+
+    modality_submodules_spec = {}
+    special_token_ids = {}
+    if topology.encoder_grid is not None:
+        modality_submodules_spec[topology.encoder_name] = vision_submodules_spec(
+            args, vision_pg if rank_in_encoder_grid else None, topology.encoder_grid
+        )
+        special_token_ids[topology.encoder_name] = args.image_token_id
+
+    mimo_config = MimoModelConfig(
+        language_model_spec=language_model_spec(
+            args, language_pg if rank_in_language_grid else None, topology.llm_grid
+        ),
+        modality_submodules_spec=modality_submodules_spec,
+        special_token_ids=special_token_ids,
+        module_to_grid_map=topology.module_to_grid_map,
+    )
+
+    debug_rank("constructing MimoModel")
+    mimo_model = MimoModel(
+        mimo_config,
+        cp_group=language_pg.cp if rank_in_language_grid else None,
+        tp_group=language_pg.tp if rank_in_language_grid else None,
+    )
+    debug_rank("moving MimoModel to cuda")
+    mimo_model.to(torch.device("cuda"))
+    if not args.fp32:
+        mimo_model.to(torch.bfloat16)
+    debug_rank("MimoModel moved to target dtype/device")
+
+    wrap_active_modules_with_ddp(args, mimo_model, topology)
+    return mimo_model
+
+
+def _resolve_bucket_size(
+    args: argparse.Namespace, module: Optional[torch.nn.Module]
+) -> Optional[int]:
+    """Resolve DDP bucket_size for a module.
+
+    Precedence:
+    1. --ddp-num-buckets (set): bucket_size = num_params // num_buckets.
+    2. --ddp-bucket-size > 0: use that value.
+    3. Else None (mcore auto-default = max(40M, 1M * dp_size)).
+    """
+    num_buckets = getattr(args, "ddp_num_buckets", None)
+    if num_buckets is not None:
+        if num_buckets <= 0:
+            raise ValueError("--ddp-num-buckets must be > 0 when set")
+        if args.ddp_bucket_size and args.ddp_bucket_size > 0:
+            raise ValueError(
+                "--ddp-num-buckets and --ddp-bucket-size are mutually exclusive"
+            )
+        if module is None:
+            return None
+        num_params = sum(p.numel() for p in module.parameters())
+        if num_params <= 0:
+            return None
+        return max(1, num_params // num_buckets)
+    if args.ddp_bucket_size and args.ddp_bucket_size > 0:
+        return args.ddp_bucket_size
+    return None
+
+
+def wrap_active_modules_with_ddp(
+    args: argparse.Namespace, mimo_model: MimoModel, topology: HeteroTopology
+) -> None:
+    """Freeze and DDP-wrap active local MIMO modules."""
+    pad_buckets = getattr(args, "ddp_pad_buckets_for_high_nccl_busbw", False)
+    if mimo_model.language_model is not None:
+        if args.freeze_lm:
+            set_module_requires_grad(mimo_model.language_model, False)
+        language_ddp_config = DistributedDataParallelConfig(
+            overlap_grad_reduce=args.overlap_grad_reduce,
+            overlap_param_gather=getattr(args, "overlap_param_gather", False),
+            bucket_size=_resolve_bucket_size(args, mimo_model.language_model),
+            pad_buckets_for_high_nccl_busbw=pad_buckets,
+            use_distributed_optimizer=True,
+            # Keep main_grad in fp32. Default False → bf16 main_grad → step-2
+            # weight drift after Adam.
+            grad_reduce_in_fp32=getattr(args, "accumulate_allreduce_grads_in_fp32", True),
+        )
+        debug_rank("wrapping language model in DDP")
+        mimo_model.language_model = DistributedDataParallel(
+            config=mimo_model.language_model.config,
+            ddp_config=language_ddp_config,
+            module=mimo_model.language_model,
+            pg_collection=topology.language_pg,
+        )
+        debug_rank("language model DDP ready")
+
+    if (
+        topology.encoder_grid is not None
+        and topology.encoder_name in mimo_model.modality_submodules
+    ):
+        assert topology.vision_pg is not None
+        submodule = mimo_model.modality_submodules[topology.encoder_name]
+        if submodule is None:
+            return
+
+        encoder_module = get_vision_encoder_module(args, submodule)
+        if args.freeze_vit:
+            set_module_requires_grad(encoder_module, False)
+        if args.freeze_projection:
+            for projection in iter_vision_projection_modules(submodule):
+                set_module_requires_grad(projection, False)
+        # Vision DDP keeps all overlap off: actual-data batches may be text-only,
+        # so some encoder DP ranks see zero grads/params per step; overlap'd
+        # collectives are not safe under that partial participation.
+        vision_ddp_config = DistributedDataParallelConfig(
+            overlap_grad_reduce=False,
+            overlap_param_gather=False,
+            bucket_size=_resolve_bucket_size(args, submodule),
+            pad_buckets_for_high_nccl_busbw=pad_buckets,
+            use_distributed_optimizer=True,
+            grad_reduce_in_fp32=getattr(args, "accumulate_allreduce_grads_in_fp32", True),
+        )
+        debug_rank("wrapping vision submodule in DDP")
+        mimo_model.modality_submodules[topology.encoder_name] = DistributedDataParallel(
+            config=encoder_module.config,
+            ddp_config=vision_ddp_config,
+            module=submodule,
+            pg_collection=topology.vision_pg,
+        )
+        debug_rank("vision submodule DDP ready")
+
+
+def set_module_requires_grad(module: Optional[torch.nn.Module], requires_grad: bool) -> None:
+    """Set requires_grad for every parameter in a module when the module exists."""
+    if module is None:
+        return
+    for param in module.parameters():
+        param.requires_grad = requires_grad
+
+
+def configure_module_rng(
+    args: argparse.Namespace, pg_collection: ProcessGroupCollection, role_seed_offset: int
+) -> None:
+    """Seed module init and CUDA RNG tracker for the active module role.
+
+    The seed is identical across DP/CP replicas for a module PP stage, and differs across
+    module roles and PP stages.
+    """
+    pp_rank = get_group_rank_or(getattr(pg_collection, "pp", None))
+    tp_rank = get_group_rank_or(getattr(pg_collection, "tp", None))
+    ep_rank = get_group_rank_or(getattr(pg_collection, "ep", None))
+    expt_tp_rank = get_group_rank_or(getattr(pg_collection, "expt_tp", None))
+    seed = args.seed + role_seed_offset + (100 * pp_rank)
+    torch.manual_seed(seed)
+    model_parallel_cuda_manual_seed(
+        seed, tp_rank=tp_rank, ep_rank=ep_rank, etp_rank=expt_tp_rank, force_reset_rng=True
+    )
+
+
+def iter_active_ddp_modules(mimo_model: MimoModel) -> Iterator[DistributedDataParallel]:
+    """Yield active DDP-wrapped submodules owned by this rank."""
+    if isinstance(mimo_model.language_model, DistributedDataParallel):
+        yield mimo_model.language_model
+    for submodule in mimo_model.modality_submodules.values():
+        if isinstance(submodule, DistributedDataParallel):
+            yield submodule
diff --git a/examples/mimo/training/hetero/step.py b/examples/mimo/training/hetero/step.py
new file mode 100644
index 00000000000..c383fc9b0b8
--- /dev/null
+++ b/examples/mimo/training/hetero/step.py
@@ -0,0 +1,168 @@
+# Copyright (c) 2026, NVIDIA CORPORATION. All rights reserved.
+
+"""Forward/backward step behavior for heterogeneous MIMO training."""
+
+from __future__ import annotations
+
+import argparse
+from dataclasses import dataclass
+from functools import partial
+from typing import Any, Optional
+
+import torch
+import torch.distributed as dist
+
+import megatron.core.pipeline_parallel.schedules as schedule
+from examples.mimo.training.hetero.grad_sync import (
+    mark_modality_participation,
+    reset_modality_participation,
+    zero_active_grad_buffers,
+)
+from examples.mimo.training.hetero.optimizer import get_global_batch_size
+from examples.mimo.training.hetero.topology import HeteroTopology
+from examples.mimo.utils.hetero import debug_rank
+from megatron.core.models.mimo.model.base import MimoModel
+from megatron.core.pipeline_parallel.multimodule_communicator import MultiModulePipelineCommunicator
+from megatron.core.pipeline_parallel.timeline import timeline_event
+
+
+@dataclass
+class TrainStepResult:
+    """Megatron-style result returned by one hetero training step."""
+
+    losses: list[dict[str, Any]]
+    skipped_iter: int
+    update_successful: bool
+    grad_norm: Optional[float]
+    num_zeros_in_grad: Optional[int]
+
+
+def loss_func(output_tensor: torch.Tensor, *, loss_mask: torch.Tensor):
+    """Return terminal language-model loss sum, local token count, and logging tensors."""
+    if output_tensor is None:
+        raise RuntimeError("terminal language stage returned no loss tensor")
+    if not isinstance(output_tensor, torch.Tensor):
+        raise TypeError(
+            "loss_func expects the terminal language stage to return a tensor, "
+            f"got {type(output_tensor).__name__}"
+        )
+
+    output = output_tensor.float()
+    if loss_mask is None:
+        raise RuntimeError("train_hetero.py requires a loss_mask for per-token loss")
+    if output.shape != loss_mask.shape:
+        raise RuntimeError(
+            f"loss output shape {tuple(output.shape)} does not match loss_mask shape "
+            f"{tuple(loss_mask.shape)}; per-token loss cannot be scaled correctly"
+        )
+
+    masked = output * loss_mask.float()
+    num_tokens = loss_mask.float().sum().to(torch.int)
+    loss_sum = masked.sum()
+    return (
+        loss_sum,
+        num_tokens,
+        {"lm loss": torch.stack((loss_sum.detach(), num_tokens.detach().float()))},
+    )
+
+
+def forward_step(data_iterator, model):
+    """Forward step consumed by the MCore pipeline schedule."""
+    with timeline_event("data.next"):
+        batch = next(data_iterator) if data_iterator is not None else {"input_ids": None}
+    with timeline_event("data.to_cuda", cuda=True):
+        batch = move_batch_to_cuda(batch)
+    mark_modality_participation(model, batch)
+    debug_rank("forward_step batch prepared")
+    debug_rank("forward_step model call start")
+    output_tensor, loss_mask = model(**batch)
+    debug_rank("forward_step model call done")
+    return output_tensor, partial(loss_func, loss_mask=loss_mask)
+
+
+def move_batch_to_cuda(value):
+    """Move tensors in nested batch structures to the current CUDA device."""
+    if isinstance(value, torch.Tensor):
+        return value.cuda(non_blocking=True)
+    if isinstance(value, dict):
+        return {key: move_batch_to_cuda(item) for key, item in value.items()}
+    if isinstance(value, list):
+        return [move_batch_to_cuda(item) for item in value]
+    if isinstance(value, tuple):
+        return tuple(move_batch_to_cuda(item) for item in value)
+    # PackedSeqParams is a dataclass carrying tensors that TE attention needs
+    # on the GPU. Recurse through its tensor-valued fields so cu_seqlens_q/kv
+    # and max_seqlen_q/kv land on cuda alongside the rest of the batch.
+    from megatron.core.packed_seq_params import PackedSeqParams
+
+    if isinstance(value, PackedSeqParams):
+        for attr in (
+            "cu_seqlens_q",
+            "cu_seqlens_kv",
+            "cu_seqlens_q_padded",
+            "cu_seqlens_kv_padded",
+            "max_seqlen_q",
+            "max_seqlen_kv",
+        ):
+            sub = getattr(value, attr, None)
+            if isinstance(sub, torch.Tensor) and not sub.is_cuda:
+                setattr(value, attr, sub.cuda(non_blocking=True))
+        return value
+    return value
+
+
+def train_step(
+    args: argparse.Namespace,
+    model: MimoModel,
+    topology: HeteroTopology,
+    optimizer,
+    opt_param_scheduler,
+    communicator: MultiModulePipelineCommunicator,
+    data_iterator,
+) -> TrainStepResult:
+    """Run one Megatron-shaped hetero training step."""
+    zero_active_grad_buffers(model)
+    reset_modality_participation(model)
+    optimizer.zero_grad()
+
+    debug_rank("starting forward/backward schedule")
+    losses = schedule.forward_backward_pipelining_without_interleaving(
+        forward_step_func=forward_step,
+        data_iterator=data_iterator,
+        model=[model],
+        num_microbatches=args.num_microbatches,
+        seq_length=args.seq_length,
+        micro_batch_size=args.micro_batch_size,
+        forward_only=False,
+        p2p_communicator=communicator,
+        pg_collection=topology.schedule_pg_collection,
+    )
+    debug_rank("schedule complete")
+
+    debug_rank("optimizer step starting")
+    update_successful, grad_norm, num_zeros_in_grad = optimizer.step()
+    update_successful = reduce_update_success(update_successful)
+    debug_rank("optimizer step complete")
+
+    if update_successful:
+        opt_param_scheduler.step(increment=get_global_batch_size(args))
+        skipped_iter = 0
+    else:
+        # Match Megatron train_step semantics: failed updates skip LR advancement but
+        # do not abort the run.
+        skipped_iter = 1
+
+    return TrainStepResult(
+        losses=losses,
+        skipped_iter=skipped_iter,
+        update_successful=update_successful,
+        grad_norm=grad_norm,
+        num_zeros_in_grad=num_zeros_in_grad,
+    )
+
+
+def reduce_update_success(update_successful: bool) -> bool:
+    """Match Megatron's cross-rank success agreement for hetero process groups."""
+    value = torch.tensor([1 if update_successful else 0], dtype=torch.int, device="cuda")
+    dist.all_reduce(value, op=dist.ReduceOp.MIN)
+    return bool(value.item())
diff --git a/examples/mimo/training/hetero/timeline.py b/examples/mimo/training/hetero/timeline.py
new file mode 100644
index 00000000000..76f84fc9434
--- /dev/null
+++ b/examples/mimo/training/hetero/timeline.py
@@ -0,0 +1,114 @@
+# Copyright (c) 2026, NVIDIA CORPORATION. All rights reserved.
+
+"""Timeline tracing configuration for standalone heterogeneous MIMO training."""
+
+from __future__ import annotations
+
+import argparse
+import os
+from typing import Optional
+
+import torch.distributed as dist
+
+from examples.mimo.training.hetero.topology import HeteroTopology
+from megatron.core.hyper_comm_grid import HyperCommGrid
+from megatron.core.pipeline_parallel.timeline import configure_pipeline_timeline
+
+
+def configure_hetero_timeline(args: argparse.Namespace, topology: HeteroTopology) -> Optional[str]:
+    """Configure rank-local pipeline timeline tracing and return a rank-0 summary."""
+    enabled = args.timeline_profile or env_flag_enabled("MIMO_TIMELINE")
+    if not enabled:
+        configure_pipeline_timeline(
+            enabled=False,
+            output_dir=args.timeline_dir or "",
+            rank=dist.get_rank(),
+            world_size=dist.get_world_size(),
+            role="",
+        )
+        return None
+
+    rank = dist.get_rank()
+    world_size = dist.get_world_size()
+    scope = os.environ.get("MIMO_TIMELINE_RANKS", args.timeline_ranks)
+    dp_replica = int(os.environ.get("MIMO_TIMELINE_DP_REPLICA", args.timeline_dp_replica))
+    output_dir = args.timeline_dir or os.environ.get("MIMO_TIMELINE_DIR", "mimo_timeline")
+    selected_ranks = select_timeline_ranks(scope, dp_replica, topology, world_size)
+    role, coords = rank_role_and_coords(rank, topology)
+
+    configure_pipeline_timeline(
+        enabled=rank in selected_ranks,
+        output_dir=output_dir,
+        rank=rank,
+        world_size=world_size,
+        role=role,
+        metadata={
+            "rank_scope": scope,
+            "timeline_dp_replica": dp_replica,
+            **coords,
+        },
+        cuda_events=args.timeline_cuda_events or env_flag_enabled("MIMO_TIMELINE_CUDA_EVENTS"),
+        nvtx=args.timeline_nvtx or env_flag_enabled("MIMO_TIMELINE_NVTX"),
+    )
+
+    if rank != 0:
+        return None
+    return (
+        "Pipeline timeline enabled: "
+        f"dir={output_dir}, scope={scope}, selected_ranks={len(selected_ranks)}"
+    )
+
+
+def select_timeline_ranks(
+    scope: str, dp_replica: int, topology: HeteroTopology, world_size: int
+) -> set[int]:
+    """Select ranks to trace."""
+    scope = scope.strip().lower()
+    if scope == "all":
+        return set(range(world_size))
+    if scope == "dp-replica":
+        ranks = ranks_for_dp_replica(topology.encoder_grid, dp_replica)
+        ranks.update(ranks_for_dp_replica(topology.llm_grid, dp_replica))
+        return ranks
+    return {int(item) for item in scope.split(",") if item.strip()}
+
+
+def ranks_for_dp_replica(grid: Optional[HyperCommGrid], dp_replica: int) -> set[int]:
+    """Return all ranks that belong to one dense DP replica of a grid."""
+    if grid is None:
+        return set()
+    ranks = set()
+    for rank in range(grid.rank_offset, grid.rank_offset + grid.size):
+        coords = grid_coords(grid, rank)
+        if coords.get("dp") == dp_replica:
+            ranks.add(rank)
+    return ranks
+
+
+def rank_role_and_coords(
+    rank: int, topology: HeteroTopology
+) -> tuple[str, dict[str, int | str]]:
+    """Return role and dense-grid coordinates for timeline metadata."""
+    for role, grid in (("encoder", topology.encoder_grid), ("llm", topology.llm_grid)):
+        if grid is None:
+            continue
+        if grid.rank_offset <= rank < grid.rank_offset + grid.size:
+            coords = grid_coords(grid, rank)
+            role_coords = {f"{role}_{key}": value for key, value in coords.items()}
+            return role, {"module": role, **role_coords}
+    return "unknown", {"module": "unknown"}
+
+
+def grid_coords(grid: HyperCommGrid, rank: int) -> dict[str, int]:
+    """Decode a global rank into dense HyperCommGrid coordinates."""
+    local_rank = rank - grid.rank_offset
+    coords = {}
+    for dim_name, dim_size in zip(grid.dim_names, grid.shape):
+        coords[dim_name] = local_rank % dim_size
+        local_rank //= dim_size
+    return coords
+
+
+def env_flag_enabled(name: str) -> bool:
+    """Return whether an environment flag is set to a truthy value."""
+    return os.environ.get(name, "").strip().lower() in {"1", "true", "yes", "on"}
diff --git a/examples/mimo/training/hetero/topology.py b/examples/mimo/training/hetero/topology.py
new file mode 100644
index 00000000000..138b9a5a4cc
--- /dev/null
+++ b/examples/mimo/training/hetero/topology.py
@@ -0,0 +1,320 @@
+# Copyright (c) 2026, NVIDIA CORPORATION. All rights reserved.
+
+"""HyperCommGrid and process-group ownership for heterogeneous MIMO training."""
+
+from __future__ import annotations
+
+import argparse
+from dataclasses import dataclass
+from typing import Optional
+
+import torch.distributed as dist
+
+from examples.mimo.utils.hetero import debug_rank, is_process_group_member
+from megatron.core.hyper_comm_grid import HyperCommGrid
+from megatron.core.models.mimo.config.role import MIMO_LANGUAGE_MODULE_KEY
+from megatron.core.pipeline_parallel.bridge_communicator import BridgeCommunicator
+from megatron.core.pipeline_parallel.utils import is_pp_first_stage, is_pp_last_stage
+from megatron.core.process_groups_config import (
+    MultiModuleProcessGroupCollection,
+    ProcessGroupCollection,
+)
+
+ENCODER_MODULE_NAME = "images"
+LanguageEmbeddingGroups = dict[tuple[int, ...], Optional[dist.ProcessGroup]]
+
+
+@dataclass
+class HeteroTopology:
+    """Process groups and rank topology for one hetero MIMO run."""
+
+    encoder_grid: Optional[HyperCommGrid]
+    llm_grid: HyperCommGrid
+    language_pg: ProcessGroupCollection
+    vision_pg: Optional[ProcessGroupCollection]
+    schedule_pg_collection: MultiModuleProcessGroupCollection
+    language_embedding_groups: LanguageEmbeddingGroups
+    encoder_size: int
+    llm_size: int
+    encoder_name: str = ENCODER_MODULE_NAME
+
+    @property
+    def module_to_grid_map(self) -> dict[str, HyperCommGrid]:
+        """Return the MIMO module-to-grid mapping consumed by schedules and models."""
+        if self.encoder_grid is None:
+            return {MIMO_LANGUAGE_MODULE_KEY: self.llm_grid}
+        return {self.encoder_name: self.encoder_grid, MIMO_LANGUAGE_MODULE_KEY: self.llm_grid}
+
+    @property
+    def module_dependency_map(self) -> dict[str, list[str]]:
+        """Return the static encoder-to-language MIMO dependency graph."""
+        if self.encoder_grid is None:
+            return {MIMO_LANGUAGE_MODULE_KEY: []}
+        return {self.encoder_name: [MIMO_LANGUAGE_MODULE_KEY], MIMO_LANGUAGE_MODULE_KEY: []}
+
+    def destroy(self) -> None:
+        """Destroy all process groups owned by this topology."""
+        destroy_embedding_groups(self.language_embedding_groups)
+        if self.encoder_grid is not None:
+            self.encoder_grid.destroy()
+        self.llm_grid.destroy()
+        BridgeCommunicator.destroy_broadcast_pgs()
+
+
+def create_topology(args: argparse.Namespace, encoder_size: int, llm_size: int) -> HeteroTopology:
+    """Create all rank-global process groups in one deterministic order."""
+    encoder_grid = None
+    llm_grid = None
+    language_embedding_groups: Optional[LanguageEmbeddingGroups] = None
+    try:
+        if not args.llm_only:
+            debug_rank("creating encoder grid")
+            encoder_grid = create_hypercomm_grid(
+                offset=args.encoder_offset,
+                tp=args.encoder_tp,
+                cp=args.encoder_cp,
+                pp=args.encoder_pp,
+                dp=args.encoder_dp,
+                ep=args.encoder_ep,
+                expt_tp=args.encoder_expt_tp,
+                expt_dp=args.encoder_expt_dp,
+            )
+        debug_rank("creating language grid")
+        llm_grid = create_hypercomm_grid(
+            offset=args.llm_offset,
+            tp=args.llm_tp,
+            cp=args.llm_cp,
+            pp=args.llm_pp,
+            dp=args.llm_dp,
+            ep=args.llm_ep,
+            expt_tp=args.llm_expt_tp,
+            expt_dp=args.llm_expt_dp,
+        )
+        debug_rank("creating language embedding groups")
+        language_embedding_groups = create_language_embedding_groups(llm_grid)
+        debug_rank("language embedding groups ready")
+
+        language_pg = populate_language_embedding_groups(
+            get_pg_collection(llm_grid), language_embedding_groups
+        )
+        vision_pg = (
+            None
+            if encoder_grid is None
+            else clear_embedding_groups(get_pg_collection(encoder_grid))
+        )
+        schedule_pg_collection = build_schedule_pg_collection(
+            ENCODER_MODULE_NAME, encoder_grid, llm_grid, vision_pg, language_pg
+        )
+
+        return HeteroTopology(
+            encoder_grid=encoder_grid,
+            llm_grid=llm_grid,
+            language_pg=language_pg,
+            vision_pg=vision_pg,
+            schedule_pg_collection=schedule_pg_collection,
+            language_embedding_groups=language_embedding_groups,
+            encoder_size=encoder_size,
+            llm_size=llm_size,
+        )
+    except Exception:
+        if language_embedding_groups is not None:
+            destroy_embedding_groups(language_embedding_groups)
+        if encoder_grid is not None:
+            encoder_grid.destroy()
+        if llm_grid is not None:
+            llm_grid.destroy()
+        BridgeCommunicator.destroy_broadcast_pgs()
+        raise
+
+
+def create_hypercomm_grid(
+    offset: int,
+    tp: int,
+    cp: int,
+    pp: int,
+    dp: int,
+    ep: int,
+    expt_tp: Optional[int],
+    expt_dp: Optional[int],
+) -> HyperCommGrid:
+    """Create a dense grid plus expert layout and required process groups."""
+    expt_tp = tp if expt_tp is None else expt_tp
+    module_world_size = tp * cp * pp * dp
+    expert_model_size = expt_tp * ep * pp
+    if module_world_size % expert_model_size != 0:
+        raise ValueError(
+            f"module_world_size ({module_world_size}) must be divisible by "
+            f"expt_tp*ep*pp ({expert_model_size})"
+        )
+    if expt_dp is None:
+        expt_dp = module_world_size // expert_model_size
+    if expt_tp * ep * expt_dp * pp != module_world_size:
+        raise ValueError(
+            f"expt_tp*ep*expt_dp*pp ({expt_tp * ep * expt_dp * pp}) must equal "
+            f"module_world_size ({module_world_size})"
+        )
+
+    grid = HyperCommGrid(
+        shape=[tp, cp, dp, pp],
+        dim_names=["tp", "cp", "dp", "pp"],
+        rank_offset=offset,
+        backend="nccl",
+    )
+    grid.register_layout("expert", [expt_tp, ep, expt_dp, pp], ["expt_tp", "ep", "expt_dp", "pp"])
+
+    try:
+        for dims in (
+            ["tp"],
+            ["cp"],
+            ["pp"],
+            ["dp"],
+            ["dp", "cp"],
+            ["tp", "cp"],
+            ["ep"],
+            ["expt_tp"],
+            ["expt_dp"],
+            ["tp", "pp"],
+            ["tp", "cp", "dp"],
+            ["tp", "cp", "pp", "dp"],
+            ["expt_tp", "ep"],
+            ["expt_tp", "ep", "pp"],
+        ):
+            grid.create_pg(dims)
+    except Exception:
+        grid.destroy()
+        raise
+
+    return grid
+
+
+def get_pg_collection(grid: HyperCommGrid) -> ProcessGroupCollection:
+    """Build a ProcessGroupCollection from a populated HyperCommGrid."""
+    pg = ProcessGroupCollection()
+    pg.tp = grid.get_pg("tp")
+    pg.cp = grid.get_pg("cp")
+    pg.pp = grid.get_pg("pp")
+    pg.dp = grid.get_pg("dp")
+    pg.dp_cp = grid.get_pg(["dp", "cp"])
+    pg.intra_dp_cp = pg.dp_cp
+    pg.tp_cp = grid.get_pg(["tp", "cp"])
+    pg.mp = grid.get_pg(["tp", "pp"])
+    pg.tp_dp_cp = grid.get_pg(["tp", "dp", "cp"])
+    pg.ep = grid.get_pg("ep")
+    pg.expt_tp = grid.get_pg("expt_tp")
+    pg.expt_dp = grid.get_pg("expt_dp")
+    pg.intra_expt_dp = pg.expt_dp
+    pg.tp_ep = grid.get_pg(["expt_tp", "ep"])
+    pg.tp_ep_pp = grid.get_pg(["expt_tp", "ep", "pp"])
+    pg.intra_dist_opt = grid.get_pg(["tp", "cp", "dp", "pp"])
+    return pg
+
+
+def create_language_embedding_groups(grid: HyperCommGrid) -> LanguageEmbeddingGroups:
+    """Create language-model embedding groups keyed by PP rank tuple.
+
+    A language grid has one PP group per TP/CP/DP lane, so the rank tuple is the stable key used
+    to attach the matching first/last-stage embedding group to each ProcessGroupCollection.
+    """
+    embedding_groups: LanguageEmbeddingGroups = {}
+
+    try:
+        for pp_ranks in grid.get_rank_enum("pp"):
+            pp_rank_tuple = tuple(pp_ranks)
+            if pp_rank_tuple[0] == pp_rank_tuple[-1]:
+                embedding_groups[pp_rank_tuple] = None
+                continue
+
+            embd_pg = None
+            try:
+                embd_pg = dist.new_group(ranks=[pp_rank_tuple[0], pp_rank_tuple[-1]])
+                embedding_groups[pp_rank_tuple] = embd_pg
+            except Exception:
+                destroy_process_group_if_member(embd_pg)
+                raise
+    except Exception:
+        destroy_embedding_groups(embedding_groups)
+        raise
+
+    return embedding_groups
+
+
+def destroy_embedding_groups(embedding_groups: LanguageEmbeddingGroups) -> None:
+    """Destroy embedding process groups returned by create_language_embedding_groups."""
+    destroyed_embedding_pgs = set()
+    for embd_pg in embedding_groups.values():
+        if embd_pg is None or id(embd_pg) in destroyed_embedding_pgs:
+            continue
+        destroy_process_group_if_member(embd_pg)
+        destroyed_embedding_pgs.add(id(embd_pg))
+    embedding_groups.clear()
+
+
+def populate_language_embedding_groups(
+    pg_collection: ProcessGroupCollection,
+    embedding_groups: LanguageEmbeddingGroups,
+) -> ProcessGroupCollection:
+    """Populate language embedding fields required by finalize_model_grads."""
+    pg_collection.pos_embd = None
+    pg_collection.embd = None
+    if not is_process_group_member(getattr(pg_collection, "pp", None)):
+        return pg_collection
+
+    pp_ranks = tuple(dist.get_process_group_ranks(pg_collection.pp))
+    if is_pp_last_stage(pg_collection.pp) or is_pp_first_stage(pg_collection.pp):
+        pg_collection.embd = embedding_groups[pp_ranks]
+
+    return pg_collection
+
+
+def clear_embedding_groups(pg_collection: ProcessGroupCollection) -> ProcessGroupCollection:
+    """Populate embedding fields with None for modules that do not share embeddings."""
+    pg_collection.pos_embd = None
+    pg_collection.embd = None
+    return pg_collection
+
+
+def build_schedule_pg_collection(
+    encoder_name: str,
+    encoder_grid: Optional[HyperCommGrid],
+    llm_grid: HyperCommGrid,
+    vision_pg: Optional[ProcessGroupCollection],
+    language_pg: ProcessGroupCollection,
+) -> MultiModuleProcessGroupCollection:
+    """Build the schedule-facing process group collection for this rank."""
+    module_pgs = {}
+    language_model_module_name = None
+    if encoder_grid is not None and is_rank_in_grid(encoder_grid):
+        assert vision_pg is not None
+        module_pgs[encoder_name] = vision_pg
+    if is_rank_in_grid(llm_grid):
+        module_pgs[MIMO_LANGUAGE_MODULE_KEY] = language_pg
+        language_model_module_name = MIMO_LANGUAGE_MODULE_KEY
+
+    return MultiModuleProcessGroupCollection(
+        module_pgs=module_pgs, language_model_module_name=language_model_module_name
+    )
+
+
+def destroy_process_group_if_member(pg: Optional[dist.ProcessGroup]) -> None:
+    """Destroy pg when this rank owns a process-group handle."""
+    if is_process_group_member(pg):
+        dist.destroy_process_group(pg)
+
+
+def is_rank_in_grid(grid: HyperCommGrid) -> bool:
+    """Return whether this global rank is inside a grid's rank span."""
+    rank = dist.get_rank()
+    return grid.rank_offset <= rank < grid.rank_offset + grid.size
+
+
+def get_grid_coordinate(grid: HyperCommGrid, dim: str) -> int:
+    """Return this rank's coordinate for a base-layout dimension."""
+    if not is_rank_in_grid(grid):
+        return 0
+
+    local_rank = dist.get_rank() - grid.rank_offset
+    coordinates = {}
+    for dim_name, dim_size in zip(grid.dim_names, grid.shape):
+        coordinates[dim_name] = local_rank % dim_size
+        local_rank //= dim_size
+    return coordinates[dim]
diff --git a/examples/mimo/utils/hetero.py b/examples/mimo/utils/hetero.py
new file mode 100644
index 00000000000..3d3ea8ee409
--- /dev/null
+++ b/examples/mimo/utils/hetero.py
@@ -0,0 +1,43 @@
+# Copyright (c) 2026, NVIDIA CORPORATION. All rights reserved.
+
+"""Shared helpers for heterogeneous MIMO examples."""
+
+from __future__ import annotations
+
+import os
+import sys
+from typing import Optional
+
+import torch.distributed as dist
+
+from megatron.core.hyper_comm_grid import HyperCommGrid
+
+
+def debug_rank(message: str) -> None:
+    """Emit per-rank startup checkpoints when MIMO_HETERO_DEBUG is set."""
+    if os.environ.get("MIMO_HETERO_DEBUG"):
+        rank = dist.get_rank() if dist.is_initialized() else 0
+        sys.stderr.write(f"[rank {rank}] {message}\n")
+        sys.stderr.flush()
+
+
+def is_process_group_member(pg: Optional[dist.ProcessGroup]) -> bool:
+    """Return whether pg is a real process group for this rank."""
+    group_member = getattr(dist, "GroupMember", None)
+    non_member = getattr(group_member, "NON_GROUP_MEMBER", None)
+    return pg is not None and pg != non_member
+
+
+def get_grid_dim_size(grid: HyperCommGrid, dim: str) -> int:
+    """Return a base-layout dimension size."""
+    return grid.shape[grid.dim_names.index(dim)]
+
+
+def get_group_size_or(pg: Optional[dist.ProcessGroup], fallback: int) -> int:
+    """Return pg size on member ranks, otherwise fallback."""
+    return pg.size() if is_process_group_member(pg) else fallback
+
+
+def get_group_rank_or(pg: Optional[dist.ProcessGroup], fallback: int = 0) -> int:
+    """Return rank inside pg on member ranks, otherwise fallback."""
+    return dist.get_rank(pg) if is_process_group_member(pg) else fallback
diff --git a/examples/mimo/utils/model_helpers.py b/examples/mimo/utils/model_helpers.py
index 2872158a9f1..48e61ac92eb 100644
--- a/examples/mimo/utils/model_helpers.py
+++ b/examples/mimo/utils/model_helpers.py
@@ -1,31 +1,63 @@
-# Copyright (c) 2025, NVIDIA CORPORATION. All rights reserved.
-"""
-Utility helpers for mimo models.
+# Copyright (c) 2026, NVIDIA CORPORATION. All rights reserved.
+
+"""Helpers to load non-MIMO Nemotron VLM checkpoints into hetero MIMO models.
+
+Vision and language live on disjoint rank grids in hetero, so encoder ranks
+load only ``vision_model.*`` / ``vision_projection.*`` and LLM ranks load
+only ``language_model.*``.
 """
 
+from __future__ import annotations
+
+import os
+from typing import Any
+
 import torch
+
+from examples.mimo.utils.hetero import is_process_group_member
 from megatron.core import dist_checkpointing
+from megatron.core.dist_checkpointing.validation import StrictHandling
+
+
+def _resolve_ckpt_dir(ckpt_dir: str) -> str:
+    """Resolve a checkpoint path to the actual iteration directory.
+
+    If ``ckpt_dir`` contains ``latest_checkpointed_iteration.txt``, read it
+    and return the corresponding ``iter_NNNNNNN`` subdirectory. Otherwise
+    return ``ckpt_dir`` unchanged (assumed to already point at an iter dir).
+    """
+    tracker = os.path.join(ckpt_dir, "latest_checkpointed_iteration.txt")
+    if os.path.isfile(tracker):
+        with open(tracker) as f:
+            iteration = int(f.read().strip())
+        iter_dir = os.path.join(ckpt_dir, f"iter_{iteration:07d}")
+        if not os.path.isdir(iter_dir):
+            raise FileNotFoundError(
+                f"Checkpoint tracker points to iteration {iteration} but "
+                f"{iter_dir} does not exist"
+            )
+        return iter_dir
+    return ckpt_dir
 
 
 def load_submodule_ckpt(module: torch.nn.Module, ckpt_dir: str):
-    """Load *ckpt_dir* into *module* using Megatron distributed-checkpointing."""
+    """Load ``ckpt_dir`` into ``module`` using a flat ``module.*`` prefix.
 
-    # 1) Ask for tensors using a `module.` prefix so they match checkpoint keys.
+    Retained from the original POC; not used by the hetero loader below.
+    Kept so older inference scripts continue to import successfully.
+    """
     sharded_sd_with_prefix = module.sharded_state_dict(prefix="module.")
 
-    # Remove fp8 extra_state tensors – they may not exist in older checkpoints.
     for k in list(sharded_sd_with_prefix.keys()):
         if "extra_state" in k:
             del sharded_sd_with_prefix[k]
 
-    # 2) Wrap it under a root key just as in user snippet; this becomes the state
-    #    dict returned by `load` so we can easily strip the prefix afterwards.
-    wrapper_sd = dict(state_dict=sharded_sd_with_prefix)
+    wrapper_sd = {"state_dict": sharded_sd_with_prefix}
     loaded = dist_checkpointing.load(
         sharded_state_dict=wrapper_sd,
         checkpoint_dir=ckpt_dir,
+        strict=StrictHandling.LOG_UNEXPECTED,
     )
-    # 3) Remove the prefix and push into the module.
     cleaned = {k.removeprefix("module."): v for k, v in loaded["state_dict"].items()}
 
     incompatible = module.load_state_dict(cleaned, strict=False)
@@ -35,3 +67,284 @@ def load_submodule_ckpt(module: torch.nn.Module, ckpt_dir: str):
         raise RuntimeError(
             f"load_state_dict had unexpected mismatch. Missing: {missing}, Unexpected: {unexpected}"
         )
+
+
+def _load_submodule_from_ckpt(
+    module: torch.nn.Module,
+    ckpt_dir: str,
+    ckpt_prefix: str,
+    dp_cp_group=None,
+) -> tuple[int, int]:
+    """Load one submodule from ``ckpt_dir`` under ``ckpt_prefix``. Returns
+    ``(n_loaded, n_total)`` parameter-tensor counts. ``dp_cp_group`` must be
+    passed when ``parallel_state`` isn't initialized."""
+    metadata = {"dp_cp_group": dp_cp_group} if dp_cp_group is not None else None
+    sharded_sd = module.sharded_state_dict(prefix=ckpt_prefix, metadata=metadata)
+
+    for k in list(sharded_sd.keys()):
+        if "extra_state" in k:
+            del sharded_sd[k]
+
+    wrapper_sd = {"state_dict": sharded_sd}
+    loaded = dist_checkpointing.load(
+        sharded_state_dict=wrapper_sd,
+        checkpoint_dir=ckpt_dir,
+        strict=StrictHandling.LOG_UNEXPECTED,
+    )
+
+    cleaned = {k.removeprefix(ckpt_prefix): v for k, v in loaded["state_dict"].items()}
+
+    model_sd = module.state_dict()
+    shape_mismatches = []
+    for k, v in cleaned.items():
+        if k in model_sd and isinstance(v, torch.Tensor) and isinstance(model_sd[k], torch.Tensor):
+            if v.shape != model_sd[k].shape:
+                shape_mismatches.append(
+                    f"  {k}: ckpt={list(v.shape)} vs model={list(model_sd[k].shape)}"
+                )
+    if shape_mismatches:
+        raise RuntimeError(
+            f"Shape mismatches loading prefix '{ckpt_prefix}':\n" + "\n".join(shape_mismatches)
+        )
+
+    incompatible = module.load_state_dict(cleaned, strict=False)
+    unexpected = [k for k in incompatible.unexpected_keys if "extra_state" not in k]
+    missing = [k for k in incompatible.missing_keys if "extra_state" not in k]
+    if unexpected or missing:
+        raise RuntimeError(
+            f"load mismatch for prefix '{ckpt_prefix}'. "
+            f"Missing: {missing}, Unexpected: {unexpected}"
+        )
+
+    n_loaded = sum(1 for k in cleaned if k in model_sd and "extra_state" not in k)
+    n_total = sum(1 for k in model_sd if "extra_state" not in k)
+    return n_loaded, n_total
+
+
+def load_nemotron_vlm_ckpt_hetero(
+    mimo_model,
+    ckpt_dir: str,
+    encoder_name: str,
+    radio_encoder_key: str = "radio_encoder",
+    *,
+    has_encoder: bool,
+    has_language: bool,
+    language_dp_cp_group=None,
+    encoder_dp_cp_group=None,
+    skip_projection: bool = False,
+) -> None:
+    """Load a flat ``vision_model.* / vision_projection.* / language_model.*``
+    ckpt into a hetero MIMO model. Each rank loads only the submodules its
+    grid owns: encoder ranks load vision_model + vision_projection; LLM
+    ranks load language_model."""
+    ckpt_dir = _resolve_ckpt_dir(ckpt_dir)
+    rank = torch.distributed.get_rank() if torch.distributed.is_initialized() else 0
+    if rank == 0:
+        print(f"[load-nemotron-vlm-ckpt] resolved iter_dir: {ckpt_dir}", flush=True)
+
+    # Build a SINGLE combined sharded state dict containing all submodules
+    # this rank participates in. We then issue ONE `dist_checkpointing.load`
+    # call across all world ranks. This is required because mcore's
+    # `dist_checkpointing.load` internally does world-collectives — splitting
+    # the load into separate calls per grid deadlocks (encoder ranks finish
+    # and hit a world barrier while LLM ranks are still inside the load).
+    combined_sd: dict[str, Any] = {}
+    targets: list[tuple[torch.nn.Module, str, str]] = []
+
+    def _drill_through_ddp(mod):
+        """Unwrap DDP / Float16Module wrappers so we hit the raw nn.Module."""
+        try:
+            from megatron.core.distributed import DistributedDataParallel as _DDP
+        except Exception:  # pylint: disable=broad-except
+            _DDP = ()
+        seen = set()
+        while True:
+            inner = getattr(mod, "module", None)
+            if inner is None or id(inner) in seen:
+                return mod
+            seen.add(id(inner))
+            mod = inner
+
+    if has_language:
+        if not hasattr(mimo_model, "language_model") or mimo_model.language_model is None:
+            raise RuntimeError(
+                "has_language=True but mimo_model.language_model is None on this rank."
+            )
+        if language_dp_cp_group is None:
+            raise RuntimeError(
+                "has_language=True requires language_dp_cp_group (our hetero loop does "
+                "not initialize megatron.core.parallel_state)."
+            )
+        # After wrap_active_modules_with_ddp, mimo_model.language_model is a
+        # DistributedDataParallel wrapper; drill through to call
+        # sharded_state_dict on the raw model.
+        lm_raw = _drill_through_ddp(mimo_model.language_model)
+        lm_sd = lm_raw.sharded_state_dict(
+            prefix="language_model.", metadata={"dp_cp_group": language_dp_cp_group}
+        )
+        for k in list(lm_sd.keys()):
+            if "extra_state" in k:
+                del lm_sd[k]
+        combined_sd.update(lm_sd)
+        targets.append((lm_raw, "language_model.", "language_model"))
+
+    if has_encoder:
+        submodules = getattr(mimo_model, "modality_submodules", None)
+        if submodules is None or encoder_name not in submodules:
+            raise RuntimeError(
+                f"has_encoder=True but mimo_model.modality_submodules[{encoder_name!r}] missing."
+            )
+        # Same DDP-unwrap dance for the encoder-side submodule.
+        vision_submodule = _drill_through_ddp(submodules[encoder_name])
+        encoders = getattr(vision_submodule, "encoders", None)
+        if encoders is None or radio_encoder_key not in encoders:
+            raise RuntimeError(f"vision submodule missing encoders[{radio_encoder_key!r}].")
+        radio_wrapper = encoders[radio_encoder_key]
+        radio_model = getattr(radio_wrapper, "radio_model", None)
+        if radio_model is None:
+            raise RuntimeError(
+                f"encoders[{radio_encoder_key!r}].radio_model is None on this rank."
+            )
+        if encoder_dp_cp_group is None:
+            raise RuntimeError(
+                "has_encoder=True requires encoder_dp_cp_group (our hetero loop does "
+                "not initialize megatron.core.parallel_state)."
+            )
+        radio_sd = radio_model.sharded_state_dict(
+            prefix="vision_model.", metadata={"dp_cp_group": encoder_dp_cp_group}
+        )
+        for k in list(radio_sd.keys()):
+            if "extra_state" in k:
+                del radio_sd[k]
+        combined_sd.update(radio_sd)
+        targets.append(
+            (radio_model, "vision_model.", f"encoders.{radio_encoder_key}.radio_model")
+        )
+
+        if not skip_projection:
+            projectors = getattr(vision_submodule, "input_projections", None)
+            if projectors is None or len(projectors) == 0:
+                raise RuntimeError("vision submodule has no input_projections to load into.")
+            proj_sd = projectors[0].sharded_state_dict(
+                prefix="vision_projection.", metadata={"dp_cp_group": encoder_dp_cp_group}
+            )
+            for k in list(proj_sd.keys()):
+                if "extra_state" in k:
+                    del proj_sd[k]
+            combined_sd.update(proj_sd)
+            targets.append((projectors[0], "vision_projection.", "input_projections[0]"))
+
+    # Even ranks with no local targets (shouldn't happen in non-colocated
+    # hetero, but defensive) participate in the load so the world-collective
+    # has the full barrier population.
+    wrapper_sd = {"state_dict": combined_sd}
+    if rank == 0:
+        print(
+            f"[load-nemotron-vlm-ckpt] rank=0 combined_sd has {len(combined_sd)} keys "
+            f"across {len(targets)} target submodules",
+            flush=True,
+        )
+
+    # RETURN_ALL semantics (megatron/core/dist_checkpointing/validation.py:267-274):
+    #   third return = keys we requested but ckpt does NOT have
+    #                  (DANGEROUS — those tensors would silently keep their
+    #                  random-init values; PyTorch load_state_dict calls this
+    #                  set "missing" but mcore returns it as "unexpected").
+    # Weaker modes (LOG_UNEXPECTED, ASSUME_OK_UNEXPECTED) skip this check
+    # entirely. Raise loudly on any non-extra_state mismatch.
+    loaded, _ckpt_only_keys, request_only_keys = dist_checkpointing.load(
+        sharded_state_dict=wrapper_sd,
+        checkpoint_dir=ckpt_dir,
+        strict=StrictHandling.RETURN_ALL,
+    )
+    missing_in_ckpt = sorted(k for k in request_only_keys if "extra_state" not in k)
+    if missing_in_ckpt:
+        raise RuntimeError(
+            f"checkpoint is missing {len(missing_in_ckpt)} keys the model requested; "
+            f"these would silently keep random-init values. "
+            f"First 30: {missing_in_ckpt[:30]}"
+        )
+    loaded_sd = loaded.get("state_dict", {})
+
+    # Apply loaded tensors back to each submodule by stripping its checkpoint prefix.
+    for module, prefix, label in targets:
+        cleaned = {
+            k.removeprefix(prefix): v for k, v in loaded_sd.items() if k.startswith(prefix)
+        }
+        model_sd = module.state_dict()
+        shape_mismatches = []
+        for k, v in cleaned.items():
+            if (
+                k in model_sd
+                and isinstance(v, torch.Tensor)
+                and isinstance(model_sd[k], torch.Tensor)
+            ):
+                if v.shape != model_sd[k].shape:
+                    shape_mismatches.append(
+                        f"  {k}: ckpt={list(v.shape)} vs model={list(model_sd[k].shape)}"
+                    )
+        if shape_mismatches:
+            raise RuntimeError(
+                f"Shape mismatches for prefix '{prefix}':\n" + "\n".join(shape_mismatches)
+            )
+
+        incompatible = module.load_state_dict(cleaned, strict=False)
+        unexpected = [k for k in incompatible.unexpected_keys if "extra_state" not in k]
+        missing = [k for k in incompatible.missing_keys if "extra_state" not in k]
+        if unexpected or missing:
+            raise RuntimeError(
+                f"load mismatch for prefix '{prefix}'. Missing: {missing}, "
+                f"Unexpected: {unexpected}"
+            )
+
+        n_loaded = sum(1 for k in cleaned if k in model_sd and "extra_state" not in k)
+        n_total = sum(1 for k in model_sd if "extra_state" not in k)
+        if rank == 0 or has_encoder:
+            print(
+                f"[load-nemotron-vlm-ckpt] rank={rank} '{prefix}*' -> {label}"
+                f" ({n_loaded}/{n_total} param tensors)",
+                flush=True,
+            )
+
+
+def load_and_refresh_nemotron_checkpoint(model, optimizer, topology, args) -> None:
+    """Load a Nemotron-format ckpt into a hetero MIMO model and resync the
+    optimizer's FP32 main params. DistributedOptimizer is built before this
+    custom load runs, so its shards otherwise hold the model-provider init
+    weights; ``reload_model_params`` syncs them to the loaded weights."""
+    from examples.mimo.model_providers.nemotron_moe_vlm import NEMOTRON_VISION_ENCODER_KEY
+
+    if args.load:
+        raise ValueError(
+            "--load and --load-nemotron-checkpoint are mutually exclusive; pick one"
+        )
+
+    rank_in_llm = topology.language_pg is not None and is_process_group_member(
+        getattr(topology.language_pg, "dp_cp", None)
+    )
+    rank_in_enc = topology.vision_pg is not None and is_process_group_member(
+        getattr(topology.vision_pg, "dp_cp", None)
+    )
+    has_encoder = (
+        rank_in_enc
+        and topology.encoder_name in getattr(model, "modality_submodules", {})
+        and model.modality_submodules[topology.encoder_name] is not None
+    )
+    has_language = rank_in_llm and getattr(model, "language_model", None) is not None
+
+    load_nemotron_vlm_ckpt_hetero(
+        model,
+        args.load_nemotron_checkpoint,
+        encoder_name=topology.encoder_name,
+        radio_encoder_key=NEMOTRON_VISION_ENCODER_KEY,
+        has_encoder=has_encoder,
+        has_language=has_language,
+        language_dp_cp_group=(
+            getattr(topology.language_pg, "dp_cp", None) if has_language else None
+        ),
+        encoder_dp_cp_group=(
+            getattr(topology.vision_pg, "dp_cp", None) if has_encoder else None
+        ),
+        skip_projection=False,
+    )
+    optimizer.reload_model_params()
diff --git a/megatron/core/distributed/finalize_model_grads.py b/megatron/core/distributed/finalize_model_grads.py
index ca6bdd354ce..dff535a0809 100644
--- a/megatron/core/distributed/finalize_model_grads.py
+++ b/megatron/core/distributed/finalize_model_grads.py
@@ -290,7 +290,11 @@ def reset_model_temporary_tensors(config: TransformerConfig, model: List[torch.n
                 module.reset_global_aux_loss_tracker()
 
 
-def _update_router_expert_bias(model: List[torch.nn.Module], config: TransformerConfig):
+def _update_router_expert_bias(
+    model: List[torch.nn.Module],
+    config: TransformerConfig,
+    tp_dp_cp_group: Optional[torch.distributed.ProcessGroup] = None,
+):
     """
     Update the expert bias of the router for a global batch.
     This requires all-reduce of local_tokens_per_expert across TPxCPxDP ranks
@@ -312,7 +316,10 @@ def _update_router_expert_bias(model: List[torch.nn.Module], config: Transformer
     stacked_tokens_per_expert = torch.stack(tokens_per_expert_list, dim=0)
     stacked_expert_bias = torch.stack(expert_bias_list, dim=0)
     stacked_updated_expert_bias = get_updated_expert_bias(
-        stacked_tokens_per_expert, stacked_expert_bias, config.moe_router_bias_update_rate
+        stacked_tokens_per_expert,
+        stacked_expert_bias,
+        config.moe_router_bias_update_rate,
+        tp_dp_cp_group=tp_dp_cp_group,
     )
 
     for expert_bias, updated_expert_bias in zip(expert_bias_list, stacked_updated_expert_bias):
@@ -433,12 +440,16 @@ def finalize_model_grads(
         embd_group = pg_collection.embd
         pos_emb_group = pg_collection.pos_embd
         dp_cp_group = pg_collection.dp_cp
+        tp_dp_cp_group = getattr(pg_collection, 'tp_dp_cp', None)
     else:
         tp_group = parallel_state.get_tensor_model_parallel_group()
         pp_group = parallel_state.get_pipeline_model_parallel_group()
         embd_group = parallel_state.get_embedding_group(check_initialized=False)
         pos_emb_group = parallel_state.get_position_embedding_group(check_initialized=False)
         dp_cp_group = parallel_state.get_data_parallel_group(with_context_parallel=True)
+        tp_dp_cp_group = parallel_state.get_tensor_and_data_parallel_group(
+            with_context_parallel=True
+        )
 
     # All-reduce / reduce-scatter across DP replicas.
     if config.timers is not None:
@@ -478,7 +489,7 @@ def finalize_model_grads(
         config.timers('embedding-grads-all-reduce').stop()
 
     if config.moe_router_enable_expert_bias:
-        _update_router_expert_bias(model, config)
+        _update_router_expert_bias(model, config, tp_dp_cp_group=tp_dp_cp_group)
 
     reset_model_temporary_tensors(config, model)
 
diff --git a/megatron/core/hyper_comm_grid.py b/megatron/core/hyper_comm_grid.py
index 4b860396c4e..b745f52b75a 100644
--- a/megatron/core/hyper_comm_grid.py
+++ b/megatron/core/hyper_comm_grid.py
@@ -1,6 +1,7 @@
 # Copyright (c) 2025, NVIDIA CORPORATION. All rights reserved.
 
 import os
+from dataclasses import dataclass
 from operator import itemgetter
 from typing import Any, Optional, Tuple, Union
 
@@ -30,6 +31,19 @@
     HAVE_ABSL = False
 
 
+def _is_process_group_member(pg: Optional[dist.ProcessGroup]) -> bool:
+    """Return whether pg is a real process group for this rank."""
+    group_member = getattr(dist, "GroupMember", None)
+    non_member = getattr(group_member, "NON_GROUP_MEMBER", None)
+    return pg is not None and pg != non_member
+
+
+@dataclass
+class _GridLayout:
+    shape: list[int]
+    dim_names: list[str]
+
+
 class HyperCommGrid:
     r"""N-dimensional communication grid.
 
@@ -116,6 +130,52 @@ def __init__(
         self.dim_names = dim_names[:]
         self.backend = backend
         self._pgs: dict[str, dist.ProcessGroup] = {}
+        self._layouts: dict[str, _GridLayout] = {"base": _GridLayout(self.shape, self.dim_names)}
+
+    def register_layout(self, name: str, shape: list[int], dim_names: list[str]) -> None:
+        """Register an alternate rank layout over this grid's rank span.
+
+        Registered layouts are useful when the same module rank universe has
+        more than one valid factorization, such as dense
+        ``tp/cp/dp/pp`` groups and expert ``expt_tp/ep/expt_dp/pp``
+        groups. The original constructor remains a single Cartesian grid.
+
+        Args:
+            name: Unique name for the alternate layout.
+            shape: Shape of the alternate layout. Its product must equal the
+                base grid size.
+            dim_names: Dimension names for the alternate layout.
+        """
+        if name == "base":
+            raise ValueError("'base' is reserved for the default HyperCommGrid layout")
+        if name in self._layouts:
+            raise ValueError(f"Layout {name!r} is already registered")
+        if len(shape) != len(dim_names):
+            raise ValueError(f"len(shape) {shape} != len(dim_names) {dim_names}")
+        if len(set(dim_names)) != len(dim_names):
+            raise ValueError(f"Layout {name!r} has duplicate dim_names: {dim_names}")
+        if np.prod(shape) != self.size:
+            raise ValueError(
+                f"Layout {name!r} shape {shape} has size {np.prod(shape)}, "
+                f"but base grid size is {self.size}"
+            )
+
+        layout = _GridLayout(shape[:], dim_names[:])
+
+        for dim in set(dim_names).intersection(self.dim_names):
+            base_enum = self._gen_rank_enum_for_layout([dim], "base")
+            layout_enum = self._gen_rank_enum_for_layout([dim], None, layout)
+            if base_enum != layout_enum:
+                raise ValueError(
+                    f"Layout {name!r} dimension {dim!r} collides with the base layout "
+                    "but has different rank enumeration"
+                )
+
+        self._layouts[name] = layout
+
+    def has_layout(self, name: str) -> bool:
+        """Return whether a named layout is registered."""
+        return name in self._layouts
 
     def create_pg(self, dims: Union[str, list[str]], **kwargs: Any) -> dist.ProcessGroup | None:
         r"""Create a process group based on a list of dimension names
@@ -145,8 +205,8 @@ def create_pg(self, dims: Union[str, list[str]], **kwargs: Any) -> dist.ProcessG
         Raises:
             KeyError: If attempting to recreate a process group with an existing key.
         """
-        # ordered_dims and unique_group_key will follow the reversed order of self.dim_names
-        ordered_dims, unique_group_key = self._order_dims(dims)
+        # ordered_dims follows the reversed order of the owning layout's dim_names.
+        layout_name, ordered_dims, unique_group_key = self._resolve_dims(dims)
 
         if unique_group_key in self._pgs:
             raise KeyError(
@@ -155,10 +215,10 @@ def create_pg(self, dims: Union[str, list[str]], **kwargs: Any) -> dist.ProcessG
                 f"of returning the process group that has already been created before."
             )
 
-        rank_enum = self._gen_rank_enum(ordered_dims)
+        rank_enum = self._gen_rank_enum_for_layout(ordered_dims, layout_name)
         pg, _ = dist.new_subgroups_by_enumeration(rank_enum, backend=self.backend, **kwargs)
 
-        if dist.get_rank() == 0:
+        if dist.is_initialized() and dist.get_rank() == 0:
             logging.info(
                 f"Generated process group for {unique_group_key} with enumeration {rank_enum}"
             )
@@ -168,7 +228,7 @@ def create_pg(self, dims: Union[str, list[str]], **kwargs: Any) -> dist.ProcessG
     def destroy(self) -> None:
         """Destroy all process groups created by this grid."""
         for pg in self._pgs.values():
-            if pg is not None:
+            if _is_process_group_member(pg):
                 dist.destroy_process_group(pg)
         self._pgs.clear()
 
@@ -178,7 +238,7 @@ def get_pg(self, dims: Union[str, list[str]]) -> dist.ProcessGroup:
         Args:
             dims: Name of leading dimensions to create process group
         """
-        _, unique_group_key = self._order_dims(dims)
+        _, _, unique_group_key = self._resolve_dims(dims)
 
         if unique_group_key not in self._pgs:
             raise KeyError(
@@ -187,7 +247,9 @@ def get_pg(self, dims: Union[str, list[str]]) -> dist.ProcessGroup:
 
         return self._pgs[unique_group_key]
 
-    def get_rank_enum(self, dims: Union[str, list[str]]) -> list[list[int]]:
+    def get_rank_enum(
+        self, dims: Union[str, list[str]], layout_name: Optional[str] = None
+    ) -> list[list[int]]:
         r"""Get the rank enumeration for the requested dimension(s).
 
         This is the exact enumeration that would be used by create_pg for the same
@@ -196,14 +258,24 @@ def get_rank_enum(self, dims: Union[str, list[str]]) -> list[list[int]]:
 
         Args:
             dims: Dimension name or list of dimension names.
+            layout_name: Optional registered layout name. When unset, the
+                owning layout is inferred from dims.
 
         Returns:
             List of rank lists (one per subgroup).
         """
-        ordered_dims, _ = self._order_dims(dims)
-        return self._gen_rank_enum(ordered_dims)
+        if layout_name is None:
+            layout_name, ordered_dims, _ = self._resolve_dims(dims)
+        else:
+            ordered_dims, _ = self._order_dims_for_layout(dims, layout_name)
+        return self._gen_rank_enum_for_layout(ordered_dims, layout_name)
 
     def _gen_rank_enum(self, dims: list[str]) -> list[list[int]]:
+        return self._gen_rank_enum_for_layout(dims, "base")
+
+    def _gen_rank_enum_for_layout(
+        self, dims: list[str], layout_name: Optional[str], layout: Optional[_GridLayout] = None
+    ) -> list[list[int]]:
         r"""Generate rank enumeration before calling new_subgroups_by_enumeration
 
         This function returns ranks grouped by the specified dimensions, but in REVERSE order
@@ -229,9 +301,12 @@ def _gen_rank_enum(self, dims: list[str]) -> list[list[int]]:
             raise RuntimeError(
                 "einops is not installed. Please install it with `pip install einops`."
             )
+        if layout is None:
+            assert layout_name is not None
+            layout = self._layouts[layout_name]
 
         # Need to reverse order of dim_names to match MCore convention
-        dim_names_reverse = self.dim_names[::-1]
+        dim_names_reverse = layout.dim_names[::-1]
 
         remaining_dims = []
         for v in dim_names_reverse:
@@ -243,17 +318,33 @@ def _gen_rank_enum(self, dims: list[str]) -> list[list[int]]:
         )
         logging.debug(rearrange_str)
 
-        shape_dict = {d: s for d, s in zip(self.dim_names, self.shape)}
+        shape_dict = {d: s for d, s in zip(layout.dim_names, layout.shape)}
         return einops.rearrange(
             np.arange(self.rank_offset, self.rank_offset + self.size), rearrange_str, **shape_dict
         ).tolist()
 
     def _order_dims(self, dims: Union[str, list[str]]) -> Tuple[list[str], str]:
+        return self._order_dims_for_layout(dims, "base")
+
+    def _order_dims_for_layout(
+        self, dims: Union[str, list[str]], layout_name: str
+    ) -> Tuple[list[str], str]:
         r"""Reorder dims based on the order of self.dim_names"""
+        layout = self._layouts[layout_name]
         if not isinstance(dims, list):
+            if dims not in layout.dim_names:
+                raise ValueError(
+                    f"Dimension {dims!r} is not in layout {layout_name!r}: {layout.dim_names}"
+                )
             ordered_dims = [dims]
         else:
-            dim_names_reverse = self.dim_names[::-1]
+            dim_names_reverse = layout.dim_names[::-1]
+            missing_dims = [d for d in dims if d not in dim_names_reverse]
+            if missing_dims:
+                raise ValueError(
+                    f"Dimensions {missing_dims} are not in layout {layout_name!r}: "
+                    f"{layout.dim_names}"
+                )
             indices = sorted([dim_names_reverse.index(d) for d in dims])
             if len(indices) == 1:
                 ordered_dims = [dim_names_reverse[indices[0]]]
@@ -263,6 +354,31 @@ def _order_dims(self, dims: Union[str, list[str]]) -> Tuple[list[str], str]:
         unique_group_key = "-".join(ordered_dims)
         return ordered_dims, unique_group_key
 
+    def _resolve_dims(self, dims: Union[str, list[str]]) -> Tuple[str, list[str], str]:
+        raw_dims = [dims] if isinstance(dims, str) else dims
+
+        if all(dim in self.dim_names for dim in raw_dims):
+            ordered_dims, unique_group_key = self._order_dims_for_layout(raw_dims, "base")
+            return "base", ordered_dims, unique_group_key
+
+        candidate_layouts = [
+            name
+            for name, layout in self._layouts.items()
+            if name != "base" and all(dim in layout.dim_names for dim in raw_dims)
+        ]
+        if not candidate_layouts:
+            raise ValueError(
+                f"Dimensions {raw_dims} are not all present in a single registered layout"
+            )
+        if len(candidate_layouts) > 1:
+            raise ValueError(
+                f"Dimensions {raw_dims} match multiple registered layouts: {candidate_layouts}"
+            )
+
+        layout_name = candidate_layouts[0]
+        ordered_dims, unique_group_key = self._order_dims_for_layout(raw_dims, layout_name)
+        return layout_name, ordered_dims, unique_group_key
+
     def is_current_rank_in_grid(self) -> bool:
         """Check if the current rank belongs to this grid.
 
diff --git a/megatron/core/models/hybrid/hybrid_layer_allocation.py b/megatron/core/models/hybrid/hybrid_layer_allocation.py
index f1ba94ef7fa..67103fe67f1 100644
--- a/megatron/core/models/hybrid/hybrid_layer_allocation.py
+++ b/megatron/core/models/hybrid/hybrid_layer_allocation.py
@@ -333,6 +333,8 @@ def select_pipeline_segment(
     vp_stage: Optional[int],
     first_stage_layers: Optional[int] = None,
     last_stage_layers: Optional[int] = None,
+    tp_group: Optional[torch.distributed.ProcessGroup] = None,
+    dp_cp_group: Optional[torch.distributed.ProcessGroup] = None,
 ) -> Tuple[List[str], int]:
     """Select and validate the pipeline segment for the given PP rank and VP stage.
 
@@ -352,6 +354,8 @@ def select_pipeline_segment(
             uneven PP. Only valid when the pattern has no pipe separators.
         last_stage_layers: Number of layers on the last pipeline stage for
             uneven PP. Only valid when the pattern has no pipe separators.
+        tp_group: Optional tensor-parallel process group used for per-stage logging.
+        dp_cp_group: Optional data/context-parallel process group used for per-stage logging.
 
     Returns:
         Tuple of (layer_type_list, layer_offset) where layer_type_list is
@@ -445,6 +449,8 @@ def select_pipeline_segment(
             f"HybridModel: pp_rank={pp_rank}/{pp_size}, vp_stage={vp_stage}, "
             f"layers='{''.join(selected)}' ({len(selected)} layers), "
             f"layer_offset={offset} (auto-split)",
+            tp_group=tp_group,
+            dp_cp_group=dp_cp_group,
         )
         return selected, offset
 
@@ -479,6 +485,8 @@ def select_pipeline_segment(
         f"segment_index={segment_index}/{len(segments)}, "
         f"layers='{my_segment}' ({len(layer_type_list)} layers), "
         f"layer_offset={layer_offset}",
+        tp_group=tp_group,
+        dp_cp_group=dp_cp_group,
     )
 
     return layer_type_list, layer_offset
diff --git a/megatron/core/models/hybrid/hybrid_model.py b/megatron/core/models/hybrid/hybrid_model.py
index 4399c6984a7..8d781473526 100644
--- a/megatron/core/models/hybrid/hybrid_model.py
+++ b/megatron/core/models/hybrid/hybrid_model.py
@@ -186,12 +186,23 @@ def __init__(
         self.mtp_pattern = parsed.mtp_pattern
         self.mtp_num_depths = parsed.mtp_num_depths
 
+        logging_pg_kwargs = {}
+        if (
+            getattr(self.pg_collection, 'tp', None) is not None
+            and getattr(self.pg_collection, 'dp_cp', None) is not None
+        ):
+            logging_pg_kwargs = {
+                'tp_group': self.pg_collection.tp,
+                'dp_cp_group': self.pg_collection.dp_cp,
+            }
+
         layer_type_list, layer_offset = select_pipeline_segment(
             parsed.main_pattern or '',
             self.pg_collection.pp,
             vp_stage,
             first_stage_layers=self.config.num_layers_in_first_pipeline_stage,
             last_stage_layers=self.config.num_layers_in_last_pipeline_stage,
+            **logging_pg_kwargs,
         )
 
         # Determine if MTP is needed (based on pattern parsing)
diff --git a/megatron/core/models/mimo/model/base.py b/megatron/core/models/mimo/model/base.py
index bdfe4289dd0..9bbaf61e9ce 100644
--- a/megatron/core/models/mimo/model/base.py
+++ b/megatron/core/models/mimo/model/base.py
@@ -2,7 +2,7 @@
 
 import logging
 import warnings
-from typing import Any, Dict, Optional
+from typing import Any, Dict, Optional, Tuple
 
 import torch
 
@@ -78,7 +78,9 @@ def __init__(self, mimo_config: MimoModelConfig, cp_group=None, tp_group=None) -
 
         self.partition_adapter: Optional[PartitionAdapter] = None
         # Create partition adapter only if parallelism is enabled
-        if language_config.context_parallel_size > 1 or language_config.sequence_parallel:
+        if self.role.has_language_module and (
+            language_config.context_parallel_size > 1 or language_config.sequence_parallel
+        ):
             partition_config = PartitionConfig.from_mp_config(
                 mp=language_config,
                 max_seq_len=max_seq_len,
@@ -150,7 +152,7 @@ def align_embeddings_by_token_positions(
             special_token_ids: Dictionary mapping modality names to their special token IDs
 
         Returns:
-            Combined embeddings tensor. Shape: (S, B, H)
+            Combined embeddings tensor. Shape: (B, S, H)
         """
         # Ensure we have at least one modality
         if not modality_embeddings:
@@ -168,7 +170,7 @@ def align_embeddings_by_token_positions(
 
         batch_size, seq_length = input_ids.size()  # input_ids is [B, S]
         logger.debug(
-            f"Combined output tensor will have shape: [{seq_length}, {batch_size}, {hidden_dim}]"
+            f"Combined output tensor will have shape: [{batch_size}, {seq_length}, {hidden_dim}]"
         )
 
         combined_embeddings = torch.zeros(
@@ -197,7 +199,7 @@ def align_embeddings_by_token_positions(
             expanded_mask = mask.unsqueeze(-1).expand_as(combined_embeddings)
             combined_embeddings.masked_scatter_(expanded_mask, modality_emb.flatten())
 
-        return combined_embeddings.transpose(0, 1).contiguous()  # [S, B, H]
+        return combined_embeddings
 
     def _initialize_submodules(self) -> None:
         """Initialize modality submodules from the ModuleSpec configurations.
@@ -302,10 +304,23 @@ def get_text_embeddings(
             position_ids[batch_idx, seq_idx].unsqueeze(0) if position_ids is not None else None
         )
 
-        text_embeddings = (
-            unwrap_model(self.language_model)
-            .embedding(input_ids=input_ids_text, position_ids=position_ids_text)
-            .squeeze(1)
+        language_model = unwrap_model(self.language_model)
+        embedding_layer = language_model.embedding
+        if (
+            self.partition_adapter is not None
+            and self.partition_adapter.cfg.seq_parallel
+            and getattr(embedding_layer, 'scatter_to_sequence_parallel', False)
+        ):
+            raise RuntimeError(
+                "MIMO sequence parallelism requires language embedding scatter to be disabled; "
+                "pass scatter_embedding_sequence_parallel=False when constructing the "
+                "language model"
+            )
+
+        text_embeddings = embedding_layer(
+            input_ids=input_ids_text, position_ids=position_ids_text
+        ).squeeze(
+            1
         )  # Shape: [num_text_tokens, hidden_dim]
         return text_embeddings
 
@@ -374,14 +389,17 @@ def forward(
 
         if self.role.mode == ModuleLayout.NON_COLOCATED:
             if self.role.has_modality_modules:
-                return self._forward_encoders(modality_inputs, input_tensors), loss_mask
+                return self._forward_encoders(input_ids, modality_inputs, input_tensors), loss_mask
 
             if self.role.has_language_module:
-                return (
-                    self._forward_language_module(
-                        input_ids, position_ids, attention_mask, labels, input_tensors
-                    ),
+                return self._forward_language_module(
+                    input_ids,
+                    position_ids,
+                    attention_mask,
                     loss_mask,
+                    labels,
+                    input_tensors,
+                    packing_kwargs,
                 )
 
             raise RuntimeError(f"Rank has no modules assigned in role: {self.role}")
@@ -390,6 +408,7 @@ def forward(
 
     def _forward_encoders(
         self,
+        input_ids: Optional[torch.Tensor],
         modality_inputs: Optional[Dict[str, Dict[str, Any]]],
         input_tensors: Optional[Dict[str, torch.Tensor]],
     ) -> Dict[str, torch.Tensor]:
@@ -409,37 +428,85 @@ def _forward_encoders(
                 continue
 
             submodule = self.modality_submodules[encoder_name]
-            output = submodule.forward(
-                encoder_inputs=modality_inputs.get(encoder_name) if modality_inputs else None,
-                hidden_states=input_tensors.get(encoder_name) if input_tensors else None,
-            )
+            encoder_inputs = modality_inputs.get(encoder_name) if modality_inputs else None
+            hidden_states = input_tensors.get(encoder_name) if input_tensors else None
+            output = submodule.forward(encoder_inputs=encoder_inputs, hidden_states=hidden_states)
+            if output is None and encoder_inputs is None and hidden_states is None:
+                if self._has_encoder_tokens(input_ids, encoder_name):
+                    raise RuntimeError(
+                        f"{encoder_name} inputs are missing, but matching special tokens exist"
+                    )
+                output = self._empty_encoder_output(submodule, input_ids)
 
             if output is not None:
+                self._attach_modality_split_sizes(output, input_ids, encoder_name)
                 outputs[encoder_name] = output
 
         return outputs
 
+    def _attach_modality_split_sizes(
+        self, output: torch.Tensor, input_ids: Optional[torch.Tensor], encoder_name: str
+    ) -> None:
+        """Annotate flat modality outputs with per-sample split sizes for bridge fan-out."""
+        token_id = self.special_token_ids.get(encoder_name)
+        if token_id is None or input_ids is None or output.ndim != 2 or input_ids.size(0) <= 1:
+            return
+
+        split_sizes = (input_ids == token_id).sum(dim=1).to(torch.long).tolist()
+        if sum(split_sizes) == output.size(0):
+            output._mimo_bridge_split_sizes = split_sizes
+
+    def _has_encoder_tokens(self, input_ids: Optional[torch.Tensor], encoder_name: str) -> bool:
+        """Return whether the batch contains tokens for an encoder module."""
+        if input_ids is None or encoder_name not in self.special_token_ids:
+            return False
+        return bool((input_ids == self.special_token_ids[encoder_name]).any().item())
+
+    def _empty_encoder_output(
+        self, submodule: torch.nn.Module, input_ids: Optional[torch.Tensor]
+    ) -> torch.Tensor:
+        """Return the bridge payload for text-only non-colocated batches."""
+        param = next(submodule.parameters(), None)
+        reference = param if param is not None else input_ids
+        device = (
+            reference.device
+            if reference is not None
+            else torch.device("cuda" if torch.cuda.is_available() else "cpu")
+        )
+        dtype = param.dtype if param is not None else self.config.params_dtype or torch.float32
+
+        # The bridge schedule communicates every module edge each microbatch.
+        # For a text-only batch, send shape [0, H] so the LLM receives no
+        # modality embeddings without changing the communication schedule.
+        return torch.empty(
+            (0, self.config.hidden_size), device=device, dtype=dtype, requires_grad=True
+        )
+
     def _forward_language_module(
         self,
         input_ids: torch.Tensor,
         position_ids: Optional[torch.Tensor],
         attention_mask: Optional[torch.Tensor],
+        loss_mask: Optional[torch.Tensor],
         labels: Optional[torch.Tensor],
         input_tensors: Optional[Dict[str, torch.Tensor]],
-    ) -> torch.Tensor:
+        packing_kwargs: Optional[dict] = None,
+    ) -> Tuple[Any, Optional[torch.Tensor]]:
         """Forward pass for language module on this rank.
 
         Args:
             input_ids: Token IDs
             position_ids: Position IDs
             attention_mask: Attention mask
+            loss_mask: Loss mask for per-token loss normalization
             labels: Labels for loss computation
             input_tensors: Hidden states or embeddings from previous stage
 
         Returns:
-            Language model output (hidden states, logits, or loss depending on stage)
+            Tuple of language model output and the matching, possibly sharded loss mask.
         """
         lang_name = MIMO_LANGUAGE_MODULE_KEY
+        packed_seq_params = self._build_packed_seq_params(packing_kwargs)
 
         if self.role.is_first_stage(lang_name):
             # First stage: receive encoder embeddings, combine with text, pass to LM
@@ -463,17 +530,36 @@ def _forward_language_module(
                 special_token_ids=self.special_token_ids,
             )
 
+            combined_embeddings, labels, loss_mask, packed_seq_params = (
+                self._prepare_language_inputs(
+                    embeddings=combined_embeddings,
+                    labels=labels,
+                    loss_mask=loss_mask,
+                    packed_seq_params=packed_seq_params,
+                    shard_loss_inputs=self.role.is_last_stage(lang_name),
+                )
+            )
+
             lm_output = self.language_model(
                 input_ids=None,
                 position_ids=None,
                 decoder_input=combined_embeddings,
                 labels=labels,
                 attention_mask=attention_mask,
+                packed_seq_params=packed_seq_params,
             )
         else:
             # Non-first stage: receive hidden states from previous LM stage
             hidden_states = input_tensors.get(lang_name) if input_tensors else None
 
+            _, labels, loss_mask, packed_seq_params = self._prepare_language_inputs(
+                embeddings=None,
+                labels=labels,
+                loss_mask=loss_mask,
+                packed_seq_params=packed_seq_params,
+                shard_loss_inputs=self.role.is_last_stage(lang_name),
+            )
+
             # Set input tensor on language model for PP (unwrap DDP to reach GPTModel)
             if hidden_states is not None:
                 underlying_lm = unwrap_model(self.language_model)
@@ -486,13 +572,52 @@ def _forward_language_module(
                 decoder_input=None,
                 labels=labels,
                 attention_mask=attention_mask,
+                packed_seq_params=packed_seq_params,
             )
 
         # Key output for non-last stages so schedule can route to next LM stage
         if not self.role.is_last_stage(lang_name):
-            return {lang_name: lm_output}
+            return {lang_name: lm_output}, loss_mask
 
-        return lm_output
+        return lm_output, loss_mask
+
+    @staticmethod
+    def _build_packed_seq_params(packing_kwargs: Optional[dict]) -> Optional[PackedSeqParams]:
+        """Build packed-sequence params from dataloader-provided metadata."""
+        if packing_kwargs is None:
+            return None
+        if isinstance(packing_kwargs, PackedSeqParams):
+            return packing_kwargs
+        packed_seq_params = PackedSeqParams(**packing_kwargs)
+        logger.debug(f"Packed sequence parameters: {packed_seq_params}")
+        return packed_seq_params
+
+    def _prepare_language_inputs(
+        self,
+        embeddings: Optional[torch.Tensor],
+        labels: Optional[torch.Tensor],
+        loss_mask: Optional[torch.Tensor],
+        packed_seq_params: Optional[PackedSeqParams],
+        *,
+        shard_loss_inputs: bool,
+    ) -> Tuple[
+        Optional[torch.Tensor],
+        Optional[torch.Tensor],
+        Optional[torch.Tensor],
+        Optional[PackedSeqParams],
+    ]:
+        """Return LM-layout embeddings and matching loss tensors."""
+        if self.partition_adapter is None:
+            if embeddings is not None:
+                embeddings = embeddings.transpose(0, 1).contiguous()
+            return embeddings, labels, loss_mask, packed_seq_params
+
+        return self.partition_adapter.shard(
+            embeddings=embeddings,
+            labels=labels if shard_loss_inputs else None,
+            loss_mask=loss_mask if shard_loss_inputs else None,
+            packed_seq_params=packed_seq_params,
+        )
 
     def _build_colocated_communicators(self):
         grid_map = self.mimo_config.module_to_grid_map
@@ -549,16 +674,7 @@ def _forward_all_modules(
 
         This is the original behavior, preserved for backward compatibility.
         """
-        # If packing_kwargs is provided, construct PackedSeqParams
-        packed_seq_params = None
-        if packing_kwargs is not None:
-            # Ensure correct dtype for seqlens tensors
-            for key in packing_kwargs:
-                if 'cu_seqlens' in key and packing_kwargs[key] is not None:
-                    packing_kwargs[key] = packing_kwargs[key].to(dtype=torch.int32)
-            packed_seq_params = PackedSeqParams(**packing_kwargs)
-            packed_seq_params.qkv_format = 'thd'
-            logger.debug(f"Packed sequence parameters: {packed_seq_params}")
+        packed_seq_params = self._build_packed_seq_params(packing_kwargs)
 
         # 1. Process each modality to get embeddings
         modality_embeddings = {}
@@ -597,24 +713,13 @@ def _forward_all_modules(
         logger.debug(f"Combined embeddings shape: {combined_embeddings.shape}")
 
         # 3. If sharding is needed, apply PartitionAdapter.
-        # combined_embeddings is [S, B, H]; transpose to [B, S, H] for shard() which expects
-        # batch-first layout (required by get_batch_on_this_cp_rank). After CP sharding each
-        # rank holds [B, S/cp, H]; transpose back to [S/cp, B, H] for the language model.
-        if self.partition_adapter is not None:
-            combined_embeddings = combined_embeddings.transpose(0, 1).contiguous()  # [B, S, H]
-            combined_embeddings, labels, loss_mask, _, packed_seq_params = (
-                self.partition_adapter.shard(
-                    embeddings=combined_embeddings,
-                    labels=labels,
-                    loss_mask=loss_mask,
-                    attention_mask=attention_mask,
-                    packed_seq_params=packed_seq_params,
-                )
-            )
-            # shard() returns embeddings in [B, S/cp, H]; transpose to [S/cp, B, H]
-            # which is what the language model expects.
-            if combined_embeddings is not None:
-                combined_embeddings = combined_embeddings.transpose(0, 1).contiguous()
+        combined_embeddings, labels, loss_mask, packed_seq_params = self._prepare_language_inputs(
+            embeddings=combined_embeddings,
+            labels=labels,
+            loss_mask=loss_mask,
+            packed_seq_params=packed_seq_params,
+            shard_loss_inputs=True,
+        )
 
         # 5. Forward pass through language model
         lm_output = self.language_model(
@@ -622,7 +727,7 @@ def _forward_all_modules(
             position_ids=None,
             decoder_input=combined_embeddings,
             labels=labels,
-            attention_mask=None,
+            attention_mask=attention_mask,
             packed_seq_params=packed_seq_params,
         )
 
diff --git a/megatron/core/models/mimo/optimizer.py b/megatron/core/models/mimo/optimizer.py
index 1a79c1f91ff..054f9677dd3 100644
--- a/megatron/core/models/mimo/optimizer.py
+++ b/megatron/core/models/mimo/optimizer.py
@@ -2,6 +2,8 @@
 
 """Optimizer for MIMO models with heterogeneous parallelism."""
 
+# pylint: disable=missing-function-docstring
+
 from __future__ import annotations
 
 from copy import deepcopy
@@ -11,6 +13,7 @@
 import torch
 
 from megatron.core.dist_checkpointing.mapping import ShardedObject
+from megatron.core.dist_checkpointing.utils import add_prefix_for_sharding
 from megatron.core.optimizer.clip_grads import clip_grad_by_total_norm_fp32
 from megatron.core.optimizer.optimizer import MegatronOptimizer
 from megatron.core.optimizer.optimizer_config import OptimizerConfig
@@ -119,7 +122,15 @@ def get_loss_scale(self) -> torch.Tensor:
         return torch.tensor([1.0], dtype=torch.float32, device="cuda")
 
     def count_zeros(self) -> int:
-        return sum(opt.count_zeros() for opt in self._active_optimizers)
+        num_modules = len(self.module_infos)
+        zeros_by_module = torch.zeros(num_modules, device="cuda", dtype=torch.float32)
+
+        for i, (name, info) in enumerate(sorted(self.module_infos.items())):
+            if info.is_active and info.optimizer:
+                zeros_by_module[i] = float(info.optimizer.count_zeros())
+
+        torch.distributed.all_reduce(zeros_by_module, op=torch.distributed.ReduceOp.MAX)
+        return int(zeros_by_module.sum().item())
 
     @property
     def param_groups(self) -> List[dict]:
@@ -140,9 +151,9 @@ def state_dict(self):
     def load_state_dict(self, state_dict: Dict):
         """Load per-module optimizer state dicts.
 
-        Reassembles param_groups and grad_scaler that were extracted and saved
-        as ShardedObjects by sharded_state_dict(), then delegates to each
-        per-module optimizer's load_state_dict.
+        Reassembles param_groups, grad_scaler, and param_state_sharding_type
+        that were extracted and saved as ShardedObjects by sharded_state_dict(),
+        then delegates to each per-module optimizer's load_state_dict.
         """
         for name, info in self.module_infos.items():
             if not (info.is_active and info.optimizer):
@@ -153,14 +164,16 @@ def load_state_dict(self, state_dict: Dict):
 
             for sub_sd, inner_opt in _iter_optimizer_sub_dicts(module_sd, info.optimizer):
                 _restore_param_groups(sub_sd, inner_opt, name)
+                _restore_param_state_sharding_type(sub_sd)
                 _restore_grad_scaler(sub_sd)
 
             info.optimizer.load_state_dict(module_sd)
 
     def sharded_state_dict(self, model_sharded_state_dict, is_loading: bool = False, **kwargs):
-        """Build sharded state dict, routing param_groups and grad_scaler
-        through distributed save as ShardedObjects (common.pt is rank-0 only,
-        which misses LLM optimizer state in non-colocated mode).
+        """Build sharded state dict, routing param_groups, grad_scaler, and
+        param_state_sharding_type through distributed save as ShardedObjects
+        (common.pt is rank-0 only, which misses non-colocated LLM optimizer
+        state).
         """
         sharded_state = {}
         for name, info in self.module_infos.items():
@@ -175,8 +188,14 @@ def sharded_state_dict(self, model_sharded_state_dict, is_loading: bool = False,
                 ):
                     suffix = f'.{idx}' if idx > 0 else ''
                     _extract_param_groups(sub_sd, name, suffix, replica_id)
+                    _extract_param_state_sharding_type(sub_sd, name, suffix, replica_id)
                     _extract_grad_scaler(sub_sd, name, suffix, replica_id)
 
+                # Namespace every internal ShardedBase key with the submodule name
+                # so two module optimizers (e.g. 'language' + 'images') don't collide
+                # on identical inner keys like 'chained_0.optimizer.distributed.*'.
+                add_prefix_for_sharding(module_sd, f'mimo.{name}.')
+
                 sharded_state[name] = module_sd
             else:
                 sharded_state[name] = {}
@@ -218,6 +237,14 @@ def _extract_param_groups(sub_sd, module_name, suffix, replica_id):
             replica_id=replica_id,
         )
         del opt_sub['param_groups']
+        # Drop the now-empty `optimizer` wrapper. If we left it in place, the
+        # empty dict would round-trip through dist_checkpointing's common-state
+        # path with no defined behavior on the load side; explicitly removing
+        # it pairs with the `setdefault` in `_restore_param_groups` so the load
+        # path always rebuilds a clean wrapper. Pattern from
+        # https://github.com/NVIDIA/Megatron-LM/pull/4791.
+        if not opt_sub:
+            del sub_sd['optimizer']
 
 
 def _extract_grad_scaler(sub_sd, module_name, suffix, replica_id):
@@ -232,6 +259,25 @@ def _extract_grad_scaler(sub_sd, module_name, suffix, replica_id):
         )
 
 
+def _extract_param_state_sharding_type(sub_sd, module_name, suffix, replica_id):
+    """Save: extract param_state_sharding_type into a ShardedObject.
+
+    Plain non-tensor scalars at the per-module level otherwise travel through
+    dist_checkpointing's common-state path (rank 0 only), so for non-colocated
+    MIMO they are lost on ranks whose module is inactive on rank 0.
+    `DistributedOptimizer.load_state_dict` asserts on the missing key, so it
+    must round-trip explicitly. Pattern from NVIDIA/Megatron-LM#4791.
+    """
+    if 'param_state_sharding_type' in sub_sd:
+        sub_sd[f'_mimo_param_state_sharding_type{suffix}'] = ShardedObject(
+            f'optimizer.mimo.{module_name}{suffix}.param_state_sharding_type',
+            sub_sd.pop('param_state_sharding_type'),
+            (1,),
+            (0,),
+            replica_id=replica_id,
+        )
+
+
 def _restore_param_groups(sub_sd, inner_optimizer, module_name):
     """Load: restore param_groups with current param IDs from the inner optimizer."""
     # Find the _mimo_param_groups key (may have a suffix for chained optimizers)
@@ -253,7 +299,14 @@ def _restore_param_groups(sub_sd, inner_optimizer, module_name):
         )
     for loaded_g, current_g in zip(loaded_pg, current_pg):
         loaded_g['params'] = current_g['params']
-    sub_sd['optimizer']['param_groups'] = loaded_pg
+    # `sub_sd['optimizer']` may be absent on load: when the per-module state_dict
+    # produced by `DistributedOptimizer.state_dict()` only contains
+    # `param_groups` under the 'optimizer' key, `_extract_param_groups` deletes
+    # `param_groups` at save time, and the resulting empty dict can be dropped
+    # by dist_checkpointing's common-state round-trip on ranks whose active
+    # module wasn't on rank 0. `setdefault` lets the restored `param_groups`
+    # land in the right place regardless. Pattern from NVIDIA/Megatron-LM#4801.
+    sub_sd.setdefault('optimizer', {})['param_groups'] = loaded_pg
 
 
 def _restore_grad_scaler(sub_sd):
@@ -264,20 +317,59 @@ def _restore_grad_scaler(sub_sd):
             break
 
 
+def _restore_param_state_sharding_type(sub_sd):
+    """Load: restore param_state_sharding_type from its ShardedObject key."""
+    for k in list(sub_sd.keys()):
+        if k.startswith('_mimo_param_state_sharding_type'):
+            sub_sd['param_state_sharding_type'] = sub_sd.pop(k)
+            break
+
+
 def _get_replica_id(pg_collection: Optional[ProcessGroupCollection]) -> tuple:
     """Build replica_id tuple for ShardedObject deduplication.
 
-    Includes pp_rank so only one PP stage writes the metadata,
-    and dp_rank so only dp_rank=0 writes (others are replicas).
+    Returns ``(tp_rank, pp_rank, dp_rank)`` so only ``(0, 0, 0)`` within each
+    module's parallelism group is the main replica; all other ranks in the same
+    module are non-main replicas of the same object. Order matches
+    `make_sharded_object_for_checkpoint` in
+    `megatron/core/transformer/utils.py:168-172` and NVIDIA/Megatron-LM#4801.
     """
     assert pg_collection is not None, "pg_collection required for checkpoint replica_id"
+    assert (
+        hasattr(pg_collection, 'tp') and pg_collection.tp is not None
+    ), "pg_collection.tp must be set for checkpoint deduplication"
     assert (
         hasattr(pg_collection, 'pp') and pg_collection.pp is not None
     ), "pg_collection.pp must be set for checkpoint deduplication"
     assert (
         hasattr(pg_collection, 'dp') and pg_collection.dp is not None
     ), "pg_collection.dp must be set for checkpoint deduplication"
-    return (0, pg_collection.pp.rank(), pg_collection.dp.rank())
+    return (pg_collection.tp.rank(), pg_collection.pp.rank(), pg_collection.dp.rank())
+
+
+def _module_has_trainable_parameters(module) -> bool:
+    """Return whether this rank owns any trainable parameters for a module."""
+    return module is not None and any(param.requires_grad for param in module.parameters())
+
+
+def _module_has_any_trainable_parameters(module, pg_collection: ProcessGroupCollection) -> bool:
+    """Return whether any rank in the module optimizer group has trainable parameters.
+
+    Without this cross-rank check, `get_mimo_optimizer` would call
+    `get_megatron_optimizer` on a module whose params are all frozen on every
+    rank (e.g. the language model under stage1 = ``--freeze-vit --freeze-lm``),
+    producing a placeholder optimizer that breaks downstream setup. Pattern
+    from NVIDIA/Megatron-LM#4790.
+    """
+    local_has_params = torch.tensor(
+        [int(_module_has_trainable_parameters(module))],
+        device=torch.cuda.current_device(),
+        dtype=torch.int,
+    )
+    torch.distributed.all_reduce(
+        local_has_params, op=torch.distributed.ReduceOp.MAX, group=pg_collection.intra_dist_opt
+    )
+    return bool(local_has_params.item())
 
 
 def _get_pg_collection_for_optimizer(grid) -> ProcessGroupCollection:
@@ -285,49 +377,18 @@ def _get_pg_collection_for_optimizer(grid) -> ProcessGroupCollection:
 
     Only fetches process groups required by the optimizer. Assumes all groups
     are pre-created in the grid via grid.create_pg() - does not create any new groups.
-
-    The following groups must be pre-created in the grid before calling this function:
-        grid.create_pg(["dp"])
-        grid.create_pg(["dp", "cp"])
-        grid.create_pg(["tp"])
-        grid.create_pg(["pp"])
-        grid.create_pg(["tp", "pp"])
-        grid.create_pg(["tp", "ep", "pp"])
-        grid.create_pg(["dp", "ep"])
-        grid.create_pg(["tp", "cp", "ep", "pp", "dp"])
-
-    Args:
-        grid: HyperCommGrid with pre-created process groups.
-
-    Returns:
-        ProcessGroupCollection containing optimizer-required groups:
-        - dp: Data parallel group
-        - dp_cp: Data parallel with context parallel
-        - tp: Tensor parallel group
-        - mp: Model parallel group (tp × pp)
-        - tp_ep_pp: Expert tensor-model-pipeline group
-        - expt_dp: Expert data parallel group
     """
     pg = ProcessGroupCollection()
-
-    # Core groups needed by optimizer and checkpointing
     pg.dp = grid.get_pg("dp")
     pg.dp_cp = grid.get_pg(["dp", "cp"])
+    pg.intra_dp_cp = pg.dp_cp
     pg.tp = grid.get_pg("tp")
     pg.pp = grid.get_pg("pp")
     pg.mp = grid.get_pg(["tp", "pp"])
-
-    # Expert groups
-    pg.tp_ep_pp = grid.get_pg(["tp", "ep", "pp"])
-    pg.expt_dp = grid.get_pg(["dp", "ep"])
-
-    # Distributed optimizer grad stats group: must span all dimensions so grad norm
-    # and found-inf all-reduces see every unique gradient shard. TP/PP/EP ranks hold
-    # different parameters, DP ranks hold different optimizer shards after reduce-scatter.
-    # This mirrors standard Megatron's intra_distributed_optimizer_instance_group which
-    # spans the full world when num_distributed_optimizer_instances == 1.
-    pg.intra_dist_opt = grid.get_pg(["tp", "cp", "ep", "pp", "dp"])
-
+    pg.tp_ep_pp = grid.get_pg(["expt_tp", "ep", "pp"])
+    pg.expt_dp = grid.get_pg("expt_dp")
+    pg.intra_expt_dp = pg.expt_dp
+    pg.intra_dist_opt = grid.get_pg(["tp", "cp", "dp", "pp"])
     return pg
 
 
@@ -354,7 +415,16 @@ def get_mimo_optimizer(mimo_model: "MimoModel", config: OptimizerConfig) -> Mimo
             else:
                 module = mimo_model.modality_submodules[module_name]
 
-            if module is not None:
+            # Skip the optimizer build when no rank in this module's
+            # intra-dist-opt group has any trainable parameters (e.g. the
+            # language model under stage1 = `--freeze-vit --freeze-lm`).
+            # Leaving `optimizer = None` lets `MimoOptimizer.is_stub_optimizer`
+            # handle the branch correctly, instead of constructing a
+            # placeholder DistributedOptimizer that breaks downstream setup.
+            module_has_trainable_params = _module_has_any_trainable_parameters(
+                module, pg_collection
+            )
+            if module is not None and module_has_trainable_params:
                 assert (
                     not hasattr(module, 'ddp_config')
                     or module.ddp_config is None
diff --git a/megatron/core/models/mimo/partition/utils.py b/megatron/core/models/mimo/partition/utils.py
index 0b43e5548ff..f593894ab03 100644
--- a/megatron/core/models/mimo/partition/utils.py
+++ b/megatron/core/models/mimo/partition/utils.py
@@ -89,7 +89,7 @@ def from_mp_config(
 
 
 class PartitionAdapter:
-    """Shard batch-first embeddings & label tensors for Context and Sequence Parallelism."""
+    """Shard batch-first MIMO inputs and return language-model-ready embeddings."""
 
     def __init__(self, cfg: PartitionConfig):
         """Initialize the partition adapter.
@@ -100,22 +100,26 @@ def __init__(self, cfg: PartitionConfig):
 
     def shard(
         self,
-        embeddings: torch.Tensor,
-        labels: torch.Tensor,
-        loss_mask: torch.Tensor,
-        attention_mask: torch.Tensor,
+        embeddings: Optional[torch.Tensor],
+        labels: Optional[torch.Tensor],
+        loss_mask: Optional[torch.Tensor],
         packed_seq_params: Optional[PackedSeqParams] = None,
-    ) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor, Optional[PackedSeqParams]]:
+    ) -> Tuple[
+        Optional[torch.Tensor],
+        Optional[torch.Tensor],
+        Optional[torch.Tensor],
+        Optional[PackedSeqParams],
+    ]:
         """
         Apply context parallel (CP) and sequence parallel (SP) sharding to input tensors.
 
-        All input tensors must be in batch-first layout:
+        Tensor inputs use the dataloader layout:
             - embeddings: (B, S, H)
-            - labels / loss_mask / attention_mask: (B, S)
+            - labels / loss_mask: (B, S)
 
-        After this call embeddings are still in (B, S/cp, H) batch-first layout.
-        The caller is responsible for transposing to (S/cp, B, H) if the language model
-        requires sequence-first tensors.
+        Embeddings are returned in language-model layout (S, B, H), with CP and SP applied
+        along the sequence dimension. Labels and loss masks are CP-sharded, but not
+        SP-sharded, because the language-model loss consumes the gathered TP sequence.
 
         Args:
             embeddings (torch.Tensor):
@@ -124,22 +128,16 @@ def shard(
                 Labels tensor. Shape: (B, S)
             loss_mask (torch.Tensor):
                 Loss mask tensor. Shape: (B, S)
-            attention_mask (torch.Tensor):
-                Attention mask tensor. Shape: (B, S)
             packed_seq_params (PackedSeqParams, optional):
                 Packed sequence parameters. Defaults to None.
 
         Returns:
             Tuple containing:
-                - embeddings (torch.Tensor): Sharded embeddings. Shape: (B, S/cp, H)
+                - embeddings (torch.Tensor): Sharded embeddings. Shape: (S/(cp*tp), B, H)
                 - labels (torch.Tensor): Possibly sharded labels. Shape: (B, S/cp)
                 - loss_mask (torch.Tensor): Possibly sharded loss mask. Shape: (B, S/cp)
-                - attention_mask (torch.Tensor): Possibly sharded attention mask. Shape: (B, S/cp)
                 - packed_seq_params (PackedSeqParams, optional): Updated packed sequence parameters.
         """
-        if not (self.cfg.use_cp or self.cfg.seq_parallel):
-            return embeddings, labels, loss_mask, attention_mask, packed_seq_params
-
         # Sanity-check the sequence length before any sharding happens.
         if embeddings is not None:
             shard_factor = None
@@ -153,7 +151,7 @@ def shard(
                 seq_dim = 1
             elif self.cfg.seq_parallel:
                 shard_factor = get_pg_size(self.cfg.tp_group)
-                seq_dim = 0  # embeddings shape: [S, B, H]
+                seq_dim = 1
 
             if shard_factor is not None and (
                 packed_seq_params is None
@@ -171,29 +169,30 @@ def shard(
                     )
 
         if self.cfg.use_cp:
-            embeddings, labels, loss_mask, attention_mask, packed_seq_params = (
-                self._apply_context_parallel(
-                    embeddings, labels, loss_mask, attention_mask, packed_seq_params
-                )
+            embeddings, labels, loss_mask, packed_seq_params = self._apply_context_parallel(
+                embeddings, labels, loss_mask, packed_seq_params
             )
 
         if self.cfg.seq_parallel and embeddings is not None:
-            embeddings = tensor_parallel.scatter_to_sequence_parallel_region(embeddings)
+            embeddings = embeddings.transpose(0, 1).contiguous()
+            embeddings = tensor_parallel.scatter_to_sequence_parallel_region(
+                embeddings, group=self.cfg.tp_group
+            )
+        elif embeddings is not None:
+            embeddings = embeddings.transpose(0, 1).contiguous()
 
-        return embeddings, labels, loss_mask, attention_mask, packed_seq_params
+        return embeddings, labels, loss_mask, packed_seq_params
 
     def _apply_context_parallel(
         self,
         embeddings: Optional[torch.Tensor],
         labels: Optional[torch.Tensor],
         loss_mask: Optional[torch.Tensor],
-        attention_mask: Optional[torch.Tensor],
         packed_seq_params: Optional[PackedSeqParams],
     ) -> Tuple[
         Optional[torch.Tensor],
         Optional[torch.Tensor],
         Optional[torch.Tensor],
-        Optional[torch.Tensor],
         Optional[PackedSeqParams],
     ]:
         """
@@ -206,8 +205,6 @@ def _apply_context_parallel(
                 Labels tensor. Shape: (B, S)
             loss_mask (Optional[torch.Tensor]):
                 Loss mask tensor. Shape: (B, S)
-            attention_mask (Optional[torch.Tensor]):
-                Attention mask tensor. Shape: (B, S)
             packed_seq_params (PackedSeqParams, optional):
                 Packed sequence parameters. Defaults to None.
 
@@ -216,12 +213,10 @@ def _apply_context_parallel(
                 - embeddings (Optional[torch.Tensor]): Sharded embeddings. Shape: (B, S/cp, H)
                 - labels (Optional[torch.Tensor]): Possibly sharded labels. Shape: (B, S/cp)
                 - loss_mask (Optional[torch.Tensor]): Possibly sharded loss mask. Shape: (B, S/cp)
-                - attention_mask (Optional[torch.Tensor]): Possibly sharded attention mask.
-                                                           Shape: (B, S/cp)
                 - packed_seq_params (PackedSeqParams, optional): Updated packed sequence parameters.
         """
         if not self.cfg.use_cp:
-            return embeddings, labels, loss_mask, attention_mask, packed_seq_params
+            return embeddings, labels, loss_mask, packed_seq_params
 
         # Distribute sequence across CP ranks
         batch = dict()
@@ -231,11 +226,9 @@ def _apply_context_parallel(
             batch["labels"] = labels
         if loss_mask is not None:
             batch["loss_mask"] = loss_mask
-        if attention_mask is not None:
-            batch["attention_mask"] = attention_mask
 
         if packed_seq_params is None or getattr(packed_seq_params, 'qkv_format', 'sbhd') == 'sbhd':
-            batch = get_batch_on_this_cp_rank(batch)
+            batch = get_batch_on_this_cp_rank(batch, cp_group=self.cfg.cp_group)
         else:
             assert _HAVE_TEX and is_te_min_version("1.10.0"), (
                 "Please update Transformer Engine to >= 1.10 "
@@ -250,11 +243,10 @@ def _apply_context_parallel(
                 )
                 batch[key] = data.index_select(1, index)
 
-        # Extract sharded tensors; embeddings remain in [B, S/cp, H] — the caller
-        # is responsible for transposing to [S/cp, B, H] for the language model.
+        # Extract sharded tensors; shard() transposes embeddings to language-model
+        # layout after CP and before optional SP.
         embeddings = batch.get("embeddings", None)
         labels = batch.get("labels", None)
         loss_mask = batch.get("loss_mask", None)
-        attention_mask = batch.get("attention_mask", None)
 
-        return embeddings, labels, loss_mask, attention_mask, packed_seq_params
+        return embeddings, labels, loss_mask, packed_seq_params
diff --git a/megatron/core/models/vision/radio.py b/megatron/core/models/vision/radio.py
index 5e9525adfee..1438418b552 100644
--- a/megatron/core/models/vision/radio.py
+++ b/megatron/core/models/vision/radio.py
@@ -1,7 +1,7 @@
 # Copyright (c) 2024, NVIDIA CORPORATION. All rights reserved.
 
 import math
-from typing import Optional, Tuple, Union
+from typing import List, Optional, Tuple, Union
 
 import torch
 import torch.nn.functional as F
@@ -9,6 +9,7 @@
 
 from megatron.core.config_logger import has_config_logger_enabled, log_config_to_disk
 from megatron.core.models.common.vision_module.vision_module import VisionModule
+from megatron.core.packed_seq_params import PackedSeqParams
 from megatron.core.process_groups_config import ProcessGroupCollection
 from megatron.core.tensor_parallel.layers import ColumnParallelLinear
 from megatron.core.transformer.enums import ModelType
@@ -64,6 +65,7 @@ def __init__(
         pos_dropout: int = 0,
         has_cpe: bool = True,
         embedder_bias: bool = False,
+        dynamic_resolution: bool = False,
         pg_collection: Optional[ProcessGroupCollection] = None,
         vp_stage: Optional[int] = None,
     ) -> None:
@@ -124,8 +126,15 @@ def __init__(
         )
         self.pos_dropout = pos_dropout
         self.has_cpe = has_cpe
+        self.dynamic_resolution = dynamic_resolution
 
         # Using non-TE version so we can force gather_output
+        tp_group = getattr(pg_collection, "tp", None) if pg_collection is not None else None
+        # Store tp_group on self so MegatronModule.sharded_state_dict doesn't
+        # fall back to parallel_state.get_tensor_model_parallel_group(), which
+        # isn't initialized in heterogeneous-parallelism layouts that pass
+        # pg_collection explicitly.
+        self.tp_group = tp_group
         self.embedder = ColumnParallelLinear(
             input_size=3 * self.patch_dim * self.patch_dim,
             output_size=self.visual_hidden_size,
@@ -133,6 +142,7 @@ def __init__(
             config=transformer_config,
             gather_output=True,
             init_method=lambda tensor: torch.nn.init.normal_(tensor, mean=0.0, std=1.0),
+            tp_group=tp_group,
         )
 
         self.model_type = ModelType.encoder_or_decoder
@@ -174,49 +184,108 @@ def set_input_tensor(self, input_tensor: torch.Tensor) -> None:
         self.decoder.set_input_tensor(input_tensor)
 
     def forward(
-        self, x: torch.Tensor, attention_mask: Optional[torch.Tensor] = None
+        self,
+        x: torch.Tensor,
+        attention_mask: Optional[torch.Tensor] = None,
+        imgs_sizes: Optional[Union[List[Tuple[int, int]], torch.Tensor]] = None,
+        packed_seq_params: Optional[PackedSeqParams] = None,
     ) -> torch.Tensor:
         """Forward function of the RADIO ViT Model. This function passes the input tensors
         through the embedding layer and then the transformer.
 
         Args:
-            x (torch.Tensor): input data of shape [batch, img_h, img_w]
+            x (torch.Tensor): input data of shape [batch, img_h, img_w] or
+                [batch, total_patches, patch_features] when dynamic_resolution=True.
             attention_mask (torch.Tensor with dtype=bool): Attention mask to use.
+            imgs_sizes: Per-tile (H, W) pixel sizes for dynamic resolution.
+            packed_seq_params: Packed sequence params for THD attention.
 
         Returns:
             x (torch.Tensor): output after final transformer block of shape [b, s, h].
         """
+        if not self.dynamic_resolution:
+            if not HAVE_EINOPS:
+                raise ImportError(
+                    "einops is required for RADIOViTModel, please install it with "
+                    "`pip install einops`"
+                )
 
-        if not HAVE_EINOPS:
-            raise ImportError(
-                "einops is required for RADIOViTModel, please install it with `pip install einops`"
+            input_size = x.shape[2:]
+            py = x.shape[-2] // self.patch_dim
+            px = x.shape[-1] // self.patch_dim
+            x = rearrange(
+                x,
+                "b c (py yy) (px xx) -> b (py px) (c yy xx)",
+                py=py,
+                yy=self.patch_dim,
+                px=px,
+                xx=self.patch_dim,
             )
-
-        input_size = x.shape[2:]
-        py = x.shape[-2] // self.patch_dim
-        px = x.shape[-1] // self.patch_dim
-        x = rearrange(
-            x,
-            "b c (py yy) (px xx) -> b (py px) (c yy xx)",
-            py=py,
-            yy=self.patch_dim,
-            px=px,
-            xx=self.patch_dim,
-        )
         x, _ = self.embedder(x)  # [batch, seq_length, hidden_size]
 
-        x, _ = self.apply_pos_enc(x, input_size=input_size)
+        # Apply position encoding -- per-tile for dynamic resolution, global otherwise.
+        if self.dynamic_resolution:
+            if torch.is_tensor(imgs_sizes):
+                seq_lens = torch.prod(imgs_sizes // self.patch_dim, dim=-1).tolist()
+                sizes_iter = [tuple(sz.tolist()) for sz in imgs_sizes]
+            else:
+                seq_lens = [(h // self.patch_dim) * (w // self.patch_dim) for h, w in imgs_sizes]
+                sizes_iter = imgs_sizes
+
+            assert sum(seq_lens) == x.shape[1], f"{sum(seq_lens)} != {x.shape[1]}"
+
+            chunks = torch.split(x, seq_lens, dim=1)
+            chunks = [
+                self.apply_pos_enc(chunk, input_size=size)[0]
+                for chunk, size in zip(chunks, sizes_iter)
+            ]
+            x = torch.cat(chunks, dim=1)
+        else:
+            x, _ = self.apply_pos_enc(x, input_size=input_size)
 
         if self.add_class_token:
             class_token = self.class_token.expand(
                 x.shape[0], -1, -1
             )  # [batch, class_token_len, hidden_size]
+            if self.dynamic_resolution:
+                # Interleave class tokens between tiles for dynamic resolution.
+                out = []
+                current_length = 0
+                for input_size in imgs_sizes:
+                    if torch.is_tensor(input_size):
+                        seq_length = (
+                            input_size[0] // self.patch_dim * input_size[1] // self.patch_dim
+                        )
+                    else:
+                        seq_length = (
+                            input_size[0] // self.patch_dim * input_size[1] // self.patch_dim
+                        )
+                    out.append(class_token)
+                    out.append(x[:, current_length : current_length + seq_length, :])
+                    current_length += int(seq_length)
+                x = torch.cat(out, dim=1)
+                if packed_seq_params is not None:
+                    # Update packed_seq_params to account for added class tokens.
+                    add_cu = torch.full_like(
+                        packed_seq_params.cu_seqlens_q, self.class_token_len, dtype=torch.int32
+                    )
+                    add_cu[0] = 0
+                    add_cu = torch.cumsum(add_cu, dim=-1, dtype=torch.int32)
+                    packed_seq_params.cu_seqlens_q = packed_seq_params.cu_seqlens_q + add_cu
+                    packed_seq_params.cu_seqlens_kv = packed_seq_params.cu_seqlens_kv + add_cu
+                    packed_seq_params.max_seqlen_q = (
+                        packed_seq_params.max_seqlen_q + self.class_token_len
+                    )
+                    packed_seq_params.max_seqlen_kv = (
+                        packed_seq_params.max_seqlen_kv + self.class_token_len
+                    )
+            else:
+                x = torch.cat(
+                    [class_token, x], dim=1
+                )  # [batch, seq_length + class_token_len, hidden_size]
 
-            x = torch.cat(
-                [class_token, x], dim=1
-            )  # [batch, seq_length + class_token_len, hidden_size]
-
-        assert x.shape[1] == self.seq_length, f"{x.shape[1]} != {self.seq_length}"
+        if not self.dynamic_resolution:
+            assert x.shape[1] == self.seq_length, f"{x.shape[1]} != {self.seq_length}"
 
         if self.ln_pre:
             x = self.ln_pre(x)
@@ -224,7 +293,7 @@ def forward(
         x = x.permute(1, 0, 2)  # [b, s, h] -> [s, b, h]
         x = x.contiguous()
 
-        x = self.decoder(x, attention_mask=attention_mask)
+        x = self.decoder(x, attention_mask=attention_mask, packed_seq_params=packed_seq_params)
 
         x = x.permute(1, 0, 2)  # [s, b, h] -> [b, s, h]
         x = x.contiguous()
@@ -338,8 +407,12 @@ def window_select(pos_embed):
                 ).to(pos_embed.dtype)
             else:
                 max_dim = max(input_dims)
+                # Use align_corners=False on bilinear pos-embedding interpolation
+                # to match upstream RADIO. align_corners=True drifts numerics
+                # and breaks parity for any ckpt trained against the standard
+                # RADIO implementation.
                 pos_embed = F.interpolate(
-                    pos_embed.float(), size=(max_dim, max_dim), align_corners=True, mode="bilinear"
+                    pos_embed.float(), size=(max_dim, max_dim), align_corners=False, mode="bilinear"
                 ).to(pos_embed.dtype)
 
                 pos_embed = window_select(pos_embed)
@@ -348,7 +421,7 @@ def window_select(pos_embed):
 
         if pos_embed.shape[-2:] != input_dims:
             pos_embed = F.interpolate(
-                pos_embed.float(), size=input_dims, align_corners=True, mode="bilinear"
+                pos_embed.float(), size=input_dims, align_corners=False, mode="bilinear"
             ).to(pos_embed.dtype)
 
         pos_embed = pos_embed.flatten(2).permute(0, 2, 1)
diff --git a/megatron/core/optimizer/__init__.py b/megatron/core/optimizer/__init__.py
index c6d3e41aed5..fe4d48d0c2b 100644
--- a/megatron/core/optimizer/__init__.py
+++ b/megatron/core/optimizer/__init__.py
@@ -300,6 +300,7 @@ def _get_param_groups(
     model_chunks: List[MegatronModule],
     config: OptimizerConfig,
     config_overrides: Optional[Dict[ParamKey, ParamGroupOverride]],
+    process_group: Optional[torch.distributed.ProcessGroup] = None,
 ) -> List[Dict]:
     """Create parameter groups for optimizer.
 
@@ -360,8 +361,10 @@ def _get_param_groups(
     # so we need to align the param groups across ranks, otherwise we may have
     # runtime error when loading the checkpoint or numerical error when resuming training.
     params_key = list(params_map.keys())
-    gathered_params_key = [None for _ in range(torch.distributed.get_world_size())]
-    torch.distributed.all_gather_object(gathered_params_key, params_key)
+    gathered_params_key = [
+        None for _ in range(torch.distributed.get_world_size(group=process_group))
+    ]
+    torch.distributed.all_gather_object(gathered_params_key, params_key, group=process_group)
     for keys in gathered_params_key:
         for key in keys:
             if key not in params_key:
@@ -419,6 +422,7 @@ def _get_param_groups_and_buffers(
     config_overrides: Optional[Dict[ParamKey, ParamGroupOverride]],
     filter_fn: Callable,
     buffer_name: str,
+    process_group: Optional[torch.distributed.ProcessGroup] = None,
 ) -> Tuple[List[Dict], Dict[int, List[_ParamAndGradBuffer]]]:
     """Returns parameter groups and buffer for optimizer.
 
@@ -437,7 +441,9 @@ def _get_param_groups_and_buffers(
     Returns:
         List of parameter groups and dictionary of model chunk IDs to buffers.
     """
-    param_groups = _get_param_groups(model_chunks, config, config_overrides)
+    param_groups = _get_param_groups(
+        model_chunks, config, config_overrides, process_group=process_group
+    )
     param_groups = list(filter(filter_fn, param_groups))
     buffers = {}
     for model_chunk_idx, model_chunk in enumerate(model_chunks):
@@ -762,6 +768,7 @@ def _get_megatron_emerging_optimizer(
     if config.fp16:
         raise ValueError('emerging optimizer with fp16 is not supported.')
 
+    uses_explicit_pg_collection = pg_collection is not None
     if pg_collection is None:
         pg_collection = ProcessGroupCollection.use_mpu_process_groups()
 
@@ -783,7 +790,12 @@ def _get_megatron_emerging_optimizer(
 
     # Build param groups and bucket by (optimizer_name, is_expert_parallel).
     # Layer-wise distributed optimizer handles expert params internally so we skip that split.
-    all_param_groups = _get_param_groups(model_chunks, config, config_overrides)
+    param_group_process_group = (
+        getattr(pg_collection, 'intra_dist_opt', None) if uses_explicit_pg_collection else None
+    )
+    all_param_groups = _get_param_groups(
+        model_chunks, config, config_overrides, process_group=param_group_process_group
+    )
     grouped_param_groups = defaultdict(list)
     for group in all_param_groups:
         opt_name = group.get('optimizer', eopt_name)
@@ -926,6 +938,7 @@ def get_megatron_optimizer(
     intra_dp_cp_group_gloo = process_groups_dict['intra_dp_cp_group_gloo']
     intra_expt_dp_group_gloo = process_groups_dict['intra_expt_dp_group_gloo']
     intra_dist_opt_group = process_groups_dict['intra_dist_opt_group']
+    param_group_process_group = intra_dist_opt_group if pg_collection is not None else None
 
     model_parallel_rank = get_pg_rank(mp_group)
 
@@ -949,6 +962,7 @@ def get_megatron_optimizer(
                 config_overrides=config_overrides,
                 filter_fn=lambda g: True,
                 buffer_name='buffers',
+                process_group=param_group_process_group,
             )
 
             optimizer_part = _get_megatron_optimizer_based_on_param_groups(
@@ -999,6 +1013,7 @@ def get_megatron_optimizer(
             config_overrides=config_overrides,
             filter_fn=lambda g: not g['is_expert_parallel'],
             buffer_name='buffers',
+            process_group=param_group_process_group,
         )
         for model_chunk in dense_model_chunks:
             model_chunk.overlap_param_gather_with_optimizer_step = (
@@ -1036,6 +1051,7 @@ def get_megatron_optimizer(
         config_overrides=config_overrides,
         filter_fn=lambda g: g['is_expert_parallel'],
         buffer_name='expert_parallel_buffers',
+        process_group=param_group_process_group,
     )
     if dump_param_to_param_group_map is not None:
         for param_group in moe_param_groups:
diff --git a/megatron/core/pipeline_parallel/bridge_communicator.py b/megatron/core/pipeline_parallel/bridge_communicator.py
index 515ddf1743a..bc028970ff4 100644
--- a/megatron/core/pipeline_parallel/bridge_communicator.py
+++ b/megatron/core/pipeline_parallel/bridge_communicator.py
@@ -350,7 +350,7 @@ def send_forward(self, tensor_to_send: torch.Tensor):
             num_sends = len(rank_info.send_to_ranks)
             if num_sends > 0:
                 tensor_splits = self._split_tensor_at_batch_dim(tensor_to_send, num_sends)
-                self._communicate_shapes(tensor_to_send_next=tensor_splits[0])
+                self._communicate_shapes(tensor_to_send_next=tensor_splits)
                 for dest_rank, tensor_split in zip(rank_info.send_to_ranks, tensor_splits):
                     logging.debug(
                         f"[Bridge Comunicator] [send_forward] Rank {self.current_rank} "
@@ -480,7 +480,7 @@ def send_backward(self, grad_tensor: torch.Tensor):
             # Send gradients back to source ranks
             num_receives = len(rank_info.recv_from_ranks)
             tensor_splits = self._split_tensor_at_batch_dim(grad_tensor, num_receives)
-            self._communicate_shapes(tensor_to_send_prev=tensor_splits[0])
+            self._communicate_shapes(tensor_to_send_prev=tensor_splits)
             if num_receives > 0:
                 for src_rank, tensor_split in zip(rank_info.recv_from_ranks, tensor_splits):
                     # Send the gradient split back to the source rank
@@ -618,7 +618,7 @@ def send_forward_recv_backward(
             activation_splits = self._split_tensor_at_batch_dim(input_tensor, num_sends)
             # Communicate shapes for both directions (send forward, receive backward)
             recv_forward_shapes, recv_grad_shapes = self._communicate_shapes(
-                tensor_to_send_next=activation_splits[0], recv_next=True
+                tensor_to_send_next=activation_splits, recv_next=True
             )
             logging.debug(
                 f"[Bridge Communicator] [send_forward_recv_backward] Rank {self.current_rank} "
@@ -737,7 +737,7 @@ def send_backward_recv_forward(
             gradient_splits = self._split_tensor_at_batch_dim(grad_tensor, num_receives)
             # Communicate shapes for both directions (send backward, receive forward)
             recv_forward_shapes, recv_grad_shapes = self._communicate_shapes(
-                tensor_to_send_prev=gradient_splits[0], recv_prev=True
+                tensor_to_send_prev=gradient_splits, recv_prev=True
             )
             logging.debug(
                 f"[Bridge Communicator] [send_backward_recv_backward] Rank {self.current_rank} "
@@ -848,8 +848,10 @@ def _communicate_shapes(
         when dealing with variable sequence lengths or dynamic shapes.
 
         Args:
-            tensor_to_send_next: The tensor to send to the next rank (None if not sending)
-            tensor_to_send_prev: The tensor to send to the previous rank (None if not sending)
+            tensor_to_send_next: Tensor shape source for next ranks. Pass a single tensor when
+                every peer receives the same shape, or a list with one tensor per peer.
+            tensor_to_send_prev: Tensor shape source for previous ranks. Pass a single tensor when
+                every peer receives the same shape, or a list with one tensor per peer.
             recv_next: Whether to receive from the next rank (None if not receiving)
             recv_prev: Whether to receive from the previous rank (None if not receiving)
 
@@ -876,12 +878,14 @@ def _communicate_shapes(
         if rank_info.role == CommRole.SENDER:
             # Prepare send operations for forward shapes
             if tensor_to_send_next is not None:
-                send_shape = tensor_to_send_next.shape
-                send_shape_tensor = torch.tensor(
-                    send_shape, device=torch.cuda.current_device(), dtype=torch.int64
+                tensors_to_send = self._as_per_peer_tensors(
+                    tensor_to_send_next, len(rank_info.send_to_ranks)
                 )
                 # Add send operations for each destination
-                for dest_rank in rank_info.send_to_ranks:
+                for dest_rank, tensor in zip(rank_info.send_to_ranks, tensors_to_send):
+                    send_shape_tensor = torch.tensor(
+                        tensor.shape, device=torch.cuda.current_device(), dtype=torch.int64
+                    )
                     ops.append(
                         torch.distributed.P2POp(
                             torch.distributed.isend, send_shape_tensor, dest_rank
@@ -918,12 +922,14 @@ def _communicate_shapes(
             # If we need to send gradient shapes back, prepare send operations
             if tensor_to_send_prev is not None:
 
-                grad_shape = tensor_to_send_prev.shape
-                grad_shape_tensor = torch.tensor(
-                    grad_shape, device=torch.cuda.current_device(), dtype=torch.int64
+                tensors_to_send = self._as_per_peer_tensors(
+                    tensor_to_send_prev, len(rank_info.recv_from_ranks)
                 )
 
-                for src_rank in rank_info.recv_from_ranks:
+                for src_rank, tensor in zip(rank_info.recv_from_ranks, tensors_to_send):
+                    grad_shape_tensor = torch.tensor(
+                        tensor.shape, device=torch.cuda.current_device(), dtype=torch.int64
+                    )
                     ops.append(
                         torch.distributed.P2POp(
                             torch.distributed.isend, grad_shape_tensor, src_rank
@@ -947,6 +953,17 @@ def _communicate_shapes(
 
         return recv_forward_shapes, recv_grad_shapes
 
+    @staticmethod
+    def _as_per_peer_tensors(tensors, expected_count: int) -> List[torch.Tensor]:
+        """Return one tensor per peer from either a shared tensor or a per-peer tensor list."""
+        if isinstance(tensors, torch.Tensor):
+            return [tensors for _ in range(expected_count)]
+        if len(tensors) != expected_count:
+            raise ValueError(
+                f"expected {expected_count} tensors for shape communication, got {len(tensors)}"
+            )
+        return list(tensors)
+
     def _split_tensor_at_batch_dim(
         self, aggregated_tensor: torch.Tensor, num_splits: int
     ) -> List[torch.Tensor]:
@@ -962,6 +979,27 @@ def _split_tensor_at_batch_dim(
         if num_splits <= 0:
             raise ValueError(f"num_splits must be positive, got {num_splits}")
 
+        split_sizes = getattr(aggregated_tensor, "_mimo_bridge_split_sizes", None)
+        if split_sizes is not None:
+            if num_splits == 1:
+                return [aggregated_tensor.contiguous()]
+            split_sizes = [int(size) for size in split_sizes]
+            if len(split_sizes) != num_splits:
+                raise ValueError(
+                    f"bridge split metadata has {len(split_sizes)} entries, "
+                    f"but communication requires {num_splits} splits"
+                )
+            batch_dim_size = int(aggregated_tensor.shape[self._batch_dim])
+            if sum(split_sizes) != batch_dim_size:
+                raise ValueError(
+                    f"bridge split metadata sums to {sum(split_sizes)}, "
+                    f"but tensor batch dimension is {batch_dim_size}"
+                )
+            return [
+                split.contiguous()
+                for split in torch.split(aggregated_tensor, split_sizes, dim=self._batch_dim)
+            ]
+
         splits = torch.tensor_split(aggregated_tensor, num_splits, dim=self._batch_dim)
         # PyTorch p2p requires the tensors to be contiguous
         return [split.contiguous() for split in splits]
diff --git a/megatron/core/pipeline_parallel/multimodule_communicator.py b/megatron/core/pipeline_parallel/multimodule_communicator.py
index b2e5682a29d..65d33dfaea9 100644
--- a/megatron/core/pipeline_parallel/multimodule_communicator.py
+++ b/megatron/core/pipeline_parallel/multimodule_communicator.py
@@ -11,6 +11,7 @@
 from megatron.core.model_parallel_config import ModelParallelConfig
 from megatron.core.pipeline_parallel.bridge_communicator import BridgeCommunicator
 from megatron.core.pipeline_parallel.p2p_communication import P2PCommunicator
+from megatron.core.pipeline_parallel.timeline import timeline_event
 
 # Types
 Shape = Union[List[int], torch.Size]
@@ -342,7 +343,12 @@ def recv_forward(
                 # If first stage, and has incoming modules, receive forward activation
                 # from incoming modules.
                 for bridge_comm in rank_module_info.bridge_comms_as_dest_module:
-                    received_tensor = bridge_comm.recv_forward()
+                    with timeline_event(
+                        "bridge.recv_forward",
+                        src_module=bridge_comm.src_module_name,
+                        dest_module=bridge_comm.dest_module_name,
+                    ):
+                        received_tensor = bridge_comm.recv_forward()
                     input_dict[bridge_comm.src_module_name] = received_tensor
             else:
                 # If not first stage, receive forward activation tensor from P2P communicator.
@@ -364,7 +370,12 @@ def send_forward(self, output_dict: Dict[str, torch.Tensor], is_last_stage: bool
                 # If last stage, and has outgoing modules, send forward activation
                 # by using bridge communicator.
                 for bridge_comm in rank_module_info.bridge_comms_as_src_module:
-                    bridge_comm.send_forward(output_dict[module_name])
+                    with timeline_event(
+                        "bridge.send_forward",
+                        src_module=bridge_comm.src_module_name,
+                        dest_module=bridge_comm.dest_module_name,
+                    ):
+                        bridge_comm.send_forward(output_dict[module_name])
             else:
                 # If not last stage, send forward activation by using P2P communicator.
                 tensor_to_send = _prepare_tensor_for_comm(output_dict[module_name])
@@ -391,7 +402,12 @@ def send_forward_recv_backward(
                 # If last stage, and has outgoing modules, send forward activation and
                 # receive backward gradient by using bridge communicator.
                 for bridge_comm in rank_module_info.bridge_comms_as_src_module:
-                    grad = bridge_comm.send_forward_recv_backward(output_dict[module_name])
+                    with timeline_event(
+                        "bridge.send_forward_recv_backward",
+                        src_module=bridge_comm.src_module_name,
+                        dest_module=bridge_comm.dest_module_name,
+                    ):
+                        grad = bridge_comm.send_forward_recv_backward(output_dict[module_name])
                     grad_dict[bridge_comm.src_module_name] = grad
             else:
                 # If not last stage, send forward activation and receive backward gradient
@@ -424,9 +440,14 @@ def send_backward_recv_forward(
                 for bridge_comm in rank_module_info.bridge_comms_as_dest_module:
                     # If first stage, and has incoming modules, send backward gradient and
                     # receive forward activation by using bridge communicator.
-                    received_tensor = bridge_comm.send_backward_recv_forward(
-                        grad_dict[bridge_comm.src_module_name]
-                    )
+                    with timeline_event(
+                        "bridge.send_backward_recv_forward",
+                        src_module=bridge_comm.src_module_name,
+                        dest_module=bridge_comm.dest_module_name,
+                    ):
+                        received_tensor = bridge_comm.send_backward_recv_forward(
+                            grad_dict[bridge_comm.src_module_name]
+                        )
                     input_dict[bridge_comm.src_module_name] = received_tensor
             else:
                 # If not first stage, send backward gradient and receive forward activation
@@ -459,7 +480,12 @@ def recv_backward(
                 # If last stage, and has incoming modules, receive backward gradient
                 # by using bridge communicator.
                 for bridge_comm in rank_module_info.bridge_comms_as_src_module:
-                    grad = bridge_comm.recv_backward()
+                    with timeline_event(
+                        "bridge.recv_backward",
+                        src_module=bridge_comm.src_module_name,
+                        dest_module=bridge_comm.dest_module_name,
+                    ):
+                        grad = bridge_comm.recv_backward()
                     grad_dict[bridge_comm.src_module_name] = grad
             else:
                 # If not last stage, receive backward gradient by using P2P communicator.
@@ -480,7 +506,12 @@ def send_backward(self, grad_dict: Dict[str, torch.Tensor], is_first_stage: bool
                 # If first stage, and has incoming modules, send backward activation
                 # by using bridge communicator.
                 for bridge_comm in rank_module_info.bridge_comms_as_dest_module:
-                    bridge_comm.send_backward(grad_dict[bridge_comm.src_module_name])
+                    with timeline_event(
+                        "bridge.send_backward",
+                        src_module=bridge_comm.src_module_name,
+                        dest_module=bridge_comm.dest_module_name,
+                    ):
+                        bridge_comm.send_backward(grad_dict[bridge_comm.src_module_name])
             else:
                 # If not first stage, send backward activation by using P2P communicator.
                 grad_to_send = _prepare_tensor_for_comm(grad_dict[module_name])
diff --git a/megatron/core/pipeline_parallel/schedules.py b/megatron/core/pipeline_parallel/schedules.py
index 14fc6041574..835f92d9d12 100644
--- a/megatron/core/pipeline_parallel/schedules.py
+++ b/megatron/core/pipeline_parallel/schedules.py
@@ -13,6 +13,7 @@
 )
 from megatron.core.pipeline_parallel.multimodule_communicator import MultiModulePipelineCommunicator
 from megatron.core.pipeline_parallel.p2p_communication import P2PCommunicator
+from megatron.core.pipeline_parallel.timeline import timeline_event
 from megatron.core.pipeline_parallel.utils import (
     is_pp_first_stage,
     is_pp_last_stage,
@@ -2231,25 +2232,28 @@ def enable_grad_sync():
         else:
             checkpoint_activations_microbatch = None
 
-        input_tensor = p2p_communicator.recv_forward(
-            recv_tensor_shapes, p2p_communicator.is_pp_first_stage
-        )
-        output_tensor, num_tokens = forward_step(
-            forward_step_func,
-            data_iterator,
-            model,
-            num_microbatches,
-            input_tensor,
-            forward_data_store,
-            config,
-            cp_group_size=cp_size,
-            collect_non_loss_data=collect_non_loss_data,
-            checkpoint_activations_microbatch=checkpoint_activations_microbatch,
-            is_first_microbatch=check_first_val_step(first_val_step, forward_only, i == 0),
-            current_microbatch=i,
-            is_last_stage=p2p_communicator.is_pp_last_stage,
-        )
-        p2p_communicator.send_forward(output_tensor, p2p_communicator.is_pp_last_stage)
+        with timeline_event("schedule.recv_forward", phase="warmup", microbatch=i):
+            input_tensor = p2p_communicator.recv_forward(
+                recv_tensor_shapes, p2p_communicator.is_pp_first_stage
+            )
+        with timeline_event("schedule.forward", phase="warmup", microbatch=i, cuda=True):
+            output_tensor, num_tokens = forward_step(
+                forward_step_func,
+                data_iterator,
+                model,
+                num_microbatches,
+                input_tensor,
+                forward_data_store,
+                config,
+                cp_group_size=cp_size,
+                collect_non_loss_data=collect_non_loss_data,
+                checkpoint_activations_microbatch=checkpoint_activations_microbatch,
+                is_first_microbatch=check_first_val_step(first_val_step, forward_only, i == 0),
+                current_microbatch=i,
+                is_last_stage=p2p_communicator.is_pp_last_stage,
+            )
+        with timeline_event("schedule.send_forward", phase="warmup", microbatch=i):
+            p2p_communicator.send_forward(output_tensor, p2p_communicator.is_pp_last_stage)
         total_num_tokens += num_tokens
 
         if not forward_only:
@@ -2261,13 +2265,18 @@ def enable_grad_sync():
     # If all microbatches are run in warmup / cooldown phase, then no need to
     # receive this tensor here.
     if num_microbatches_remaining > 0:
-        input_tensor = p2p_communicator.recv_forward(
-            recv_tensor_shapes, p2p_communicator.is_pp_first_stage
-        )
+        with timeline_event(
+            "schedule.recv_forward", phase="steady_prefetch", microbatch=num_warmup_microbatches
+        ):
+            input_tensor = p2p_communicator.recv_forward(
+                recv_tensor_shapes, p2p_communicator.is_pp_first_stage
+            )
 
     # Run 1F1B in steady state.
     for i in range(num_microbatches_remaining):
         last_iteration = i == (num_microbatches_remaining - 1)
+        forward_microbatch = i + num_warmup_microbatches
+        backward_microbatch = i
 
         # Decide to checkpoint all layers' activations of the current micro-batch
         if max_outstanding_backprops is not None:
@@ -2277,35 +2286,50 @@ def enable_grad_sync():
         else:
             checkpoint_activations_microbatch = None
 
-        output_tensor, num_tokens = forward_step(
-            forward_step_func,
-            data_iterator,
-            model,
-            num_microbatches,
-            input_tensor,
-            forward_data_store,
-            config,
-            cp_group_size=cp_size,
-            collect_non_loss_data=collect_non_loss_data,
-            checkpoint_activations_microbatch=checkpoint_activations_microbatch,
-            is_first_microbatch=check_first_val_step(
-                first_val_step, forward_only, (i == 0) and (num_warmup_microbatches == 0)
-            ),
-            current_microbatch=i + num_warmup_microbatches,
-            is_last_stage=p2p_communicator.is_pp_last_stage,
-        )
+        with timeline_event(
+            "schedule.forward", phase="steady", microbatch=forward_microbatch, cuda=True
+        ):
+            output_tensor, num_tokens = forward_step(
+                forward_step_func,
+                data_iterator,
+                model,
+                num_microbatches,
+                input_tensor,
+                forward_data_store,
+                config,
+                cp_group_size=cp_size,
+                collect_non_loss_data=collect_non_loss_data,
+                checkpoint_activations_microbatch=checkpoint_activations_microbatch,
+                is_first_microbatch=check_first_val_step(
+                    first_val_step, forward_only, (i == 0) and (num_warmup_microbatches == 0)
+                ),
+                current_microbatch=forward_microbatch,
+                is_last_stage=p2p_communicator.is_pp_last_stage,
+            )
         total_num_tokens += num_tokens
 
         if forward_only:
-            p2p_communicator.send_forward(output_tensor, p2p_communicator.is_pp_last_stage)
+            with timeline_event(
+                "schedule.send_forward", phase="steady", microbatch=forward_microbatch
+            ):
+                p2p_communicator.send_forward(output_tensor, p2p_communicator.is_pp_last_stage)
             if not last_iteration:
-                input_tensor = p2p_communicator.recv_forward(
-                    recv_tensor_shapes, p2p_communicator.is_pp_first_stage
-                )
+                with timeline_event(
+                    "schedule.recv_forward", phase="steady", microbatch=forward_microbatch + 1
+                ):
+                    input_tensor = p2p_communicator.recv_forward(
+                        recv_tensor_shapes, p2p_communicator.is_pp_first_stage
+                    )
         else:
-            output_tensor_grad = p2p_communicator.send_forward_recv_backward(
-                output_tensor, send_tensor_shapes, p2p_communicator.is_pp_last_stage
-            )
+            with timeline_event(
+                "schedule.send_forward_recv_backward",
+                phase="steady",
+                microbatch=forward_microbatch,
+                backward_microbatch=backward_microbatch,
+            ):
+                output_tensor_grad = p2p_communicator.send_forward_recv_backward(
+                    output_tensor, send_tensor_shapes, p2p_communicator.is_pp_last_stage
+                )
 
             # Add input_tensor and output_tensor to end of list.
             input_tensors.append(input_tensor)
@@ -2323,23 +2347,36 @@ def enable_grad_sync():
                 if config.grad_sync_func is None or p2p_communicator.is_pp_first_stage:
                     enable_grad_sync()
 
-            input_tensor_grad = backward_func(
-                input_tensor, output_tensor, output_tensor_grad, config
-            )
+            with timeline_event(
+                "schedule.backward", phase="steady", microbatch=backward_microbatch, cuda=True
+            ):
+                input_tensor_grad = backward_func(
+                    input_tensor, output_tensor, output_tensor_grad, config
+                )
 
             if last_iteration:
                 input_tensor = None
-                p2p_communicator.send_backward(
-                    input_tensor_grad, p2p_communicator.is_pp_first_stage
-                )
+                with timeline_event(
+                    "schedule.send_backward", phase="steady", microbatch=backward_microbatch
+                ):
+                    p2p_communicator.send_backward(
+                        input_tensor_grad, p2p_communicator.is_pp_first_stage
+                    )
             else:
-                input_tensor = p2p_communicator.send_backward_recv_forward(
-                    input_tensor_grad, recv_tensor_shapes, p2p_communicator.is_pp_first_stage
-                )
+                with timeline_event(
+                    "schedule.send_backward_recv_forward",
+                    phase="steady",
+                    microbatch=backward_microbatch,
+                    recv_microbatch=forward_microbatch + 1,
+                ):
+                    input_tensor = p2p_communicator.send_backward_recv_forward(
+                        input_tensor_grad, recv_tensor_shapes, p2p_communicator.is_pp_first_stage
+                    )
 
     # Run cooldown backward passes.
     if not forward_only:
         for i in range(num_warmup_microbatches):
+            backward_microbatch = num_microbatches_remaining + i
 
             # Enable async grad reduction in the last backward pass
             # Note: If grad sync function is provided, only enable
@@ -2353,15 +2390,26 @@ def enable_grad_sync():
             input_tensor = input_tensors.pop(0)
             output_tensor = output_tensors.pop(0)
 
-            output_tensor_grad = p2p_communicator.recv_backward(
-                send_tensor_shapes, p2p_communicator.is_pp_last_stage
-            )
+            with timeline_event(
+                "schedule.recv_backward", phase="cooldown", microbatch=backward_microbatch
+            ):
+                output_tensor_grad = p2p_communicator.recv_backward(
+                    send_tensor_shapes, p2p_communicator.is_pp_last_stage
+                )
 
-            input_tensor_grad = backward_func(
-                input_tensor, output_tensor, output_tensor_grad, config
-            )
+            with timeline_event(
+                "schedule.backward", phase="cooldown", microbatch=backward_microbatch, cuda=True
+            ):
+                input_tensor_grad = backward_func(
+                    input_tensor, output_tensor, output_tensor_grad, config
+                )
 
-            p2p_communicator.send_backward(input_tensor_grad, p2p_communicator.is_pp_first_stage)
+            with timeline_event(
+                "schedule.send_backward", phase="cooldown", microbatch=backward_microbatch
+            ):
+                p2p_communicator.send_backward(
+                    input_tensor_grad, p2p_communicator.is_pp_first_stage
+                )
 
         # Launch any remaining grad reductions.
         if no_sync_context is not None:
diff --git a/megatron/core/pipeline_parallel/timeline.py b/megatron/core/pipeline_parallel/timeline.py
new file mode 100644
index 00000000000..051408c257c
--- /dev/null
+++ b/megatron/core/pipeline_parallel/timeline.py
@@ -0,0 +1,185 @@
+# Copyright (c) 2026, NVIDIA CORPORATION. All rights reserved.
+
+"""Low-overhead rank-local timeline tracing for pipeline debug runs."""
+
+from __future__ import annotations
+
+import contextlib
+import json
+import time
+from dataclasses import dataclass, field
+from pathlib import Path
+from typing import Any, Iterator, Optional, TextIO
+
+import torch
+
+
+@dataclass
+class PipelineTimelineRecorder:
+    """Collect rank-local timeline events and write them as JSONL."""
+
+    output_dir: Path
+    rank: int
+    world_size: int
+    role: str
+    metadata: dict[str, Any] = field(default_factory=dict)
+    cuda_events: bool = False
+    nvtx: bool = False
+    iteration: Optional[int] = None
+    _records: list[dict[str, Any]] = field(default_factory=list)
+    _context_stack: list[dict[str, Any]] = field(default_factory=list)
+    _file: Optional[TextIO] = None
+
+    @contextlib.contextmanager
+    def record(self, event: str, cuda: bool = False, **metadata) -> Iterator[None]:
+        """Record one event duration without synchronizing by default."""
+        event_metadata = {}
+        for context_metadata in self._context_stack:
+            event_metadata.update(context_metadata)
+        event_metadata.update(metadata)
+        nvtx_enabled = self.nvtx and torch.cuda.is_available()
+        cuda_start = None
+        cuda_end = None
+        use_cuda_events = self.cuda_events and cuda and torch.cuda.is_available()
+
+        if nvtx_enabled:
+            torch.cuda.nvtx.range_push(self._format_nvtx(event, event_metadata))
+        if use_cuda_events:
+            cuda_start = torch.cuda.Event(enable_timing=True)
+            cuda_end = torch.cuda.Event(enable_timing=True)
+            cuda_start.record()
+
+        start_time_ns = time.time_ns()
+        start_perf_ns = time.perf_counter_ns()
+        ok = True
+        self._context_stack.append(event_metadata)
+        try:
+            yield
+        except Exception:
+            ok = False
+            raise
+        finally:
+            end_perf_ns = time.perf_counter_ns()
+            self._context_stack.pop()
+            if use_cuda_events:
+                cuda_end.record()
+            if nvtx_enabled:
+                torch.cuda.nvtx.range_pop()
+
+            record = {
+                "event": event,
+                "iteration": self.iteration,
+                "rank": self.rank,
+                "world_size": self.world_size,
+                "role": self.role,
+                "start_time_ns": start_time_ns,
+                "duration_us": (end_perf_ns - start_perf_ns) / 1000.0,
+                "ok": ok,
+            }
+            record.update(self.metadata)
+            record.update(event_metadata)
+            if use_cuda_events:
+                record["_cuda_start"] = cuda_start
+                record["_cuda_end"] = cuda_end
+            self._records.append(record)
+
+    def flush(self) -> None:
+        """Write pending events for this rank."""
+        if not self._records:
+            return
+        self.output_dir.mkdir(parents=True, exist_ok=True)
+        if self._file is None:
+            path = self.output_dir / f"rank{self.rank:05d}.jsonl"
+            self._file = path.open("a", encoding="utf-8")
+
+        for record in sorted(self._records, key=lambda item: item["start_time_ns"]):
+            cuda_start = record.pop("_cuda_start", None)
+            cuda_end = record.pop("_cuda_end", None)
+            if cuda_start is not None and cuda_end is not None:
+                cuda_end.synchronize()
+                record["cuda_ms"] = cuda_start.elapsed_time(cuda_end)
+            self._file.write(json.dumps(_jsonable(record), sort_keys=True) + "\n")
+        self._file.flush()
+        self._records.clear()
+
+    def close(self) -> None:
+        """Flush and close the rank-local output file."""
+        self.flush()
+        if self._file is not None:
+            self._file.close()
+            self._file = None
+
+    def _format_nvtx(self, event: str, metadata: dict[str, Any]) -> str:
+        microbatch = metadata.get("microbatch")
+        if microbatch is None:
+            return f"{event}/iter={self.iteration}/role={self.role}"
+        return f"{event}/iter={self.iteration}/mb={microbatch}/role={self.role}"
+
+
+_RECORDER: Optional[PipelineTimelineRecorder] = None
+
+
+def configure_pipeline_timeline(
+    *,
+    enabled: bool,
+    output_dir: str,
+    rank: int,
+    world_size: int,
+    role: str,
+    metadata: Optional[dict[str, Any]] = None,
+    cuda_events: bool = False,
+    nvtx: bool = False,
+) -> None:
+    """Configure the process-local pipeline timeline recorder."""
+    global _RECORDER
+    close_pipeline_timeline()
+    if not enabled:
+        _RECORDER = None
+        return
+    _RECORDER = PipelineTimelineRecorder(
+        output_dir=Path(output_dir),
+        rank=rank,
+        world_size=world_size,
+        role=role,
+        metadata=metadata or {},
+        cuda_events=cuda_events,
+        nvtx=nvtx,
+    )
+
+
+def set_pipeline_timeline_iteration(iteration: int) -> None:
+    """Set the current training iteration attached to subsequent events."""
+    if _RECORDER is not None:
+        _RECORDER.iteration = iteration
+
+
+def flush_pipeline_timeline() -> None:
+    """Flush pending rank-local timeline events."""
+    if _RECORDER is not None:
+        _RECORDER.flush()
+
+
+def close_pipeline_timeline() -> None:
+    """Close the process-local timeline recorder."""
+    global _RECORDER
+    if _RECORDER is not None:
+        _RECORDER.close()
+        _RECORDER = None
+
+
+def timeline_event(event: str, cuda: bool = False, **metadata):
+    """Return a no-op or recording context manager for one timeline event."""
+    if _RECORDER is None:
+        return contextlib.nullcontext()
+    return _RECORDER.record(event, cuda=cuda, **metadata)
+
+
+def _jsonable(value):
+    """Convert common non-JSON values used in trace metadata."""
+    if isinstance(value, dict):
+        return {str(key): _jsonable(item) for key, item in value.items()}
+    if isinstance(value, (list, tuple)):
+        return [_jsonable(item) for item in value]
+    if isinstance(value, torch.Size):
+        return list(value)
+    return value
diff --git a/megatron/core/ssm/mamba_layer.py b/megatron/core/ssm/mamba_layer.py
index 17903cebf3b..6147d6ae689 100644
--- a/megatron/core/ssm/mamba_layer.py
+++ b/megatron/core/ssm/mamba_layer.py
@@ -80,6 +80,10 @@ def __init__(
         self.submodules_config = submodules
         self.layer_number = layer_number
         self.hidden_dropout = config.hidden_dropout
+        # Store tp_group so MegatronModule.sharded_state_dict doesn't fall back
+        # to parallel_state.get_tensor_model_parallel_group(); the hetero
+        # MIMO loop never initializes parallel_state.
+        self.tp_group = pg_collection.tp
         self.mixer = build_module(
             submodules.mixer,
             self.config,
diff --git a/megatron/core/ssm/mamba_mixer.py b/megatron/core/ssm/mamba_mixer.py
index 727c6ef5fd6..a99545b4e3c 100644
--- a/megatron/core/ssm/mamba_mixer.py
+++ b/megatron/core/ssm/mamba_mixer.py
@@ -95,6 +95,17 @@ class ExtendedRMSNorm(RMSNormGated):
     RMSNormGated with sharded state dict.
     """
 
+    def __init__(self, *args, tp_group=None, **kwargs):
+        super().__init__(*args, **kwargs)
+        # Store tp_group eagerly so MegatronModule.sharded_state_dict and the
+        # method below don't have to fall back to
+        # parallel_state.get_tensor_model_parallel_group() — that fallback is
+        # unavailable in heterogeneous layouts that don't initialize
+        # parallel_state. Callers that don't pass tp_group keep the old lazy
+        # fallback behavior via `hasattr` in `sharded_state_dict`.
+        if tp_group is not None:
+            self.tp_group = tp_group
+
     def sharded_state_dict(self, prefix="", sharded_offsets=(), metadata=None):
         """Sharding along axis 0, bias not sharded"""
         if not hasattr(self, 'tp_group'):
@@ -373,6 +384,7 @@ def __init__(
                 norm_before_gate=self.norm_before_gate,
                 device=torch.cuda.current_device(),
                 dtype=config.params_dtype,
+                tp_group=self.pg_collection.tp,
             )
             setattr(self.norm.weight, "tensor_model_parallel", True)
             setattr(self.norm.weight, "partition_dim", 0)
@@ -1284,6 +1296,8 @@ def sharded_state_dict(self, prefix="", sharded_offsets=(), metadata=None):
                 "D": 0,
             },  # parameters sharded across TP
             sharded_offsets=sharded_offsets,
+            tp_group=self.tp_group,
+            dp_cp_group=metadata['dp_cp_group'],
         )
         # Submodules
         for name, module in self.named_children():
diff --git a/megatron/core/tensor_parallel/cross_entropy.py b/megatron/core/tensor_parallel/cross_entropy.py
index 27c8f063440..8abfad8d3e2 100644
--- a/megatron/core/tensor_parallel/cross_entropy.py
+++ b/megatron/core/tensor_parallel/cross_entropy.py
@@ -228,5 +228,6 @@ def vocab_parallel_cross_entropy(vocab_parallel_logits, target, label_smoothing=
 
         label_smoothing: smoothing factor, must be in range [0.0, 1.0)
                          default is no smoothing (=0.0)
+
     """
     return _VocabParallelCrossEntropy.apply(vocab_parallel_logits, target, label_smoothing)
diff --git a/megatron/core/tokenizers/vision/libraries/multimodal_tokenizer.py b/megatron/core/tokenizers/vision/libraries/multimodal_tokenizer.py
index 80712351095..c71a503553b 100644
--- a/megatron/core/tokenizers/vision/libraries/multimodal_tokenizer.py
+++ b/megatron/core/tokenizers/vision/libraries/multimodal_tokenizer.py
@@ -85,12 +85,16 @@ def __init__(
             pretrained_model_name_or_path=path, **kwargs
         )
 
+        # Some tokenizers, including the Nemotron6-MoE tokenizer used by the
+        # VLM recipe, already contain <image>. Re-adding such a token returns
+        # 0, so validate that each requested token resolves instead.
+        tokenizer.add_tokens(special_tokens, special_tokens=True)
         self._vocab_size = len(tokenizer)
-
-        num_added_tokens = tokenizer.add_tokens(special_tokens, special_tokens=True)
-        assert num_added_tokens == len(
-            special_tokens
-        ), f"failed to add {len(special_tokens)} special tokens; only added {num_added_tokens}"
+        for token in special_tokens:
+            token_id = tokenizer.convert_tokens_to_ids(token)
+            assert (
+                token_id is not None and token_id != tokenizer.unk_token_id
+            ), f"special token {token!r} could not be resolved (got id={token_id})"
 
         self.tokenizer = tokenizer
 
@@ -181,6 +185,14 @@ def __init__(
                 has_bos=True,
                 has_system_role=True,
             )
+        elif prompt_format == "nemotron6-moe":
+            self._prompt_config = PromptConfig(
+                assistant_prefix_len=None,
+                pad_token_id=tokenizer.convert_tokens_to_ids("<unk>"),
+                custom_chat_template=None,
+                has_bos=False,
+                has_system_role=True,
+            )
         else:
             raise NotImplementedError("unknown multimodal tokenizer type", prompt_format)
 
diff --git a/megatron/core/transformer/moe/moe_layer.py b/megatron/core/transformer/moe/moe_layer.py
index a64afee719f..8a01fc031b5 100644
--- a/megatron/core/transformer/moe/moe_layer.py
+++ b/megatron/core/transformer/moe/moe_layer.py
@@ -8,7 +8,7 @@
 
 import torch
 
-from megatron.core import parallel_state, tensor_parallel, utils
+from megatron.core import tensor_parallel, utils
 from megatron.core.extensions.transformer_engine import HAVE_TE
 from megatron.core.process_groups_config import ProcessGroupCollection
 from megatron.core.transformer.module import MegatronModule
@@ -468,7 +468,7 @@ def shared_experts_compute(self, hidden_states: torch.Tensor):
                         apply_module(self.shared_experts),
                         False,
                         tensor_parallel.random.get_cuda_rng_tracker,
-                        parallel_state.get_tensor_model_parallel_group(),
+                        self.tp_group,
                         hidden_states,
                     )
                 else:
@@ -621,7 +621,7 @@ def custom_forward(hidden_states, intermediate_tensors=None, padding_mask=None):
                     custom_forward,
                     False,
                     tensor_parallel.random.get_cuda_rng_tracker,
-                    parallel_state.get_tensor_model_parallel_group(),
+                    self.tp_group,
                     hidden_states,
                     intermediate_tensors,
                     padding_mask,
diff --git a/megatron/core/transformer/moe/moe_utils.py b/megatron/core/transformer/moe/moe_utils.py
index f258f3474ae..acdbb04d916 100644
--- a/megatron/core/transformer/moe/moe_utils.py
+++ b/megatron/core/transformer/moe/moe_utils.py
@@ -1161,7 +1161,10 @@ def track_moe_metrics(
 
 
 def get_updated_expert_bias(
-    tokens_per_expert: torch.Tensor, expert_bias: torch.Tensor, expert_bias_update_rate: float
+    tokens_per_expert: torch.Tensor,
+    expert_bias: torch.Tensor,
+    expert_bias_update_rate: float,
+    tp_dp_cp_group: Optional[torch.distributed.ProcessGroup] = None,
 ) -> torch.Tensor:
     """Update expert bias for biased expert routing. See https://arxiv.org/abs/2408.15664v1#
 
@@ -1175,11 +1178,12 @@ def get_updated_expert_bias(
     """
     with torch.no_grad():
         # All Reduce Across TPxCPxDP group
-        torch.distributed.all_reduce(
-            tokens_per_expert,
+        if tp_dp_cp_group is None:
             # TODO(Hepteract): delete the usage of the global parallel_state.
-            group=parallel_state.get_tensor_and_data_parallel_group(with_context_parallel=True),
-        )
+            tp_dp_cp_group = parallel_state.get_tensor_and_data_parallel_group(
+                with_context_parallel=True
+            )
+        torch.distributed.all_reduce(tokens_per_expert, group=tp_dp_cp_group)
         average_tokens = tokens_per_expert.sum(dim=-1, keepdim=True) / tokens_per_expert.shape[-1]
         offset = average_tokens - tokens_per_expert
         updated_expert_bias = expert_bias + torch.sign(offset) * expert_bias_update_rate
diff --git a/megatron/core/transformer/moe/shared_experts.py b/megatron/core/transformer/moe/shared_experts.py
index 61ea47955b8..a565e2ec718 100644
--- a/megatron/core/transformer/moe/shared_experts.py
+++ b/megatron/core/transformer/moe/shared_experts.py
@@ -229,10 +229,12 @@ def pre_forward_comm(self, input, wait_current_stream=True):
                 self.gate_score = torch.nn.functional.sigmoid(logits)
             if self.config.sequence_parallel:
                 self.cached_fc1_input = gather_from_sequence_parallel_region(
-                    input, tensor_parallel_output_grad=True
+                    input, tensor_parallel_output_grad=True, group=self.tp_group
                 )
             else:
-                self.cached_fc1_input = copy_to_tensor_model_parallel_region(input)
+                self.cached_fc1_input = copy_to_tensor_model_parallel_region(
+                    input, group=self.tp_group
+                )
             set_tensor_grad_fn_sequence_sr(self.cached_fc1_input, torch.iinfo(torch.int).max)
 
     @overlap_state_check(
@@ -321,11 +323,11 @@ def post_forward_comm(self):
         with torch.cuda.stream(self.stream):
             if self.config.sequence_parallel:
                 self.cached_output = reduce_scatter_to_sequence_parallel_region(
-                    self.cached_fc2_output
+                    self.cached_fc2_output, group=self.tp_group
                 )
             else:
                 self.cached_output = reduce_from_tensor_model_parallel_region(
-                    self.cached_fc2_output
+                    self.cached_fc2_output, group=self.tp_group
                 )
             self.cached_fc2_output = None
             set_tensor_grad_fn_sequence_sr(self.cached_output, torch.iinfo(torch.int).max)
diff --git a/pyproject.toml b/pyproject.toml
index f7611078b9e..a223bf6ada4 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -99,7 +99,7 @@ dev = [
     "mamba-ssm~=2.2",
     "causal-conv1d~=1.5",
     "flash-linear-attention~=0.4.0",
-    "megatron-energon[av_decode]~=6.0",
+    "megatron-energon[av_decode,multimodal]==7.3.3.dev30+gd456cbd4a",
     "av",
     "flashinfer-python~=0.5.0",
     "wget",
@@ -121,7 +121,7 @@ lts = [
     "opentelemetry-api~=1.33.1",
     "mamba-ssm~=2.2",
     "causal-conv1d~=1.5",
-    "megatron-energon[av_decode]~=6.0",
+    "megatron-energon[av_decode,multimodal]==7.3.3.dev30+gd456cbd4a",
     "av",
     "flashinfer-python~=0.5.0",
     "wget",
@@ -204,6 +204,7 @@ transformer-engine = { git = "https://github.com/NVIDIA/TransformerEngine.git",
 nemo-run = { git = "https://github.com/NVIDIA-NeMo/Run.git", rev = "17ae86b64d7f75653351664f5d8c9e466faede00" }
 emerging_optimizers = { git = "https://github.com/NVIDIA-NeMo/Emerging-Optimizers.git", rev = "v0.2.0" }
 nvidia-resiliency-ext = { git = "https://github.com/NVIDIA/nvidia-resiliency-ext.git", rev = "b2bb3d728a18795807d9f76c535e005a609a1b01" }
+megatron-energon = { git = "https://gitlab-master.nvidia.com/sasatheesh/Megatron-Energon", rev = "d456cbd4a9a8a760b20be51194a0209c9a945b0a" }
 
 [tool.isort]
 profile = "black"                                                          # black-compatible
diff --git a/tests/unit_tests/models/test_mimo_1f1b_schedule.py b/tests/unit_tests/models/test_mimo_1f1b_schedule.py
index 836382b21cc..21fb1eb1510 100644
--- a/tests/unit_tests/models/test_mimo_1f1b_schedule.py
+++ b/tests/unit_tests/models/test_mimo_1f1b_schedule.py
@@ -81,26 +81,39 @@ def no_sync_func():
     return no_sync_func
 
 
-def create_hypercomm_grid(offset=0, tp=1, cp=1, pp=1, dp=1):
+def create_hypercomm_grid(offset=0, tp=1, cp=1, pp=1, dp=1, ep=1, expt_tp=None, expt_dp=None):
     """Create a HyperCommGrid with specified parallelism."""
+    expt_tp = tp if expt_tp is None else expt_tp
+    module_world_size = tp * cp * pp * dp
+    expert_model_size = expt_tp * ep * pp
+    if expt_dp is None:
+        assert module_world_size % expert_model_size == 0, (
+            f"module_world_size ({module_world_size}) must be divisible by "
+            f"expt_tp*ep*pp ({expert_model_size})"
+        )
+        expt_dp = module_world_size // expert_model_size
+
     grid = HyperCommGrid(
-        shape=[tp, cp, pp, dp, 1, 1],  # [tp, cp, pp, dp, ep, expt_dp]
-        dim_names=["tp", "cp", "pp", "dp", "ep", "expt_dp"],
+        shape=[tp, cp, dp, pp],
+        dim_names=["tp", "cp", "dp", "pp"],
         rank_offset=offset,
         backend="nccl",
     )
+    grid.register_layout("expert", [expt_tp, ep, expt_dp, pp], ["expt_tp", "ep", "expt_dp", "pp"])
     grid.create_pg(["tp"])
     grid.create_pg(["cp"])
     grid.create_pg(["pp"])
     grid.create_pg(["dp"])
     grid.create_pg(["dp", "cp"])
+    grid.create_pg(["tp", "cp"])
     grid.create_pg(["ep"])
+    grid.create_pg(["expt_tp"])
     grid.create_pg(["expt_dp"])
-    # Required by _get_pg_collection_for_optimizer
     grid.create_pg(["tp", "pp"])
-    grid.create_pg(["tp", "ep", "pp"])
-    grid.create_pg(["dp", "ep"])
-    grid.create_pg(["tp", "cp", "ep", "pp", "dp"])
+    grid.create_pg(["tp", "cp", "dp"])
+    grid.create_pg(["tp", "cp", "pp", "dp"])
+    grid.create_pg(["expt_tp", "ep"])
+    grid.create_pg(["expt_tp", "ep", "pp"])
     _active_grids.append(grid)
     return grid
 
@@ -116,15 +129,24 @@ def destroy_all_grids():
 
 def get_pg_collection(grid):
     """Get ProcessGroupCollection from grid."""
-    pg_collection = ProcessGroupCollection()
-    pg_collection.tp = grid.get_pg("tp")
-    pg_collection.cp = grid.get_pg("cp")
-    pg_collection.pp = grid.get_pg("pp")
-    pg_collection.ep = grid.get_pg("ep")
-    pg_collection.dp = grid.get_pg("dp")
-    pg_collection.dp_cp = grid.get_pg(["dp", "cp"])
-    pg_collection.expt_dp = grid.get_pg("expt_dp")
-    return pg_collection
+    pg = ProcessGroupCollection()
+    pg.tp = grid.get_pg("tp")
+    pg.cp = grid.get_pg("cp")
+    pg.pp = grid.get_pg("pp")
+    pg.dp = grid.get_pg("dp")
+    pg.dp_cp = grid.get_pg(["dp", "cp"])
+    pg.intra_dp_cp = pg.dp_cp
+    pg.tp_cp = grid.get_pg(["tp", "cp"])
+    pg.mp = grid.get_pg(["tp", "pp"])
+    pg.tp_dp_cp = grid.get_pg(["tp", "dp", "cp"])
+    pg.ep = grid.get_pg("ep")
+    pg.expt_tp = grid.get_pg("expt_tp")
+    pg.expt_dp = grid.get_pg("expt_dp")
+    pg.intra_expt_dp = pg.expt_dp
+    pg.tp_ep = grid.get_pg(["expt_tp", "ep"])
+    pg.tp_ep_pp = grid.get_pg(["expt_tp", "ep", "pp"])
+    pg.intra_dist_opt = grid.get_pg(["tp", "cp", "dp", "pp"])
+    return pg
 
 
 def create_all_embedding_groups(grids):
@@ -214,6 +236,9 @@ def get_language_model_spec(
     bias=True,
     dropout=True,
     per_token_loss=False,
+    num_moe_experts=None,
+    moe_router_topk=1,
+    moe_grouped_gemm=False,
 ):
     """Get the language model spec.
 
@@ -229,6 +254,8 @@ def get_language_model_spec(
     pp_rank = dist.get_rank(pg_collection.pp)
     pp_size = dist.get_world_size(pg_collection.pp)
     tp_size = pg_collection.tp.size() if pg_collection.tp is not None else 1
+    ep_size = pg_collection.ep.size() if pg_collection.ep is not None else 1
+    expt_tp_size = pg_collection.expt_tp.size() if pg_collection.expt_tp is not None else tp_size
 
     pipeline_dtype = torch.bfloat16 if bf16 else torch.float32
     extra_kwargs = {}
@@ -237,6 +264,17 @@ def get_language_model_spec(
     if not dropout:
         extra_kwargs['attention_dropout'] = 0.0
         extra_kwargs['hidden_dropout'] = 0.0
+    if num_moe_experts is not None:
+        extra_kwargs.update(
+            {
+                'num_moe_experts': num_moe_experts,
+                'moe_router_topk': moe_router_topk,
+                'moe_router_pre_softmax': moe_router_topk == 1,
+                'expert_model_parallel_size': ep_size,
+                'expert_tensor_parallel_size': expt_tp_size,
+                'moe_grouped_gemm': moe_grouped_gemm,
+            }
+        )
 
     lm_config = TransformerConfig(
         num_layers=num_layers,
@@ -258,7 +296,9 @@ def get_language_model_spec(
         module=GPTModel,
         params={
             "config": lm_config,
-            "transformer_layer_spec": get_gpt_layer_with_transformer_engine_spec(),
+            "transformer_layer_spec": get_gpt_layer_with_transformer_engine_spec(
+                num_experts=num_moe_experts, moe_grouped_gemm=moe_grouped_gemm
+            ),
             "vocab_size": vocab_size,
             "max_sequence_length": seq_len,
             "pre_process": (pp_rank == 0),
@@ -380,6 +420,9 @@ def get_mimo_model(
     bias=True,
     dropout=True,
     per_token_loss=False,
+    language_num_moe_experts=None,
+    language_moe_router_topk=1,
+    language_moe_grouped_gemm=False,
 ):
     """Create MIMO model with TransformerBlock encoder and GPTModel LLM.
 
@@ -414,6 +457,9 @@ def get_mimo_model(
         bias=bias,
         dropout=dropout,
         per_token_loss=per_token_loss,
+        num_moe_experts=language_num_moe_experts,
+        moe_router_topk=language_moe_router_topk,
+        moe_grouped_gemm=language_moe_grouped_gemm,
     )
     vision_submodule_spec = get_vision_submodules_spec(
         num_layers=num_layers,
@@ -560,6 +606,15 @@ def run_mimo_1f1b_test(
     llm_pp,
     llm_dp,
     llm_offset,
+    encoder_ep=1,
+    encoder_expt_tp=None,
+    encoder_expt_dp=None,
+    llm_ep=1,
+    llm_expt_tp=None,
+    llm_expt_dp=None,
+    language_num_moe_experts=None,
+    language_moe_router_topk=1,
+    language_moe_grouped_gemm=False,
     hidden_size=256,
     num_layers=2,
     vocab_size=1000,
@@ -579,9 +634,25 @@ def run_mimo_1f1b_test(
     encoder_name = "images"
 
     encoder_grid = create_hypercomm_grid(
-        offset=encoder_offset, tp=encoder_tp, cp=1, pp=encoder_pp, dp=encoder_dp
+        offset=encoder_offset,
+        tp=encoder_tp,
+        cp=1,
+        pp=encoder_pp,
+        dp=encoder_dp,
+        ep=encoder_ep,
+        expt_tp=encoder_expt_tp,
+        expt_dp=encoder_expt_dp,
+    )
+    llm_grid = create_hypercomm_grid(
+        offset=llm_offset,
+        tp=llm_tp,
+        cp=1,
+        pp=llm_pp,
+        dp=llm_dp,
+        ep=llm_ep,
+        expt_tp=llm_expt_tp,
+        expt_dp=llm_expt_dp,
     )
-    llm_grid = create_hypercomm_grid(offset=llm_offset, tp=llm_tp, cp=1, pp=llm_pp, dp=llm_dp)
 
     # Create all embedding PGs upfront — dist.new_group is a collective that
     # requires ALL ranks to participate, so we must create them before any
@@ -598,6 +669,9 @@ def run_mimo_1f1b_test(
         num_layers=num_layers,
         vocab_size=vocab_size,
         seq_len=seq_length,
+        language_num_moe_experts=language_num_moe_experts,
+        language_moe_router_topk=language_moe_router_topk,
+        language_moe_grouped_gemm=language_moe_grouped_gemm,
     )
 
     no_sync_func = build_no_sync_func(mimo_model)
@@ -844,6 +918,33 @@ def test_full_pp_8gpu(self):
             num_microbatches=4,
         )
 
+    def test_moe_lm_ep2_edp1_pp2_8gpu(self):
+        """MoE LLM uses EP=2/EDP=1 over a PP=2 language pipeline."""
+        if self.world_size != 8:
+            pytest.skip(f"Requires 8 GPUs, got {self.world_size}")
+
+        run_mimo_1f1b_test(
+            encoder_tp=2,
+            encoder_pp=2,
+            encoder_dp=1,
+            encoder_offset=0,
+            llm_tp=1,
+            llm_pp=2,
+            llm_dp=2,
+            llm_offset=4,
+            llm_ep=2,
+            llm_expt_tp=1,
+            llm_expt_dp=1,
+            language_num_moe_experts=4,
+            language_moe_router_topk=1,
+            hidden_size=128,
+            num_layers=2,
+            vocab_size=512,
+            seq_length=32,
+            micro_batch_size=2,
+            num_microbatches=2,
+        )
+
     def test_fan_in_dp4_to_dp1_llm_tp2_pp2_8gpu(self):
         """Fan-in 4→1: Encoder DP=4 → LLM TP=2 PP=2 DP=1, on 8 GPUs.
 
diff --git a/tests/unit_tests/models/test_mimo_bridge_split_sizes.py b/tests/unit_tests/models/test_mimo_bridge_split_sizes.py
new file mode 100644
index 00000000000..b515877dbf0
--- /dev/null
+++ b/tests/unit_tests/models/test_mimo_bridge_split_sizes.py
@@ -0,0 +1,33 @@
+# Copyright (c) 2026, NVIDIA CORPORATION. All rights reserved.
+
+import torch
+
+from megatron.core.models.mimo.model.base import MimoModel
+from megatron.core.pipeline_parallel.bridge_communicator import BridgeCommunicator
+
+
+def test_attach_modality_split_sizes_includes_zero_image_lanes():
+    """Bridge split metadata follows per-sample image token counts."""
+    model = object.__new__(MimoModel)
+    model.special_token_ids = {"images": 18}
+
+    input_ids = torch.tensor([[18, 1, 2, 3], [4, 5, 6, 7], [18, 18, 8, 9]])
+    output = torch.empty((3, 4))
+
+    model._attach_modality_split_sizes(output, input_ids, "images")
+
+    assert output._mimo_bridge_split_sizes == [1, 0, 2]
+
+
+def test_bridge_split_sizes_allow_text_only_encoder_output():
+    """The bridge can split a text-only encoder payload with no modality tokens."""
+    bridge = BridgeCommunicator.__new__(BridgeCommunicator)
+    bridge.tensor_ndim = 2
+    bridge.dim_mapping = {'s': 0, 'h': 1, 'b': 0}
+
+    output = torch.empty((0, 4))
+    output._mimo_bridge_split_sizes = [0, 0]
+
+    splits = bridge._split_tensor_at_batch_dim(output, 2)
+
+    assert [tuple(split.shape) for split in splits] == [(0, 4), (0, 4)]
diff --git a/tests/unit_tests/models/test_mimo_checkpoint.py b/tests/unit_tests/models/test_mimo_checkpoint.py
index 3dc75a05a87..800759a5e6c 100644
--- a/tests/unit_tests/models/test_mimo_checkpoint.py
+++ b/tests/unit_tests/models/test_mimo_checkpoint.py
@@ -56,10 +56,25 @@ def _randomize_params(model, seed):
             p.random_()
 
 
-def _create_model_and_optimizer(encoder_grid, llm_grid, hidden_size, num_layers, vocab_size, seed):
+def _create_model_and_optimizer(
+    encoder_grid,
+    llm_grid,
+    hidden_size,
+    num_layers,
+    vocab_size,
+    seed,
+    use_distributed_optimizer=False,
+):
     """Create MIMO model with DDP + optimizer, do a fake step to populate optimizer state.
 
     Caller must call create_all_embedding_groups() before this function.
+
+    With ``use_distributed_optimizer=False`` (default) the inner optimizer is
+    Float16Optimizer, which exercises the MIMO-specific param_groups/grad_scaler
+    extraction in sharded_state_dict. With ``use_distributed_optimizer=True`` the
+    inner is a ChainedOptimizer of DistributedOptimizers, exercising the
+    ``mimo.{name}.`` prefix walk and the ``_extract_param_state_sharding_type``
+    helper that wraps DistributedOptimizer's per-module sharding-type string.
     """
     torch.manual_seed(seed)
 
@@ -74,22 +89,27 @@ def _create_model_and_optimizer(encoder_grid, llm_grid, hidden_size, num_layers,
     )
     _randomize_params(mimo_model, seed)
 
-    # Use Float16Optimizer (not DistributedOptimizer) to exercise the MIMO-specific
-    # param_groups/grad_scaler extraction in sharded_state_dict. DistributedOptimizer
-    # handles its own checkpointing internally and our code is transparent to it.
     opt_config = OptimizerConfig(
         optimizer='adam',
         lr=1e-4,
         weight_decay=0.01,
         clip_grad=1.0,
         bf16=True,
-        use_distributed_optimizer=False,
+        use_distributed_optimizer=use_distributed_optimizer,
     )
     optimizer = get_mimo_optimizer(mimo_model, opt_config)
 
-    # Fake backward + step to populate optimizer state (Adam m/v)
+    # Fake backward + step to populate optimizer state (Adam m/v).
+    # DistributedOptimizer reads grads from each DDP wrapper's main_grad buffer
+    # rather than from param.grad, so populate the buffer directly.
     for param in mimo_model.parameters():
-        param.grad = torch.randn_like(param)
+        if not param.requires_grad:
+            continue
+        grad = torch.randn_like(param)
+        if hasattr(param, "main_grad") and param.main_grad is not None:
+            param.main_grad.copy_(grad.to(param.main_grad.dtype))
+        else:
+            param.grad = grad
     optimizer.step()
 
     return mimo_model, optimizer
@@ -107,6 +127,7 @@ def run_checkpoint_test(
     hidden_size=256,
     num_layers=2,
     vocab_size=1000,
+    use_distributed_optimizer=False,
 ):
     """Save model + optimizer checkpoint, load into fresh instances, verify match."""
     # Clear NVTE env vars that the conftest set_env fixture sets to '0'.
@@ -123,7 +144,13 @@ def run_checkpoint_test(
 
     # --- Create model A + optimizer, snapshot state ---
     model_a, optimizer_a = _create_model_and_optimizer(
-        encoder_grid, llm_grid, hidden_size, num_layers, vocab_size, seed=1
+        encoder_grid,
+        llm_grid,
+        hidden_size,
+        num_layers,
+        vocab_size,
+        seed=1,
+        use_distributed_optimizer=use_distributed_optimizer,
     )
     params_a = {name: p.clone() for name, p in model_a.named_parameters()}
 
@@ -147,7 +174,13 @@ def run_checkpoint_test(
 
         # --- Create model B + optimizer with different weights (reuse same grids) ---
         model_b, optimizer_b = _create_model_and_optimizer(
-            encoder_grid, llm_grid, hidden_size, num_layers, vocab_size, seed=2
+            encoder_grid,
+            llm_grid,
+            hidden_size,
+            num_layers,
+            vocab_size,
+            seed=2,
+            use_distributed_optimizer=use_distributed_optimizer,
         )
 
         # Load model
@@ -271,3 +304,28 @@ def test_encoder_tp2_pp2_llm_tp2_pp2(self):
             hidden_size=256,
             num_layers=2,
         )
+
+    def test_encoder_tp2_llm_tp2_pp3_distributed_optimizer(self):
+        """Same shape as test_encoder_tp2_llm_tp2_pp3 but with DistributedOptimizer.
+
+        Exercises the `mimo.{name}.` ShardedObject-key prefix walk that prevents
+        the two branches' optimizers from colliding, and the new
+        `_extract_param_state_sharding_type` helper that re-routes
+        DistributedOptimizer's top-level sharding-type string through a per-module
+        ShardedObject (so non-rank-0 owners don't lose it on reload).
+        """
+        if self.world_size != 8:
+            pytest.skip(f"Requires 8 GPUs, got {self.world_size}")
+        run_checkpoint_test(
+            encoder_tp=2,
+            encoder_pp=1,
+            encoder_dp=1,
+            encoder_offset=0,
+            llm_tp=2,
+            llm_pp=3,
+            llm_dp=1,
+            llm_offset=2,
+            hidden_size=256,
+            num_layers=3,
+            use_distributed_optimizer=True,
+        )
diff --git a/tests/unit_tests/models/test_mimo_colocated_correctness.py b/tests/unit_tests/models/test_mimo_colocated_correctness.py
index e2d91bdf83e..7a0e1a71499 100644
--- a/tests/unit_tests/models/test_mimo_colocated_correctness.py
+++ b/tests/unit_tests/models/test_mimo_colocated_correctness.py
@@ -1181,3 +1181,87 @@ def test_dist_matches_dp1_reference_post_step_weights(
         if failures:
             summary = "\n\n".join(f"== {oracle} ==\n{msg}" for oracle, msg in failures)
             raise AssertionError(f"{len(failures)} oracle(s) failed:\n{summary}")
+
+    @pytest.mark.skipif(
+        version.parse(torch.__version__) < version.parse("2.3.0"), reason="Requires PyTorch 2.3+"
+    )
+    def test_colocated_moe_lm_etp2_ep2_edp2_smoke(self):
+        """Colocated MIMO step with MoE LLM using ETP/EP/EDP registered expert groups."""
+        if self.world_size != 8:
+            pytest.skip(f"Requires 8 GPUs, got {self.world_size}")
+
+        _set_deterministic_env()
+
+        encoder_name = "images"
+        hidden_size, seq_length, vocab_size = 128, 32, 512
+        micro_batch_size = 1
+        num_microbatches = 1
+
+        encoder_grid = create_hypercomm_grid(offset=0, tp=2, cp=1, pp=1, dp=4)
+        llm_grid = create_hypercomm_grid(
+            offset=0, tp=1, cp=1, pp=1, dp=8, ep=2, expt_tp=2, expt_dp=2
+        )
+        create_all_embedding_groups([encoder_grid, llm_grid])
+
+        ddp_config = DistributedDataParallelConfig(
+            overlap_grad_reduce=True, bucket_size=10000, use_distributed_optimizer=True
+        )
+
+        torch.manual_seed(12345)
+        mimo_model, _, _, language_pg, vision_pg = get_mimo_model(
+            encoder_name=encoder_name,
+            encoder_grid=encoder_grid,
+            llm_grid=llm_grid,
+            hidden_size=hidden_size,
+            num_layers=1,
+            vocab_size=vocab_size,
+            seq_len=seq_length,
+            ddp_config=ddp_config,
+            bf16=False,
+            bias=False,
+            dropout=False,
+            per_token_loss=True,
+            language_num_moe_experts=4,
+            language_moe_router_topk=1,
+        )
+        mimo_model.model_type = ModelType.encoder_or_decoder
+        self._mimo_models.append(mimo_model)
+        _wire_training_hooks(mimo_model, language_pg, vision_pg)
+
+        opt_config = OptimizerConfig(
+            optimizer='adam',
+            lr=1e-4,
+            weight_decay=0.01,
+            clip_grad=1.0,
+            bf16=False,
+            use_distributed_optimizer=True,
+        )
+        optimizer = get_mimo_optimizer(mimo_model, opt_config)
+
+        global_batches = _generate_and_broadcast_global_batches(
+            global_mbs=micro_batch_size * llm_grid.get_pg("dp").size(),
+            seq_length=seq_length,
+            hidden_size=hidden_size,
+            vocab_size=vocab_size,
+            encoder_name=encoder_name,
+            num_batches=num_microbatches,
+            mask_pattern="uniform",
+        )
+        batches = [_slice_global_batch_for_dist(b, encoder_grid, llm_grid) for b in global_batches]
+
+        optimizer.zero_grad()
+        losses = _run_forward_backward(
+            mimo_model=mimo_model,
+            batches=batches,
+            enc_grid=encoder_grid,
+            llm_grid=llm_grid,
+            encoder_name=encoder_name,
+            language_pg=language_pg,
+            micro_batch_size=micro_batch_size,
+            seq_length=seq_length,
+            num_microbatches=num_microbatches,
+        )
+        success, grad_norm, _ = optimizer.step()
+        assert success, "MoE colocated optimizer step failed"
+        assert grad_norm is not None and grad_norm > 0
+        assert losses
diff --git a/tests/unit_tests/models/test_mimo_embedding_alignment.py b/tests/unit_tests/models/test_mimo_embedding_alignment.py
index 688ebe4832b..c6e0f105cdf 100644
--- a/tests/unit_tests/models/test_mimo_embedding_alignment.py
+++ b/tests/unit_tests/models/test_mimo_embedding_alignment.py
@@ -107,17 +107,17 @@ def test_basic_alignment(self):
         )
 
         # Check output shape
-        assert combined.shape == (seq_length, batch_size, hidden_dim)
+        assert combined.shape == (batch_size, seq_length, hidden_dim)
 
         # Check special token positions have the correct embeddings
         # First vision token (Batch 0, Seq 1) should have the first vision embedding
-        assert combined[1, 0, 0] == 10.0  # First marker
-        assert torch.all(combined[1, 0, 1:] == 0.0), "Non-zero values found after marker"
+        assert combined[0, 1, 0] == 10.0  # First marker
+        assert torch.all(combined[0, 1, 1:] == 0.0), "Non-zero values found after marker"
 
         # Second vision token (Batch 1, Seq 3) should have the second vision embedding
-        assert combined[3, 1, 1] == 20.0  # Second marker
-        assert torch.all(combined[3, 1, :1] == 0.0), "Non-zero values found before marker"
-        assert torch.all(combined[3, 1, 2:] == 0.0), "Non-zero values found after marker"
+        assert combined[1, 3, 1] == 20.0  # Second marker
+        assert torch.all(combined[1, 3, :1] == 0.0), "Non-zero values found before marker"
+        assert torch.all(combined[1, 3, 2:] == 0.0), "Non-zero values found after marker"
 
         # Verify text positions have only zeros
         text_positions = [
@@ -138,7 +138,7 @@ def test_basic_alignment(self):
         ]
 
         for s, b in text_positions:
-            assert torch.all(combined[s, b] == 0.01)
+            assert torch.all(combined[b, s] == 0.01)
 
     def test_multiple_modalities(self):
         """Test alignment with multiple modalities with special tokens at different positions."""
@@ -215,27 +215,27 @@ def test_multiple_modalities(self):
         )
 
         # Check output shape
-        assert combined.shape == (seq_length, batch_size, hidden_dim)
+        assert combined.shape == (batch_size, seq_length, hidden_dim)
 
         # Check that special token positions have the correct markers and only at correct positions
 
         # Batch 0 markers
-        assert torch.isclose(combined[1, 0, 0], torch.tensor(10.0, device=self.device))  # Vision
-        assert torch.isclose(combined[4, 0, 1], torch.tensor(30.0, device=self.device))  # Audio
-        assert torch.isclose(combined[8, 0, 2], torch.tensor(50.0, device=self.device))  # Video
+        assert torch.isclose(combined[0, 1, 0], torch.tensor(10.0, device=self.device))  # Vision
+        assert torch.isclose(combined[0, 4, 1], torch.tensor(30.0, device=self.device))  # Audio
+        assert torch.isclose(combined[0, 8, 2], torch.tensor(50.0, device=self.device))  # Video
 
         # Batch 1 markers
-        assert torch.isclose(combined[2, 1, 0], torch.tensor(20.0, device=self.device))  # Vision
-        assert torch.isclose(combined[5, 1, 1], torch.tensor(40.0, device=self.device))  # Audio
-        assert torch.isclose(combined[7, 1, 2], torch.tensor(60.0, device=self.device))  # Video
+        assert torch.isclose(combined[1, 2, 0], torch.tensor(20.0, device=self.device))  # Vision
+        assert torch.isclose(combined[1, 5, 1], torch.tensor(40.0, device=self.device))  # Audio
+        assert torch.isclose(combined[1, 7, 2], torch.tensor(60.0, device=self.device))  # Video
 
         # Also check that markers are ONLY at their specific positions
         # For vision in batch 0 (position 1, value at index 0)
-        assert torch.all(combined[1, 0, 1:] == 0.0), "Non-zero values found after marker"
+        assert torch.all(combined[0, 1, 1:] == 0.0), "Non-zero values found after marker"
 
         # For audio in batch 1 (position 5, value at index 1)
-        assert torch.all(combined[5, 1, :1] == 0.0), "Non-zero values found before marker"
-        assert torch.all(combined[5, 1, 2:] == 0.0), "Non-zero values found after marker"
+        assert torch.all(combined[1, 5, :1] == 0.0), "Non-zero values found before marker"
+        assert torch.all(combined[1, 5, 2:] == 0.0), "Non-zero values found after marker"
 
     def test_multiple_images_with_variable_length(self):
         """Test handling multiple images per sample with variable sequence lengths.
@@ -322,31 +322,31 @@ def test_multiple_images_with_variable_length(self):
         )
 
         # Check output shape
-        assert combined.shape == (seq_length, batch_size, hidden_dim)
+        assert combined.shape == (batch_size, seq_length, hidden_dim)
 
         # Verify vision token embeddings are placed correctly
 
         # Batch 0, first image embeddings (3 patches)
-        assert torch.isclose(combined[1, 0, 0], torch.tensor(101.0, device=self.device))
-        assert torch.isclose(combined[2, 0, 1], torch.tensor(102.0, device=self.device))
-        assert torch.isclose(combined[3, 0, 2], torch.tensor(103.0, device=self.device))
+        assert torch.isclose(combined[0, 1, 0], torch.tensor(101.0, device=self.device))
+        assert torch.isclose(combined[0, 2, 1], torch.tensor(102.0, device=self.device))
+        assert torch.isclose(combined[0, 3, 2], torch.tensor(103.0, device=self.device))
 
         # Batch 0, second image embeddings (2 patches)
-        assert torch.isclose(combined[5, 0, 3], torch.tensor(104.0, device=self.device))
-        assert torch.isclose(combined[6, 0, 4], torch.tensor(105.0, device=self.device))
+        assert torch.isclose(combined[0, 5, 3], torch.tensor(104.0, device=self.device))
+        assert torch.isclose(combined[0, 6, 4], torch.tensor(105.0, device=self.device))
 
         # Batch 1, image embeddings (4 patches)
-        assert torch.isclose(combined[2, 1, 5], torch.tensor(201.0, device=self.device))
-        assert torch.isclose(combined[3, 1, 6], torch.tensor(202.0, device=self.device))
-        assert torch.isclose(combined[4, 1, 7], torch.tensor(203.0, device=self.device))
-        assert torch.isclose(combined[5, 1, 8], torch.tensor(204.0, device=self.device))
+        assert torch.isclose(combined[1, 2, 5], torch.tensor(201.0, device=self.device))
+        assert torch.isclose(combined[1, 3, 6], torch.tensor(202.0, device=self.device))
+        assert torch.isclose(combined[1, 4, 7], torch.tensor(203.0, device=self.device))
+        assert torch.isclose(combined[1, 5, 8], torch.tensor(204.0, device=self.device))
 
         # Verify that each embedding only has one non-zero value
         for b in range(batch_size):
             # Check positions with special tokens
             positions = [(1, 2, 3, 5, 6), (2, 3, 4, 5)][b]
             for s in positions:
-                emb = combined[s, b].clone()
+                emb = combined[b, s].clone()
                 # Find the non-zero position
                 nonzero_indices = torch.nonzero(emb)
                 # Make sure we actually have non-zero values
diff --git a/tests/unit_tests/models/test_mimo_model.py b/tests/unit_tests/models/test_mimo_model.py
index 0ef62ff570f..b92c688295a 100644
--- a/tests/unit_tests/models/test_mimo_model.py
+++ b/tests/unit_tests/models/test_mimo_model.py
@@ -220,6 +220,18 @@ def test_get_text_embeddings(self):
         )
         assert text_embeddings.shape == (self.batch_size * self.seq_len, self.hidden_size)
 
+    def test_get_text_embeddings_rejects_embedding_sp_scatter(self):
+        """MIMO owns SP scatter after multimodal alignment."""
+        mimo_model = self._make_avlm()
+        mimo_model.partition_adapter = MagicMock()
+        mimo_model.partition_adapter.cfg.seq_parallel = True
+        mimo_model.language_model.embedding.scatter_to_sequence_parallel = True
+
+        with pytest.raises(RuntimeError, match="embedding scatter"):
+            mimo_model.get_text_embeddings(
+                self._make_input_ids(), self._make_position_ids(), self.special_token_ids
+            )
+
     def test_forward_text_only(self):
         """Test forward pass with only text input."""
         mimo_model = self._make_vlm()
@@ -343,7 +355,7 @@ def test_partition_adapter_none_by_default(self):
         assert mimo_model.partition_adapter is None
 
     def test_forward_with_packing_kwargs(self):
-        """Test that packing_kwargs builds PackedSeqParams with qkv_format='thd' and int32 seqlens."""
+        """Test that dataloader-provided packing metadata reaches the language model."""
         from megatron.core.packed_seq_params import PackedSeqParams
 
         mimo_model = self._make_vlm()
@@ -351,13 +363,20 @@ def test_forward_with_packing_kwargs(self):
         position_ids = self._make_position_ids()
 
         cu_seqlens = torch.tensor(
-            [0, self.seq_len, 2 * self.seq_len], dtype=torch.int64, device=self.device
+            [0, self.seq_len, 2 * self.seq_len], dtype=torch.int32, device=self.device
         )
-        packing_kwargs = {"cu_seqlens_q": cu_seqlens.clone(), "cu_seqlens_kv": cu_seqlens.clone()}
+        packing_kwargs = {
+            "qkv_format": "thd",
+            "cu_seqlens_q": cu_seqlens,
+            "cu_seqlens_kv": cu_seqlens,
+            "max_seqlen_q": self.seq_len,
+            "max_seqlen_kv": self.seq_len,
+            "total_tokens": 2 * self.seq_len,
+        }
 
         text_emb = torch.zeros(self.batch_size * self.seq_len, self.hidden_size, device=self.device)
         combined_emb = torch.zeros(
-            self.seq_len, self.batch_size, self.hidden_size, device=self.device
+            self.batch_size, self.seq_len, self.hidden_size, device=self.device
         )
 
         captured = {}
@@ -383,26 +402,26 @@ def capture_lm_forward(*args, **kwargs):
         packed_seq_params = captured['packed_seq_params']
         assert isinstance(packed_seq_params, PackedSeqParams)
         assert packed_seq_params.qkv_format == 'thd'
-        assert packed_seq_params.cu_seqlens_q.dtype == torch.int32
-        assert packed_seq_params.cu_seqlens_kv.dtype == torch.int32
+        assert packed_seq_params.cu_seqlens_q is cu_seqlens
+        assert packed_seq_params.cu_seqlens_kv is cu_seqlens
 
     def test_forward_with_partition_adapter(self):
-        """Test that partition_adapter.shard() is called and embeddings are transposed correctly."""
+        """Test that partition_adapter.shard() receives batch-first embeddings."""
         mimo_model = self._make_vlm()
         input_ids = self._make_input_ids()
         position_ids = self._make_position_ids()
 
         sharded_seq_len = self.seq_len // 2
         sharded_emb = torch.zeros(
-            self.batch_size, sharded_seq_len, self.hidden_size, device=self.device
+            sharded_seq_len, self.batch_size, self.hidden_size, device=self.device
         )
         mock_adapter = MagicMock()
-        mock_adapter.shard.return_value = (sharded_emb, None, None, None, None)
+        mock_adapter.shard.return_value = (sharded_emb, None, None, None)
         mimo_model.partition_adapter = mock_adapter
 
         text_emb = torch.zeros(self.batch_size * self.seq_len, self.hidden_size, device=self.device)
         combined_emb = torch.zeros(
-            self.seq_len, self.batch_size, self.hidden_size, device=self.device
+            self.batch_size, self.seq_len, self.hidden_size, device=self.device
         )
 
         captured = {}
diff --git a/tests/unit_tests/models/test_mimo_partition.py b/tests/unit_tests/models/test_mimo_partition.py
index 1527fb92935..34d5eccabf1 100644
--- a/tests/unit_tests/models/test_mimo_partition.py
+++ b/tests/unit_tests/models/test_mimo_partition.py
@@ -154,62 +154,82 @@ def _make_tensors(self, B=2, S=8, H=16):
         embeddings = torch.rand(B, S, H)
         labels = torch.randint(0, 100, (B, S))
         loss_mask = torch.ones(B, S)
-        attention_mask = torch.ones(B, S)
-        return embeddings, labels, loss_mask, attention_mask
+        return embeddings, labels, loss_mask
 
-    def test_noop_when_both_disabled(self):
-        """No sharding when neither CP nor SP is enabled — inputs returned as-is."""
+    def test_lm_layout_when_both_disabled(self):
+        """Even without CP/SP, shard() returns embeddings in language-model layout."""
         cfg = self._make_cfg(use_cp=False, seq_parallel=False)
         adapter = PartitionAdapter(cfg)
-        embeddings, labels, loss_mask, attention_mask = self._make_tensors()
-        out = adapter.shard(embeddings, labels, loss_mask, attention_mask)
-        assert out[0] is embeddings
+        embeddings, labels, loss_mask = self._make_tensors()
+        out = adapter.shard(embeddings, labels, loss_mask)
+        torch.testing.assert_close(out[0], embeddings.transpose(0, 1).contiguous())
         assert out[1] is labels
         assert out[2] is loss_mask
-        assert out[3] is attention_mask
-        assert out[4] is None
+        assert out[3] is None
 
     def test_cp_only_shards_sequence(self):
         mock_cp_group = MagicMock()
         cfg = self._make_cfg(use_cp=True, max_seq_len=8, cp_group=mock_cp_group)
         adapter = PartitionAdapter(cfg)
-        embeddings, labels, loss_mask, attention_mask = self._make_tensors(B=2, S=8, H=16)
+        embeddings, labels, loss_mask = self._make_tensors(B=2, S=8, H=16)
         sharded = {
             'embeddings': embeddings[:, :4, :],
             'labels': labels[:, :4],
             'loss_mask': loss_mask[:, :4],
-            'attention_mask': attention_mask[:, :4],
         }
         with (
             patch('megatron.core.models.mimo.partition.utils.get_pg_size', return_value=2),
             patch(
                 'megatron.core.models.mimo.partition.utils.get_batch_on_this_cp_rank',
                 return_value=sharded,
-            ),
+            ) as mock_cp_shard,
         ):
-            out = adapter.shard(embeddings, labels, loss_mask, attention_mask)
-        assert out[0].shape == (2, 4, 16)
+            out = adapter.shard(embeddings, labels, loss_mask)
+        mock_cp_shard.assert_called_once_with(
+            {'embeddings': embeddings, 'labels': labels, 'loss_mask': loss_mask},
+            cp_group=mock_cp_group,
+        )
+        assert out[0].shape == (4, 2, 16)
         assert out[1].shape == (2, 4)
 
     def test_sp_only_scatters(self):
         mock_tp_group = MagicMock()
         cfg = self._make_cfg(seq_parallel=True, max_seq_len=8, tp_group=mock_tp_group)
         adapter = PartitionAdapter(cfg)
-        # SP uses seq_dim=0: embeddings shape [S, B, H]
-        embeddings = torch.rand(8, 2, 16)
-        labels = torch.randint(0, 100, (2, 8))
-        loss_mask = torch.ones(2, 8)
-        attention_mask = torch.ones(2, 8)
-        scattered = torch.rand(4, 2, 16)
+        embeddings = torch.rand(1, 8, 16)
+        labels = torch.randint(0, 100, (1, 8))
+        loss_mask = torch.ones(1, 8)
+        scattered = torch.rand(4, 1, 16)
+
+        def scatter(input_, group=None):
+            assert input_.shape == (8, 1, 16)
+            assert group is mock_tp_group
+            return scattered
+
         with (
             patch('megatron.core.models.mimo.partition.utils.get_pg_size', return_value=2),
             patch(
                 'megatron.core.models.mimo.partition.utils.tensor_parallel.scatter_to_sequence_parallel_region',
-                return_value=scattered,
+                side_effect=scatter,
             ),
         ):
-            out = adapter.shard(embeddings, labels, loss_mask, attention_mask)
-        assert out[0].shape == (4, 2, 16)
+            out = adapter.shard(embeddings, labels, loss_mask)
+        assert out[0] is scattered
+        assert out[1] is labels
+        assert out[2] is loss_mask
+
+    def test_sp_only_leaves_labels_and_loss_mask_without_embeddings(self):
+        mock_tp_group = MagicMock()
+        cfg = self._make_cfg(seq_parallel=True, max_seq_len=8, tp_group=mock_tp_group)
+        adapter = PartitionAdapter(cfg)
+        labels = torch.arange(16).view(2, 8)
+        loss_mask = torch.arange(16, dtype=torch.float32).view(2, 8)
+        with patch('megatron.core.models.mimo.partition.utils.get_pg_size', return_value=2):
+            out = adapter.shard(None, labels, loss_mask)
+        assert out[0] is None
+        assert out[1] is labels
+        assert out[2] is loss_mask
+        assert out[3] is None
 
     def test_cp_and_sp_combined(self):
         mock_cp_group = MagicMock()
@@ -226,28 +246,32 @@ def test_cp_and_sp_combined(self):
         embeddings = torch.rand(2, 16, 16)
         labels = torch.randint(0, 100, (2, 16))
         loss_mask = torch.ones(2, 16)
-        attention_mask = torch.ones(2, 16)
         cp_sharded = {
             'embeddings': embeddings[:, :8, :],
             'labels': labels[:, :8],
             'loss_mask': loss_mask[:, :8],
-            'attention_mask': attention_mask[:, :8],
         }
-        scattered = torch.rand(2, 4, 16)
+        scattered = torch.rand(4, 2, 16)
 
         with (
             patch('megatron.core.models.mimo.partition.utils.get_pg_size', return_value=2),
             patch(
                 'megatron.core.models.mimo.partition.utils.get_batch_on_this_cp_rank',
                 return_value=cp_sharded,
-            ),
+            ) as mock_cp_shard,
             patch(
                 'megatron.core.models.mimo.partition.utils.tensor_parallel.scatter_to_sequence_parallel_region',
                 return_value=scattered,
             ),
         ):
-            out = adapter.shard(embeddings, labels, loss_mask, attention_mask)
-        assert out[0].shape == (2, 4, 16)
+            out = adapter.shard(embeddings, labels, loss_mask)
+        mock_cp_shard.assert_called_once_with(
+            {'embeddings': embeddings, 'labels': labels, 'loss_mask': loss_mask},
+            cp_group=mock_cp_group,
+        )
+        assert out[0].shape == (4, 2, 16)
+        torch.testing.assert_close(out[1], labels[:, :8])
+        torch.testing.assert_close(out[2], loss_mask[:, :8])
 
     def test_seq_not_divisible_raises(self):
         mock_cp_group = MagicMock()
@@ -256,12 +280,11 @@ def test_seq_not_divisible_raises(self):
         embeddings = torch.rand(2, 7, 16)  # 7 % (2*2) != 0
         labels = torch.randint(0, 100, (2, 7))
         loss_mask = torch.ones(2, 7)
-        attention_mask = torch.ones(2, 7)
         with (
             patch('megatron.core.models.mimo.partition.utils.get_pg_size', return_value=2),
             pytest.raises(AssertionError, match="divisible"),
         ):
-            adapter.shard(embeddings, labels, loss_mask, attention_mask)
+            adapter.shard(embeddings, labels, loss_mask)
 
     def test_tp_comm_overlap_seq_len_assertion(self):
         mock_tp_group = MagicMock()
@@ -270,15 +293,14 @@ def test_tp_comm_overlap_seq_len_assertion(self):
         )
         adapter = PartitionAdapter(cfg)
         # S=8 but max_seq_len=16 → assertion fires
-        embeddings = torch.rand(8, 2, 16)  # [S, B, H] for SP
+        embeddings = torch.rand(2, 8, 16)
         labels = torch.randint(0, 100, (2, 8))
         loss_mask = torch.ones(2, 8)
-        attention_mask = torch.ones(2, 8)
         with (
             patch('megatron.core.models.mimo.partition.utils.get_pg_size', return_value=2),
             pytest.raises(AssertionError, match="TP Comm overlap"),
         ):
-            adapter.shard(embeddings, labels, loss_mask, attention_mask)
+            adapter.shard(embeddings, labels, loss_mask)
 
     def test_thd_format_skips_divisibility_check(self):
         """PackedSeqParams with qkv_format='thd' bypasses the divisibility assertion."""
@@ -290,7 +312,6 @@ def test_thd_format_skips_divisibility_check(self):
         embeddings = torch.rand(2, 7, 16)  # seq_len=7 not divisible by cp*2, but THD skips check
         labels = torch.randint(0, 100, (2, 7))
         loss_mask = torch.ones(2, 7)
-        attention_mask = torch.ones(2, 7)
         packed_seq_params = MagicMock(spec=PackedSeqParams)
         packed_seq_params.qkv_format = 'thd'
         packed_seq_params.cu_seqlens_q_padded = torch.tensor([0, 4, 7], dtype=torch.int32)
@@ -304,7 +325,7 @@ def test_thd_format_skips_divisibility_check(self):
         ):
             mock_tex.thd_get_partitioned_indices.return_value = fake_index
             # Should NOT raise AssertionError about divisibility
-            out = adapter.shard(embeddings, labels, loss_mask, attention_mask, packed_seq_params)
+            out = adapter.shard(embeddings, labels, loss_mask, packed_seq_params)
         assert out[0] is not None
 
     def test_none_embeddings_skips_shard_factor_check(self):
@@ -314,12 +335,7 @@ def test_none_embeddings_skips_shard_factor_check(self):
         adapter = PartitionAdapter(cfg)
         labels = torch.randint(0, 100, (2, 7))
         loss_mask = torch.ones(2, 7)
-        attention_mask = torch.ones(2, 7)
-        cp_sharded = {
-            'labels': labels[:, :4],
-            'loss_mask': loss_mask[:, :4],
-            'attention_mask': attention_mask[:, :4],
-        }
+        cp_sharded = {'labels': labels[:, :4], 'loss_mask': loss_mask[:, :4]}
         with (
             patch('megatron.core.models.mimo.partition.utils.get_pg_size', return_value=2),
             patch(
@@ -327,7 +343,7 @@ def test_none_embeddings_skips_shard_factor_check(self):
                 return_value=cp_sharded,
             ),
         ):
-            out = adapter.shard(None, labels, loss_mask, attention_mask)
+            out = adapter.shard(None, labels, loss_mask)
         assert out[0] is None
 
 
@@ -350,12 +366,11 @@ def test_returns_unchanged_when_cp_disabled(self):
         embeddings = torch.rand(2, 8, 16)
         labels = torch.randint(0, 100, (2, 8))
         loss_mask = torch.ones(2, 8)
-        attention_mask = torch.ones(2, 8)
-        out = adapter._apply_context_parallel(embeddings, labels, loss_mask, attention_mask, None)
+        out = adapter._apply_context_parallel(embeddings, labels, loss_mask, None)
         assert out[0] is embeddings
         assert out[1] is labels
         assert out[2] is loss_mask
-        assert out[3] is attention_mask
+        assert out[3] is None
 
     def test_sbhd_path_calls_get_batch_on_this_cp_rank(self):
         mock_cp_group = MagicMock()
@@ -364,21 +379,20 @@ def test_sbhd_path_calls_get_batch_on_this_cp_rank(self):
         embeddings = torch.rand(2, 8, 16)
         labels = torch.randint(0, 100, (2, 8))
         loss_mask = torch.ones(2, 8)
-        attention_mask = torch.ones(2, 8)
         sharded = {
             'embeddings': embeddings[:, :4, :],
             'labels': labels[:, :4],
             'loss_mask': loss_mask[:, :4],
-            'attention_mask': attention_mask[:, :4],
         }
         with patch(
             'megatron.core.models.mimo.partition.utils.get_batch_on_this_cp_rank',
             return_value=sharded,
         ) as mock_fn:
-            out = adapter._apply_context_parallel(
-                embeddings, labels, loss_mask, attention_mask, None
+            out = adapter._apply_context_parallel(embeddings, labels, loss_mask, None)
+            mock_fn.assert_called_once_with(
+                {'embeddings': embeddings, 'labels': labels, 'loss_mask': loss_mask},
+                cp_group=mock_cp_group,
             )
-            mock_fn.assert_called_once()
         assert out[0].shape == (2, 4, 16)
         assert out[1].shape == (2, 4)
 
@@ -389,8 +403,8 @@ def test_all_none_inputs_produces_none_outputs(self):
         with patch(
             'megatron.core.models.mimo.partition.utils.get_batch_on_this_cp_rank', return_value={}
         ):
-            out = adapter._apply_context_parallel(None, None, None, None, None)
-        assert all(v is None for v in out[:4])
+            out = adapter._apply_context_parallel(None, None, None, None)
+        assert all(v is None for v in out)
 
     def test_only_non_none_tensors_added_to_batch(self):
         """None tensors must not appear in the batch dict passed to get_batch_on_this_cp_rank."""
@@ -401,7 +415,8 @@ def test_only_non_none_tensors_added_to_batch(self):
         sharded = {'embeddings': embeddings[:, :4, :]}
         captured = {}
 
-        def mock_fn(batch):
+        def mock_fn(batch, cp_group=None):
+            assert cp_group is mock_cp_group
             captured.update(batch)
             return sharded
 
@@ -409,7 +424,7 @@ def mock_fn(batch):
             'megatron.core.models.mimo.partition.utils.get_batch_on_this_cp_rank',
             side_effect=mock_fn,
         ):
-            out = adapter._apply_context_parallel(embeddings, None, None, None, None)
+            out = adapter._apply_context_parallel(embeddings, None, None, None)
 
         assert 'embeddings' in captured
         assert 'labels' not in captured
@@ -431,4 +446,4 @@ def test_thd_path_raises_when_te_unavailable(self):
             patch('megatron.core.models.mimo.partition.utils._HAVE_TEX', False),
             pytest.raises(AssertionError, match="Transformer Engine"),
         ):
-            adapter._apply_context_parallel(embeddings, None, None, None, packed_seq_params)
+            adapter._apply_context_parallel(embeddings, None, None, packed_seq_params)
diff --git a/tests/unit_tests/pipeline_parallel/test_bridge_communicator.py b/tests/unit_tests/pipeline_parallel/test_bridge_communicator.py
index 326ac8b5890..43911370950 100644
--- a/tests/unit_tests/pipeline_parallel/test_bridge_communicator.py
+++ b/tests/unit_tests/pipeline_parallel/test_bridge_communicator.py
@@ -521,11 +521,49 @@ def test_2d_fan_out_fwd_bwd(self):
         )
 
         rank = dist.get_rank()
+        split_sizes = [257, 577, 773, 989]
+        total_rows = sum(split_sizes)
         if bridge.is_current_rank_in_grid(src_grid):
-            tensor = torch.randn(577 * 4, 128, device='cuda')
+            tensor = torch.cat(
+                [
+                    torch.full((split_size, 128), float(index), device='cuda')
+                    for index, split_size in enumerate(split_sizes)
+                ],
+                dim=0,
+            )
+            tensor._mimo_bridge_split_sizes = split_sizes
             grad = bridge.send_forward_recv_backward(tensor)
-            assert grad.shape == (577 * 4, 128)
+            assert grad.shape == (total_rows, 128)
+            expected_grad = torch.cat(
+                [
+                    torch.full(
+                        (split_size, 128), float(dest_grid.rank_offset + index), device='cuda'
+                    )
+                    for index, split_size in enumerate(split_sizes)
+                ],
+                dim=0,
+            )
+            assert torch.equal(grad, expected_grad)
         else:
-            grad = torch.full((577, 128), float(rank), device='cuda')
+            split_index = rank - dest_grid.rank_offset
+            grad = torch.full((split_sizes[split_index], 128), float(rank), device='cuda')
             activation = bridge.send_backward_recv_forward(grad)
-            assert activation.shape == (577, 128)
+            assert activation.shape == (split_sizes[split_index], 128)
+            assert torch.equal(activation, torch.full_like(activation, float(split_index)))
+
+    def test_2d_metadata_split_allows_zero_size_chunks(self):
+        """Metadata split supports text-only lanes that have no image embeddings."""
+        bridge = BridgeCommunicator.__new__(BridgeCommunicator)
+        bridge.tensor_ndim = 2
+        bridge.dim_mapping = {'s': 0, 'h': 1, 'b': 0}
+
+        tensor = torch.arange(20, device='cuda').reshape(10, 2)
+        tensor._mimo_bridge_split_sizes = [3, 0, 4, 3]
+
+        splits = bridge._split_tensor_at_batch_dim(tensor, 4)
+
+        assert [split.shape[0] for split in splits] == [3, 0, 4, 3]
+        assert torch.equal(splits[0], tensor[:3])
+        assert splits[1].numel() == 0
+        assert torch.equal(splits[2], tensor[3:7])
+        assert torch.equal(splits[3], tensor[7:])
diff --git a/tests/unit_tests/ssm/test_hybrid_layer_allocation.py b/tests/unit_tests/ssm/test_hybrid_layer_allocation.py
index fe0d7c2dc1e..130f781792d 100644
--- a/tests/unit_tests/ssm/test_hybrid_layer_allocation.py
+++ b/tests/unit_tests/ssm/test_hybrid_layer_allocation.py
@@ -466,6 +466,17 @@ def test_logging_is_called(self, mock_log):
         select_pipeline_segment("M*M*", pp_group=None, vp_stage=None)
         mock_log.assert_called_once()
 
+    @patch('megatron.core.models.hybrid.hybrid_layer_allocation.log_on_each_pipeline_stage')
+    def test_logging_receives_explicit_groups(self, mock_log):
+        """Explicit rank groups are forwarded to the per-stage logging helper."""
+        tp_group = object()
+        dp_cp_group = object()
+        select_pipeline_segment(
+            "M*M*", pp_group=None, vp_stage=None, tp_group=tp_group, dp_cp_group=dp_cp_group
+        )
+        assert mock_log.call_args.kwargs["tp_group"] is tp_group
+        assert mock_log.call_args.kwargs["dp_cp_group"] is dp_cp_group
+
     @patch('megatron.core.models.hybrid.hybrid_layer_allocation.log_on_each_pipeline_stage')
     def test_mutual_exclusivity_pipes_with_first_stage(self, mock_log):
         """Pipe separators + first_stage_layers should raise ValueError."""
diff --git a/tests/unit_tests/test_hetero_energon.py b/tests/unit_tests/test_hetero_energon.py
new file mode 100644
index 00000000000..833cd8d624f
--- /dev/null
+++ b/tests/unit_tests/test_hetero_energon.py
@@ -0,0 +1,292 @@
+# Copyright (c) 2026, NVIDIA CORPORATION. All rights reserved.
+
+import random
+from collections import deque
+
+import pytest
+import torch
+
+from examples.mimo.data import hetero_energon
+from examples.mimo.data.energon_multimodal_provider import MimoMultiModalPackingEncoder
+from examples.mimo.data.hetero_energon import EnergonIterator, _route_samples_to_lanes
+
+_PROVENANCE_KEY = MimoMultiModalPackingEncoder.PROVENANCE_KEY
+
+
+class RandomLoader:
+    """Small dataloader stub that consumes Python's global random module."""
+
+    def __iter__(self):
+        return self
+
+    def __next__(self):
+        return {"value": random.randrange(1_000_000)}
+
+
+def test_energon_iterator_uses_isolated_python_random_state():
+    """Same DP-lane iterators should match without perturbing caller RNG state."""
+    first = EnergonIterator(RandomLoader(), random_seed=12345)
+    second = EnergonIterator(RandomLoader(), random_seed=12345)
+
+    first_values = []
+    second_values = []
+    for _ in range(8):
+        random.seed(111)
+        caller_state = random.getstate()
+        first_values.append(next(first)["value"])
+        assert random.getstate() == caller_state
+
+        random.seed(222)
+        caller_state = random.getstate()
+        second_values.append(next(second)["value"])
+        assert random.getstate() == caller_state
+
+    assert first_values == second_values
+    assert len(set(first_values)) > 1
+
+
+def test_combine_encoder_batches_drops_packing_and_concatenates_modalities():
+    """Encoder fan-out combines whole packed samples without carrying LLM packing metadata."""
+    first = {
+        "input_ids": torch.tensor([[1, 2, 3]]),
+        "labels": torch.tensor([[2, 3, 4]]),
+        "loss_mask": torch.tensor([[1.0, 1.0, 0.0]]),
+        "position_ids": torch.tensor([[0, 1, 2]]),
+        "packing_kwargs": {"cu_seqlens_q": torch.tensor([0, 3])},
+        "modality_inputs": {"images": {"radio_encoder": {"x": torch.ones(1, 3, 4, 4)}}},
+    }
+    second = {
+        "input_ids": torch.tensor([[5, 6, 7]]),
+        "labels": torch.tensor([[6, 7, 8]]),
+        "loss_mask": torch.tensor([[1.0, 0.0, 0.0]]),
+        "position_ids": torch.tensor([[0, 1, 2]]),
+        "packing_kwargs": {"cu_seqlens_q": torch.tensor([0, 3])},
+        "modality_inputs": {"images": {"radio_encoder": {"x": torch.zeros(2, 3, 4, 4)}}},
+    }
+
+    combined = hetero_energon._combine_encoder_batches([first, second])
+
+    assert "packing_kwargs" not in combined
+    assert combined["input_ids"].tolist() == [[1, 2, 3], [5, 6, 7]]
+    images = combined["modality_inputs"]["images"]["radio_encoder"]["x"]
+    assert images.shape == (3, 3, 4, 4)
+    assert torch.all(images[:1] == 1)
+    assert torch.all(images[1:] == 0)
+
+
+# ---------------------------------------------------------------------------
+# Routed encoder iterator — _route_samples_to_lanes tests
+# ---------------------------------------------------------------------------
+
+
+def _stamped(worker_id: int, payload: object) -> dict:
+    """Build a fake encoder batch carrying a provenance stamp."""
+    return {_PROVENANCE_KEY: worker_id, "payload": payload}
+
+
+def _make_loader(samples):
+    """Wrap a list of pre-stamped samples in an iterator the routing code can consume."""
+    return iter(samples)
+
+
+def test_route_samples_to_lanes_round_robin_assigns_workers_to_lanes():
+    """Workers 0..NW-1 feed lane 0, NW..2NW-1 feed lane 1, etc."""
+    # encoder_dp_rank=0, world hosts lanes 0..3 (lane_offset=0).
+    # num_workers_per_lane=2 → workers [0,1]→lane0, [2,3]→lane1, [4,5]→lane2, [6,7]→lane3.
+    samples = [_stamped(w, f"w{w}") for w in (0, 2, 4, 6)]
+    pending = [deque() for _ in range(4)]
+    lane_batches, pulls = _route_samples_to_lanes(
+        _make_loader(samples),
+        lanes_per_encoder=4,
+        lane_offset=0,
+        num_workers_per_lane=2,
+        encoder_dp_rank=0,
+        pending_by_lane=pending,
+        max_pulls_per_step=16,
+        provenance_key=_PROVENANCE_KEY,
+    )
+    assert pulls == 4
+    assert [b["payload"] for b in lane_batches] == ["w0", "w2", "w4", "w6"]
+    assert all(len(q) == 0 for q in pending.values())
+
+
+def test_route_samples_to_lanes_surplus_lands_in_pending_fifo():
+    """A second sample for an already-filled lane is queued for next step."""
+    # 2 lanes, NW=2: workers 0,1→lane0; 2,3→lane1.
+    # Loader yields w0 (lane0), w1 (lane0 surplus), w2 (lane1) — first step fills.
+    samples = [_stamped(0, "a"), _stamped(1, "b"), _stamped(2, "c")]
+    pending = [deque() for _ in range(2)]
+    lane_batches, pulls = _route_samples_to_lanes(
+        _make_loader(samples),
+        lanes_per_encoder=2,
+        lane_offset=0,
+        num_workers_per_lane=2,
+        encoder_dp_rank=0,
+        pending_by_lane=pending,
+        max_pulls_per_step=8,
+        provenance_key=_PROVENANCE_KEY,
+    )
+    assert pulls == 3
+    assert [b["payload"] for b in lane_batches] == ["a", "c"]
+    assert len(pending[0]) == 1
+    assert pending[0][0]["payload"] == "b"
+    assert len(pending[1]) == 0
+
+
+def test_route_samples_to_lanes_drains_pending_before_pulling():
+    """Pending lane-0 sample is consumed first; loader is only pulled for empty lanes."""
+    pending = [deque([_stamped(0, "stashed")]), deque()]
+    # Loader has one new sample for lane 1.
+    samples = [_stamped(2, "fresh")]
+    lane_batches, pulls = _route_samples_to_lanes(
+        _make_loader(samples),
+        lanes_per_encoder=2,
+        lane_offset=0,
+        num_workers_per_lane=2,
+        encoder_dp_rank=0,
+        pending_by_lane=pending,
+        max_pulls_per_step=8,
+        provenance_key=_PROVENANCE_KEY,
+    )
+    assert pulls == 1
+    assert [b["payload"] for b in lane_batches] == ["stashed", "fresh"]
+    assert len(pending[0]) == 0
+
+
+def test_route_samples_to_lanes_lane_offset_shifts_global_lane():
+    """Encoder rank E>0 owns a non-zero lane_offset; routing subtracts it correctly."""
+    # encoder_dp_rank=1, encoder_dp=2, llm_dp=4, NW=1 → lane_offset=2, lanes 2,3 local.
+    # Workers in this encoder: global ids 2,3 (E*NW*k + W where k=2, NW=1 → 2 + W).
+    # global_llm_lane = global_worker_id // NW = 2,3 → local_lane = 0,1.
+    samples = [_stamped(2, "L2"), _stamped(3, "L3")]
+    pending = [deque() for _ in range(2)]
+    lane_batches, _ = _route_samples_to_lanes(
+        _make_loader(samples),
+        lanes_per_encoder=2,
+        lane_offset=2,
+        num_workers_per_lane=1,
+        encoder_dp_rank=1,
+        pending_by_lane=pending,
+        max_pulls_per_step=8,
+        provenance_key=_PROVENANCE_KEY,
+    )
+    assert [b["payload"] for b in lane_batches] == ["L2", "L3"]
+
+
+def test_route_samples_to_lanes_raises_on_pull_budget_exhaustion():
+    """When the loader can't fill every lane in the budget, fail loudly."""
+    # 2 lanes but loader only delivers to lane 0.
+    samples = [_stamped(0, "x"), _stamped(0, "y"), _stamped(1, "z")]
+    pending = [deque() for _ in range(2)]
+    with pytest.raises(RuntimeError, match="did not yield samples for local_lanes"):
+        _route_samples_to_lanes(
+            _make_loader(samples),
+            lanes_per_encoder=2,
+            lane_offset=0,
+            num_workers_per_lane=2,
+            encoder_dp_rank=0,
+            pending_by_lane=pending,
+            max_pulls_per_step=3,
+            provenance_key=_PROVENANCE_KEY,
+        )
+
+
+def test_route_samples_to_lanes_raises_on_out_of_range_worker():
+    """A worker id from a foreign encoder rank surfaces as a hard error."""
+    # encoder_dp_rank=0 owns lanes 0..1 with NW=2, so global_worker_id 0..3 are valid.
+    # A stray sample stamped with worker 4 (which belongs to rank 1) should fail.
+    samples = [_stamped(0, "ok"), _stamped(4, "stray")]
+    pending = [deque() for _ in range(2)]
+    with pytest.raises(RuntimeError, match="outside encoder rank"):
+        _route_samples_to_lanes(
+            _make_loader(samples),
+            lanes_per_encoder=2,
+            lane_offset=0,
+            num_workers_per_lane=2,
+            encoder_dp_rank=0,
+            pending_by_lane=pending,
+            max_pulls_per_step=8,
+            provenance_key=_PROVENANCE_KEY,
+        )
+
+
+def test_route_samples_to_lanes_raises_when_provenance_missing():
+    """Samples without a provenance stamp fail with a clear message."""
+    samples = [{"payload": "missing"}]
+    pending = [deque()]
+    with pytest.raises(RuntimeError, match="attach_provenance"):
+        _route_samples_to_lanes(
+            _make_loader(samples),
+            lanes_per_encoder=1,
+            lane_offset=0,
+            num_workers_per_lane=1,
+            encoder_dp_rank=0,
+            pending_by_lane=pending,
+            max_pulls_per_step=4,
+            provenance_key=_PROVENANCE_KEY,
+        )
+
+
+# ---------------------------------------------------------------------------
+# Bit-wise parity: routed iterator must produce the same per-lane sample
+# sequence as the previous per-lane iterators would have.
+# ---------------------------------------------------------------------------
+
+
+def test_routed_iterator_matches_per_lane_global_worker_ids():
+    """For the (rank, world_size, num_workers) reshape used by the routed iterator,
+    the producing global_worker_id at the encoder side equals the per-lane
+    global_worker_id, lane-by-lane, sample-by-sample.
+
+    This is the algebraic property that gives bit-wise sample parity with the
+    previous multi-iterator path. ``megatron.energon.worker.WorkerConfig.worker_seed``
+    hashes only ``global_worker_id`` and ``seed_offset``, and
+    ``WebdatasetSharder.split_samples_to_workers`` partitions shards by global
+    worker index over ``global_workers = world_size * num_workers``, so equal
+    global_worker_ids ⇒ equal shards ⇒ equal samples in equal order.
+    """
+    # llm_dp=8, encoder_dp=2 → lanes_per_encoder=4, NW=2 per lane.
+    llm_dp = 8
+    encoder_dp = 2
+    num_workers_per_lane = 2
+    lanes_per_encoder = llm_dp // encoder_dp
+    num_workers_enc = num_workers_per_lane * lanes_per_encoder
+
+    # OLD scheme: for lane L, the workers have global_worker_ids
+    #   L*NW + w  for w in [0, NW).
+    old_by_lane = {
+        lane: [lane * num_workers_per_lane + w for w in range(num_workers_per_lane)]
+        for lane in range(llm_dp)
+    }
+
+    # NEW scheme: for encoder rank E, worker W → global_worker_id = E*num_workers_enc + W,
+    # routed to local_lane = (global_worker_id // NW) - lane_offset (= W // NW).
+    for encoder_dp_rank in range(encoder_dp):
+        lane_offset = encoder_dp_rank * lanes_per_encoder
+        new_by_local_lane: dict[int, list[int]] = {lane: [] for lane in range(lanes_per_encoder)}
+        for W in range(num_workers_enc):
+            gid_new = encoder_dp_rank * num_workers_enc + W
+            local_lane = (gid_new // num_workers_per_lane) - lane_offset
+            new_by_local_lane[local_lane].append(gid_new)
+
+        for local_lane in range(lanes_per_encoder):
+            global_lane = lane_offset + local_lane
+            assert new_by_local_lane[local_lane] == old_by_lane[global_lane], (
+                f"global_worker_id mismatch at encoder_dp_rank={encoder_dp_rank}, "
+                f"local_lane={local_lane}: new={new_by_local_lane[local_lane]} "
+                f"vs old={old_by_lane[global_lane]}"
+            )
+
+
+def test_routed_iterator_preserves_global_workers_invariant():
+    """The reshape preserves the total global worker count, which is what makes
+    Energon's per-worker shard partitioning identical between the per-lane and
+    routed configurations (see split_samples_to_workers)."""
+    for llm_dp, encoder_dp, num_workers in [(8, 2, 2), (16, 1, 4), (32, 8, 2), (128, 16, 4)]:
+        lanes_per_encoder = llm_dp // encoder_dp
+        old_global_workers = llm_dp * num_workers
+        new_global_workers = encoder_dp * (num_workers * lanes_per_encoder)
+        assert old_global_workers == new_global_workers, (
+            f"global_workers diverged for llm_dp={llm_dp} encoder_dp={encoder_dp}: "
+            f"old={old_global_workers} new={new_global_workers}"
+        )
diff --git a/tests/unit_tests/test_hyper_comm_grid.py b/tests/unit_tests/test_hyper_comm_grid.py
index dd27f84f60d..a4c307425a6 100644
--- a/tests/unit_tests/test_hyper_comm_grid.py
+++ b/tests/unit_tests/test_hyper_comm_grid.py
@@ -309,6 +309,92 @@ def test_rank_enumeration_correctness(self):
         expected_ab = [[0, 2, 1, 3], [4, 6, 5, 7]]
         assert rank_enum_ab == expected_ab
 
+    def test_register_layout_for_expert_groups(self, monkeypatch):
+        """Test alternate expert layout over the same rank span."""
+        monkeypatch.setenv("WORLD_SIZE", "16")
+        grid = HyperCommGrid([2, 1, 4, 2], ["tp", "cp", "dp", "pp"])
+
+        grid.register_layout("expert", [1, 4, 2, 2], ["expt_tp", "ep", "expt_dp", "pp"])
+
+        assert grid.has_layout("base")
+        assert grid.has_layout("expert")
+        assert grid.get_rank_enum("pp") == grid.get_rank_enum("pp", layout_name="expert")
+        assert grid.get_rank_enum("ep") == [
+            [0, 1, 2, 3],
+            [4, 5, 6, 7],
+            [8, 9, 10, 11],
+            [12, 13, 14, 15],
+        ]
+        assert grid.get_rank_enum("expt_dp") == [
+            [0, 4],
+            [1, 5],
+            [2, 6],
+            [3, 7],
+            [8, 12],
+            [9, 13],
+            [10, 14],
+            [11, 15],
+        ]
+        assert grid.get_rank_enum(["expt_tp", "ep"]) == [
+            [0, 1, 2, 3],
+            [4, 5, 6, 7],
+            [8, 9, 10, 11],
+            [12, 13, 14, 15],
+        ]
+        assert grid.get_rank_enum(["expt_tp", "ep", "pp"]) == [
+            [0, 1, 2, 3, 8, 9, 10, 11],
+            [4, 5, 6, 7, 12, 13, 14, 15],
+        ]
+
+    @patch('torch.distributed.get_rank', return_value=0)
+    @patch('torch.distributed.new_subgroups_by_enumeration')
+    def test_create_pg_from_registered_layout_composite(
+        self, mock_new_subgroups, _mock_get_rank, monkeypatch
+    ):
+        """Test create/get with registered expert dimensions."""
+        monkeypatch.setenv("WORLD_SIZE", "16")
+        mock_ep_pg = MagicMock(spec=dist.ProcessGroup)
+        mock_tp_ep_pg = MagicMock(spec=dist.ProcessGroup)
+        mock_new_subgroups.side_effect = [(mock_ep_pg, None), (mock_tp_ep_pg, None)]
+
+        grid = HyperCommGrid([2, 1, 4, 2], ["tp", "cp", "dp", "pp"])
+        grid.register_layout("expert", [1, 4, 2, 2], ["expt_tp", "ep", "expt_dp", "pp"])
+
+        assert grid.create_pg("ep") == mock_ep_pg
+        assert grid.create_pg(["expt_tp", "ep"]) == mock_tp_ep_pg
+        assert grid.get_pg("ep") == mock_ep_pg
+        assert grid.get_pg(["expt_tp", "ep"]) == mock_tp_ep_pg
+
+        assert "ep" in grid._pgs
+        assert "ep-expt_tp" in grid._pgs
+        first_call_enum = mock_new_subgroups.call_args_list[0].args[0]
+        second_call_enum = mock_new_subgroups.call_args_list[1].args[0]
+        assert first_call_enum == grid.get_rank_enum("ep")
+        assert second_call_enum == grid.get_rank_enum(["expt_tp", "ep"])
+
+    def test_registered_layout_rejects_invalid_shapes_and_collisions(self, monkeypatch):
+        """Test validation for registered layouts."""
+        monkeypatch.setenv("WORLD_SIZE", "16")
+        grid = HyperCommGrid([2, 1, 4, 2], ["tp", "cp", "dp", "pp"])
+
+        with pytest.raises(ValueError, match="base.*reserved"):
+            grid.register_layout("base", [1, 4, 2, 2], ["expt_tp", "ep", "expt_dp", "pp"])
+
+        with pytest.raises(ValueError, match="base grid size"):
+            grid.register_layout("bad_size", [1, 2, 2, 2], ["expt_tp", "ep", "expt_dp", "pp"])
+
+        with pytest.raises(ValueError, match="collides.*different rank enumeration"):
+            grid.register_layout("bad_tp", [1, 4, 2, 2], ["expt_tp", "tp", "expt_dp", "pp"])
+
+    def test_registered_layout_rejects_cross_layout_composites(self, monkeypatch):
+        """Composite groups must come from one layout."""
+        monkeypatch.setenv("WORLD_SIZE", "16")
+        grid = HyperCommGrid([2, 1, 4, 2], ["tp", "cp", "dp", "pp"])
+        grid.register_layout("expert", [1, 4, 2, 2], ["expt_tp", "ep", "expt_dp", "pp"])
+
+        with pytest.raises(ValueError, match="single registered layout"):
+            grid.get_rank_enum(["tp", "ep"])
+
 
 class TestHyperCommGridIntegration:
     """Integration tests for HyperCommGrid with real distributed initialization."""
diff --git a/uv.lock b/uv.lock
index 16d960dcc2b..4f86c47869f 100644
--- a/uv.lock
+++ b/uv.lock
@@ -1,5 +1,5 @@
 version = 1
-revision = 2
+revision = 3
 requires-python = ">=3.12"
 resolution-markers = [
     "python_full_version >= '3.14' and platform_machine != 's390x' and sys_platform == 'win32' and extra != 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts'",
@@ -249,7 +249,7 @@ version = "1.4.0"
 source = { registry = "https://pypi.org/simple" }
 dependencies = [
     { name = "frozenlist" },
-    { name = "typing-extensions", marker = "python_full_version < '3.13'" },
+    { name = "typing-extensions", marker = "python_full_version < '3.13' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 sdist = { url = "https://files.pythonhosted.org/packages/61/62/06741b579156360248d1ec624842ad0edf697050bbaf7c3e46394e106ad1/aiosignal-1.4.0.tar.gz", hash = "sha256:f47eecd9468083c2029cc99945502cb7708b082c232f9aca65da147157b251c7", size = 25007, upload-time = "2025-07-03T22:54:43.528Z" }
 wheels = [
@@ -305,7 +305,7 @@ source = { registry = "https://pypi.org/simple" }
 dependencies = [
     { name = "idna" },
     { name = "sniffio" },
-    { name = "typing-extensions", marker = "python_full_version < '3.13'" },
+    { name = "typing-extensions", marker = "python_full_version < '3.13' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 sdist = { url = "https://files.pythonhosted.org/packages/95/7d/4c1bd541d4dffa1b52bd83fb8527089e097a106fc90b467a7313b105f840/anyio-4.9.0.tar.gz", hash = "sha256:673c0c244e15788651a4ff38710fea9675823028a6f08a5eda409e0c9840a028", size = 190949, upload-time = "2025-03-17T00:02:54.77Z" }
 wheels = [
@@ -644,7 +644,7 @@ name = "cffi"
 version = "2.0.0"
 source = { registry = "https://pypi.org/simple" }
 dependencies = [
-    { name = "pycparser", marker = "implementation_name != 'PyPy'" },
+    { name = "pycparser", marker = "implementation_name != 'PyPy' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 sdist = { url = "https://files.pythonhosted.org/packages/eb/56/b1ba7935a17738ae8453301356628e8147c79dbb825bcbc73dc7401f9846/cffi-2.0.0.tar.gz", hash = "sha256:44d1b5909021139fe36001ae048dbdde8214afa20200eda0f64c068cac5d5529", size = 523588, upload-time = "2025-09-08T23:24:04.541Z" }
 wheels = [
@@ -774,7 +774,7 @@ name = "click"
 version = "8.3.3"
 source = { registry = "https://pypi.org/simple" }
 dependencies = [
-    { name = "colorama", marker = "sys_platform == 'win32'" },
+    { name = "colorama", marker = "sys_platform == 'win32' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 sdist = { url = "https://files.pythonhosted.org/packages/bb/63/f9e1ea081ce35720d8b92acde70daaedace594dc93b693c869e0d5910718/click-8.3.3.tar.gz", hash = "sha256:398329ad4837b2ff7cbe1dd166a4c0f8900c3ca3a218de04466f38f6497f18a2", size = 328061, upload-time = "2026-04-22T15:11:27.506Z" }
 wheels = [
@@ -909,7 +909,7 @@ name = "cryptography"
 version = "47.0.0"
 source = { registry = "https://pypi.org/simple" }
 dependencies = [
-    { name = "cffi", marker = "platform_python_implementation != 'PyPy'" },
+    { name = "cffi", marker = "platform_python_implementation != 'PyPy' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 sdist = { url = "https://files.pythonhosted.org/packages/ef/b2/7ffa7fe8207a8c42147ffe70c3e360b228160c1d85dc3faff16aaa3244c0/cryptography-47.0.0.tar.gz", hash = "sha256:9f8e55fe4e63613a5e1cc5819030f27b97742d720203a087802ce4ce9ceb52bb", size = 830863, upload-time = "2026-04-24T19:54:57.056Z" }
 wheels = [
@@ -962,7 +962,7 @@ name = "cuda-bindings"
 version = "13.2.0"
 source = { registry = "https://pypi.org/simple" }
 dependencies = [
-    { name = "cuda-pathfinder" },
+    { name = "cuda-pathfinder", marker = "(sys_platform != 'emscripten' and sys_platform != 'win32') or (sys_platform == 'emscripten' and extra == 'extra-13-megatron-core-dev') or (sys_platform == 'emscripten' and extra == 'extra-13-megatron-core-lts') or (sys_platform == 'win32' and extra == 'extra-13-megatron-core-dev') or (sys_platform == 'win32' and extra == 'extra-13-megatron-core-lts')" },
 ]
 wheels = [
     { url = "https://files.pythonhosted.org/packages/52/c8/b2589d68acf7e3d63e2be330b84bc25712e97ed799affbca7edd7eae25d6/cuda_bindings-13.2.0-cp312-cp312-manylinux_2_24_aarch64.manylinux_2_28_aarch64.whl", hash = "sha256:e865447abfb83d6a98ad5130ed3c70b1fc295ae3eeee39fd07b4ddb0671b6788", size = 5722404, upload-time = "2026-03-11T00:12:44.041Z" },
@@ -1009,37 +1009,37 @@ wheels = [
 
 [package.optional-dependencies]
 cublas = [
-    { name = "nvidia-cublas", marker = "sys_platform == 'linux' or sys_platform == 'win32'" },
+    { name = "nvidia-cublas", marker = "sys_platform == 'linux' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 cudart = [
-    { name = "nvidia-cuda-runtime", marker = "sys_platform == 'linux' or sys_platform == 'win32'" },
+    { name = "nvidia-cuda-runtime", marker = "sys_platform == 'linux' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 cufft = [
-    { name = "nvidia-cufft", marker = "sys_platform == 'linux' or sys_platform == 'win32'" },
+    { name = "nvidia-cufft", marker = "sys_platform == 'linux' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 cufile = [
-    { name = "nvidia-cufile", marker = "sys_platform == 'linux'" },
+    { name = "nvidia-cufile", marker = "sys_platform == 'linux' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 cupti = [
-    { name = "nvidia-cuda-cupti", marker = "sys_platform == 'linux' or sys_platform == 'win32'" },
+    { name = "nvidia-cuda-cupti", marker = "sys_platform == 'linux' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 curand = [
-    { name = "nvidia-curand", marker = "sys_platform == 'linux' or sys_platform == 'win32'" },
+    { name = "nvidia-curand", marker = "sys_platform == 'linux' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 cusolver = [
-    { name = "nvidia-cusolver", marker = "sys_platform == 'linux' or sys_platform == 'win32'" },
+    { name = "nvidia-cusolver", marker = "sys_platform == 'linux' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 cusparse = [
-    { name = "nvidia-cusparse", marker = "sys_platform == 'linux' or sys_platform == 'win32'" },
+    { name = "nvidia-cusparse", marker = "sys_platform == 'linux' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 nvjitlink = [
-    { name = "nvidia-nvjitlink", marker = "sys_platform == 'linux' or sys_platform == 'win32'" },
+    { name = "nvidia-nvjitlink", marker = "sys_platform == 'linux' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 nvrtc = [
-    { name = "nvidia-cuda-nvrtc", marker = "sys_platform == 'linux' or sys_platform == 'win32'" },
+    { name = "nvidia-cuda-nvrtc", marker = "sys_platform == 'linux' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 nvtx = [
-    { name = "nvidia-nvtx", marker = "sys_platform == 'linux' or sys_platform == 'win32'" },
+    { name = "nvidia-nvtx", marker = "sys_platform == 'linux' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 
 [[package]]
@@ -1179,6 +1179,19 @@ wheels = [
     { url = "https://files.pythonhosted.org/packages/84/d0/205d54408c08b13550c733c4b85429e7ead111c7f0014309637425520a9a/deprecated-1.3.1-py2.py3-none-any.whl", hash = "sha256:597bfef186b6f60181535a29fbe44865ce137a5079f295b479886c82729d5f3f", size = 11298, upload-time = "2025-10-30T08:19:00.758Z" },
 ]
 
+[[package]]
+name = "deprecation"
+version = "2.1.0"
+source = { registry = "https://pypi.org/simple" }
+dependencies = [
+    { name = "packaging", version = "25.0", source = { registry = "https://pypi.org/simple" }, marker = "extra == 'extra-13-megatron-core-dev'" },
+    { name = "packaging", version = "26.2", source = { registry = "https://pypi.org/simple" }, marker = "extra == 'extra-13-megatron-core-lts'" },
+]
+sdist = { url = "https://files.pythonhosted.org/packages/5a/d3/8ae2869247df154b64c1884d7346d412fed0c49df84db635aab2d1c40e62/deprecation-2.1.0.tar.gz", hash = "sha256:72b3bde64e5d778694b0cf68178aed03d15e15477116add3fb773e581f9518ff", size = 173788, upload-time = "2020-04-20T14:23:38.738Z" }
+wheels = [
+    { url = "https://files.pythonhosted.org/packages/02/c3/253a89ee03fc9b9682f1541728eb66db7db22148cd94f89ab22528cd1e1b/deprecation-2.1.0-py2.py3-none-any.whl", hash = "sha256:a10811591210e1fb0e768a8c25517cabeabcba6f0bf96564f8ff45189f90b14a", size = 11178, upload-time = "2020-04-20T14:23:36.581Z" },
+]
+
 [[package]]
 name = "dill"
 version = "0.4.1"
@@ -1272,7 +1285,7 @@ version = "0.2.0"
 source = { git = "https://github.com/NVIDIA-NeMo/Emerging-Optimizers.git?rev=v0.2.0#1effa026ff096b7fa1063ca2fba19d98be6e6cdf" }
 dependencies = [
     { name = "absl-py" },
-    { name = "torch", marker = "sys_platform == 'never'" },
+    { name = "torch", marker = "sys_platform == 'never' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 
 [[package]]
@@ -1968,7 +1981,7 @@ dependencies = [
     { name = "filelock" },
     { name = "fsspec", version = "2026.2.0", source = { registry = "https://pypi.org/simple" }, marker = "python_full_version < '3.14' or sys_platform != 'win32' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
     { name = "fsspec", version = "2026.3.0", source = { registry = "https://pypi.org/simple" }, marker = "(python_full_version >= '3.14' and sys_platform == 'win32') or (python_full_version < '3.14' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts') or (sys_platform != 'win32' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
-    { name = "hf-xet", marker = "platform_machine == 'aarch64' or platform_machine == 'amd64' or platform_machine == 'arm64' or platform_machine == 'x86_64'" },
+    { name = "hf-xet", marker = "platform_machine == 'aarch64' or platform_machine == 'amd64' or platform_machine == 'arm64' or platform_machine == 'x86_64' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
     { name = "packaging", version = "25.0", source = { registry = "https://pypi.org/simple" }, marker = "extra == 'extra-13-megatron-core-dev'" },
     { name = "packaging", version = "26.2", source = { registry = "https://pypi.org/simple" }, marker = "extra == 'extra-13-megatron-core-lts' or extra != 'extra-13-megatron-core-dev'" },
     { name = "pyyaml" },
@@ -2651,7 +2664,7 @@ dev = [
     { name = "flashinfer-python" },
     { name = "hypercorn" },
     { name = "mamba-ssm" },
-    { name = "megatron-energon", extra = ["av-decode"], marker = "extra == 'extra-13-megatron-core-dev'" },
+    { name = "megatron-energon", extra = ["av-decode", "multimodal"], marker = "extra == 'extra-13-megatron-core-dev'" },
     { name = "multi-storage-client" },
     { name = "nvidia-modelopt", marker = "(sys_platform != 'darwin' and extra == 'extra-13-megatron-core-dev') or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
     { name = "nvidia-resiliency-ext" },
@@ -2677,7 +2690,7 @@ lts = [
     { name = "fastapi" },
     { name = "flashinfer-python" },
     { name = "mamba-ssm" },
-    { name = "megatron-energon", extra = ["av-decode"], marker = "extra == 'extra-13-megatron-core-lts'" },
+    { name = "megatron-energon", extra = ["av-decode", "multimodal"], marker = "extra == 'extra-13-megatron-core-lts'" },
     { name = "multi-storage-client" },
     { name = "onnxscript", version = "0.7.0", source = { registry = "https://pypi.org/simple" } },
     { name = "opentelemetry-api", version = "1.33.1", source = { registry = "https://pypi.org/simple" } },
@@ -2779,8 +2792,8 @@ requires-dist = [
     { name = "hypercorn", marker = "extra == 'dev'" },
     { name = "mamba-ssm", marker = "extra == 'dev'", specifier = "~=2.2" },
     { name = "mamba-ssm", marker = "extra == 'lts'", specifier = "~=2.2" },
-    { name = "megatron-energon", extras = ["av-decode"], marker = "extra == 'dev'", specifier = "~=6.0" },
-    { name = "megatron-energon", extras = ["av-decode"], marker = "extra == 'lts'", specifier = "~=6.0" },
+    { name = "megatron-energon", extras = ["av-decode", "multimodal"], marker = "extra == 'dev'", git = "https://gitlab-master.nvidia.com/sasatheesh/Megatron-Energon?rev=d456cbd4a9a8a760b20be51194a0209c9a945b0a" },
+    { name = "megatron-energon", extras = ["av-decode", "multimodal"], marker = "extra == 'lts'", git = "https://gitlab-master.nvidia.com/sasatheesh/Megatron-Energon?rev=d456cbd4a9a8a760b20be51194a0209c9a945b0a" },
     { name = "multi-storage-client", marker = "extra == 'dev'", specifier = "~=0.27" },
     { name = "multi-storage-client", marker = "extra == 'lts'", specifier = "~=0.27" },
     { name = "numpy" },
@@ -2866,26 +2879,25 @@ test = [
 
 [[package]]
 name = "megatron-energon"
-version = "6.0.1"
-source = { registry = "https://pypi.org/simple" }
+version = "7.3.3.dev30+gd456cbd4a"
+source = { git = "https://gitlab-master.nvidia.com/sasatheesh/Megatron-Energon?rev=d456cbd4a9a8a760b20be51194a0209c9a945b0a#d456cbd4a9a8a760b20be51194a0209c9a945b0a" }
 dependencies = [
     { name = "braceexpand" },
     { name = "click" },
+    { name = "filetype" },
+    { name = "mfusepy" },
     { name = "multi-storage-client" },
     { name = "numpy", version = "2.0.2", source = { registry = "https://pypi.org/simple" }, marker = "extra == 'extra-13-megatron-core-dev'" },
     { name = "numpy", version = "2.4.4", source = { registry = "https://pypi.org/simple" }, marker = "extra == 'extra-13-megatron-core-lts'" },
     { name = "pillow" },
     { name = "pyyaml" },
+    { name = "rapidyaml" },
     { name = "s3fs", version = "2026.2.0", source = { registry = "https://pypi.org/simple" }, marker = "(python_full_version < '3.14' and extra == 'extra-13-megatron-core-dev') or (python_full_version < '3.14' and extra == 'extra-13-megatron-core-lts') or (sys_platform != 'win32' and extra == 'extra-13-megatron-core-dev') or (sys_platform != 'win32' and extra == 'extra-13-megatron-core-lts') or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
     { name = "s3fs", version = "2026.3.0", source = { registry = "https://pypi.org/simple" }, marker = "(python_full_version >= '3.14' and sys_platform == 'win32' and extra == 'extra-13-megatron-core-dev') or (python_full_version >= '3.14' and sys_platform == 'win32' and extra == 'extra-13-megatron-core-lts') or (python_full_version < '3.14' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts') or (sys_platform != 'win32' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
     { name = "torch", marker = "sys_platform == 'never'" },
     { name = "tqdm" },
     { name = "webdataset" },
 ]
-sdist = { url = "https://files.pythonhosted.org/packages/06/19/7cbb748913db83662c9e4a82164e2a008482048809d3aa163440aa3824bd/megatron_energon-6.0.1.tar.gz", hash = "sha256:39dddd2c91ddf2938ad5440a061363930b09a0c09ee1b459764df149cac34f21", size = 141410, upload-time = "2025-03-17T12:11:22.452Z" }
-wheels = [
-    { url = "https://files.pythonhosted.org/packages/71/d8/d67bac7beaba18d595b3a7d038661b6f27d69fa2099b2fabe85a63343054/megatron_energon-6.0.1-py3-none-any.whl", hash = "sha256:2214250bdc7956791556f3a48b221601fd63d36844644cff9110c312b1cd47a5", size = 202240, upload-time = "2025-03-17T12:11:20.657Z" },
-]
 
 [package.optional-dependencies]
 av-decode = [
@@ -2894,7 +2906,20 @@ av-decode = [
     { name = "ebmlite" },
     { name = "filetype" },
     { name = "sortedcontainers" },
-    { name = "soundfile" },
+]
+multimodal = [
+    { name = "einops" },
+    { name = "torchvision", marker = "sys_platform == 'never'" },
+    { name = "transformers" },
+]
+
+[[package]]
+name = "mfusepy"
+version = "3.1.1"
+source = { registry = "https://pypi.org/simple" }
+sdist = { url = "https://files.pythonhosted.org/packages/91/47/746287c8962274f73ee25edb3840d80899464bfffbe2c435424c2d60a071/mfusepy-3.1.1.tar.gz", hash = "sha256:338ece54513d7d1a5e9492837679a0c7432ecf96a03490a2683a1ce1d19570e1", size = 34549, upload-time = "2026-03-13T00:36:52.636Z" }
+wheels = [
+    { url = "https://files.pythonhosted.org/packages/c5/d5/56bc9326bf75f7ea0f4fe1178f5c9f20d1a1e15e288ecf66088513538ccd/mfusepy-3.1.1-py3-none-any.whl", hash = "sha256:69fb70cfc7f7cce595e6ff586f8451d8298f01f18286a157f24f564b24ec5a37", size = 28264, upload-time = "2026-03-13T00:36:51.843Z" },
 ]
 
 [[package]]
@@ -3505,7 +3530,7 @@ name = "nvidia-cudnn-cu13"
 version = "9.19.0.56"
 source = { registry = "https://pypi.org/simple" }
 dependencies = [
-    { name = "nvidia-cublas" },
+    { name = "nvidia-cublas", marker = "(sys_platform != 'emscripten' and sys_platform != 'win32') or (sys_platform == 'emscripten' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts') or (sys_platform == 'win32' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 wheels = [
     { url = "https://files.pythonhosted.org/packages/f1/84/26025437c1e6b61a707442184fa0c03d083b661adf3a3eecfd6d21677740/nvidia_cudnn_cu13-9.19.0.56-py3-none-manylinux_2_27_aarch64.whl", hash = "sha256:6ed29ffaee1176c612daf442e4dd6cfeb6a0caa43ddcbeb59da94953030b1be4", size = 433781201, upload-time = "2026-02-03T20:40:53.805Z" },
@@ -3534,7 +3559,7 @@ name = "nvidia-cufft"
 version = "12.0.0.61"
 source = { registry = "https://pypi.org/simple" }
 dependencies = [
-    { name = "nvidia-nvjitlink" },
+    { name = "nvidia-nvjitlink", marker = "(sys_platform != 'emscripten' and sys_platform != 'win32') or (sys_platform == 'emscripten' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts') or (sys_platform == 'win32' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 wheels = [
     { url = "https://files.pythonhosted.org/packages/8b/ae/f417a75c0259e85c1d2f83ca4e960289a5f814ed0cea74d18c353d3e989d/nvidia_cufft-12.0.0.61-py3-none-manylinux2014_aarch64.manylinux_2_17_aarch64.whl", hash = "sha256:2708c852ef8cd89d1d2068bdbece0aa188813a0c934db3779b9b1faa8442e5f5", size = 214053554, upload-time = "2025-09-04T08:31:38.196Z" },
@@ -3566,9 +3591,9 @@ name = "nvidia-cusolver"
 version = "12.0.4.66"
 source = { registry = "https://pypi.org/simple" }
 dependencies = [
-    { name = "nvidia-cublas" },
-    { name = "nvidia-cusparse" },
-    { name = "nvidia-nvjitlink" },
+    { name = "nvidia-cublas", marker = "(sys_platform != 'emscripten' and sys_platform != 'win32') or (sys_platform == 'emscripten' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts') or (sys_platform == 'win32' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
+    { name = "nvidia-cusparse", marker = "(sys_platform != 'emscripten' and sys_platform != 'win32') or (sys_platform == 'emscripten' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts') or (sys_platform == 'win32' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
+    { name = "nvidia-nvjitlink", marker = "(sys_platform != 'emscripten' and sys_platform != 'win32') or (sys_platform == 'emscripten' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts') or (sys_platform == 'win32' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 wheels = [
     { url = "https://files.pythonhosted.org/packages/c8/c3/b30c9e935fc01e3da443ec0116ed1b2a009bb867f5324d3f2d7e533e776b/nvidia_cusolver-12.0.4.66-py3-none-manylinux_2_27_aarch64.whl", hash = "sha256:02c2457eaa9e39de20f880f4bd8820e6a1cfb9f9a34f820eb12a155aa5bc92d2", size = 223467760, upload-time = "2025-09-04T08:33:04.222Z" },
@@ -3581,7 +3606,7 @@ name = "nvidia-cusparse"
 version = "12.6.3.3"
 source = { registry = "https://pypi.org/simple" }
 dependencies = [
-    { name = "nvidia-nvjitlink" },
+    { name = "nvidia-nvjitlink", marker = "(sys_platform != 'emscripten' and sys_platform != 'win32') or (sys_platform == 'emscripten' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts') or (sys_platform == 'win32' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 wheels = [
     { url = "https://files.pythonhosted.org/packages/f8/94/5c26f33738ae35276672f12615a64bd008ed5be6d1ebcb23579285d960a9/nvidia_cusparse-12.6.3.3-py3-none-manylinux2014_aarch64.manylinux_2_17_aarch64.whl", hash = "sha256:80bcc4662f23f1054ee334a15c72b8940402975e0eab63178fc7e670aa59472c", size = 162155568, upload-time = "2025-09-04T08:33:42.864Z" },
@@ -3821,11 +3846,11 @@ resolution-markers = [
     "python_full_version < '3.13' and platform_machine == 's390x' and sys_platform != 'emscripten' and sys_platform != 'win32'",
 ]
 dependencies = [
-    { name = "ml-dtypes", version = "0.5.4", source = { registry = "https://pypi.org/simple" } },
+    { name = "ml-dtypes", version = "0.5.4", source = { registry = "https://pypi.org/simple" }, marker = "(python_full_version < '3.13' and extra == 'extra-13-megatron-core-dev') or (python_full_version >= '3.13' and extra == 'extra-13-megatron-core-lts') or (extra != 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
     { name = "numpy", version = "2.0.2", source = { registry = "https://pypi.org/simple" }, marker = "(python_full_version < '3.13' and extra == 'extra-13-megatron-core-dev') or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
     { name = "numpy", version = "2.4.4", source = { registry = "https://pypi.org/simple" }, marker = "extra == 'extra-13-megatron-core-lts'" },
-    { name = "protobuf" },
-    { name = "typing-extensions" },
+    { name = "protobuf", marker = "(python_full_version < '3.13' and extra == 'extra-13-megatron-core-dev') or (python_full_version >= '3.13' and extra == 'extra-13-megatron-core-lts') or (extra != 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
+    { name = "typing-extensions", marker = "(python_full_version < '3.13' and extra == 'extra-13-megatron-core-dev') or (python_full_version >= '3.13' and extra == 'extra-13-megatron-core-lts') or (extra != 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 sdist = { url = "https://files.pythonhosted.org/packages/c5/93/942d2a0f6a70538eea042ce0445c8aefd46559ad153469986f29a743c01c/onnx-1.21.0.tar.gz", hash = "sha256:4d8b67d0aaec5864c87633188b91cc520877477ec0254eda122bef8be43cd764", size = 12074608, upload-time = "2026-03-27T21:33:36.118Z" }
 wheels = [
@@ -3901,12 +3926,12 @@ resolution-markers = [
     "python_full_version < '3.13' and platform_machine == 's390x' and sys_platform != 'emscripten' and sys_platform != 'win32'",
 ]
 dependencies = [
-    { name = "ml-dtypes", version = "0.5.4", source = { registry = "https://pypi.org/simple" } },
+    { name = "ml-dtypes", version = "0.5.4", source = { registry = "https://pypi.org/simple" }, marker = "(python_full_version < '3.13' and extra == 'extra-13-megatron-core-dev') or (python_full_version >= '3.13' and extra == 'extra-13-megatron-core-lts') or (extra != 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
     { name = "numpy", version = "2.0.2", source = { registry = "https://pypi.org/simple" }, marker = "(python_full_version < '3.13' and extra == 'extra-13-megatron-core-dev') or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
     { name = "numpy", version = "2.4.4", source = { registry = "https://pypi.org/simple" }, marker = "extra == 'extra-13-megatron-core-lts'" },
-    { name = "onnx", version = "1.21.0", source = { registry = "https://pypi.org/simple" } },
-    { name = "sympy" },
-    { name = "typing-extensions" },
+    { name = "onnx", version = "1.21.0", source = { registry = "https://pypi.org/simple" }, marker = "(python_full_version < '3.13' and extra == 'extra-13-megatron-core-dev') or (python_full_version >= '3.13' and extra == 'extra-13-megatron-core-lts') or (extra != 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
+    { name = "sympy", marker = "(python_full_version < '3.13' and extra == 'extra-13-megatron-core-dev') or (python_full_version >= '3.13' and extra == 'extra-13-megatron-core-lts') or (extra != 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
+    { name = "typing-extensions", marker = "(python_full_version < '3.13' and extra == 'extra-13-megatron-core-dev') or (python_full_version >= '3.13' and extra == 'extra-13-megatron-core-lts') or (extra != 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 sdist = { url = "https://files.pythonhosted.org/packages/35/e6/672fefb2f108d077f58181a7babf4c0f8d1182a30353ffc9c79c63afc5ee/onnx_ir-0.2.1.tar.gz", hash = "sha256:8b8b10a93f43e65962104de6070c43c5dacb0e3cdfefc7c8059dd83c9db64f35", size = 144279, upload-time = "2026-04-20T20:21:47.735Z" }
 wheels = [
@@ -3969,14 +3994,14 @@ resolution-markers = [
     "python_full_version < '3.13' and platform_machine == 's390x' and sys_platform != 'emscripten' and sys_platform != 'win32'",
 ]
 dependencies = [
-    { name = "ml-dtypes", version = "0.5.4", source = { registry = "https://pypi.org/simple" } },
+    { name = "ml-dtypes", version = "0.5.4", source = { registry = "https://pypi.org/simple" }, marker = "(python_full_version < '3.13' and extra == 'extra-13-megatron-core-dev') or (python_full_version >= '3.13' and extra == 'extra-13-megatron-core-lts') or (extra != 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
     { name = "numpy", version = "2.0.2", source = { registry = "https://pypi.org/simple" }, marker = "(python_full_version < '3.13' and extra == 'extra-13-megatron-core-dev') or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
     { name = "numpy", version = "2.4.4", source = { registry = "https://pypi.org/simple" }, marker = "extra == 'extra-13-megatron-core-lts'" },
-    { name = "onnx", version = "1.21.0", source = { registry = "https://pypi.org/simple" } },
-    { name = "onnx-ir", version = "0.2.1", source = { registry = "https://pypi.org/simple" } },
+    { name = "onnx", version = "1.21.0", source = { registry = "https://pypi.org/simple" }, marker = "(python_full_version < '3.13' and extra == 'extra-13-megatron-core-dev') or (python_full_version >= '3.13' and extra == 'extra-13-megatron-core-lts') or (extra != 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
+    { name = "onnx-ir", version = "0.2.1", source = { registry = "https://pypi.org/simple" }, marker = "(python_full_version < '3.13' and extra == 'extra-13-megatron-core-dev') or (python_full_version >= '3.13' and extra == 'extra-13-megatron-core-lts') or (extra != 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
     { name = "packaging", version = "25.0", source = { registry = "https://pypi.org/simple" }, marker = "(python_full_version < '3.13' and extra == 'extra-13-megatron-core-dev') or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
     { name = "packaging", version = "26.2", source = { registry = "https://pypi.org/simple" }, marker = "extra == 'extra-13-megatron-core-lts'" },
-    { name = "typing-extensions" },
+    { name = "typing-extensions", marker = "(python_full_version < '3.13' and extra == 'extra-13-megatron-core-dev') or (python_full_version >= '3.13' and extra == 'extra-13-megatron-core-lts') or (extra != 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 sdist = { url = "https://files.pythonhosted.org/packages/9b/99/fd948eba63ba65b52265a4cd09a14f96bb9f5b730fcef58876c4358bf406/onnxscript-0.7.0.tar.gz", hash = "sha256:c95ed7b339b02cface56ee27689565c46612e1fc542c562298dddfdad5268dc5", size = 612032, upload-time = "2026-04-20T17:09:19.775Z" }
 wheels = [
@@ -5446,6 +5471,44 @@ wheels = [
     { url = "https://files.pythonhosted.org/packages/7e/e9/cc28f21f52913adf333f653b9e0a3bf9cb223f5083a26422968ba73edd8d/quart-0.20.0-py3-none-any.whl", hash = "sha256:003c08f551746710acb757de49d9b768986fd431517d0eb127380b656b98b8f1", size = 77960, upload-time = "2024-12-23T13:53:02.842Z" },
 ]
 
+[[package]]
+name = "rapidyaml"
+version = "0.12.1"
+source = { registry = "https://pypi.org/simple" }
+dependencies = [
+    { name = "deprecation" },
+]
+sdist = { url = "https://files.pythonhosted.org/packages/f8/a2/b733d539de5c6e78c767671dba148b3c33b0d1dcdda4af2c14feed0c41ec/rapidyaml-0.12.1.tar.gz", hash = "sha256:53ea4f2277d0b35f0409f0939a95424af6a0b48e003a20ece8b6ae74f5c7f0d0", size = 483550, upload-time = "2026-05-07T19:44:12.499Z" }
+wheels = [
+    { url = "https://files.pythonhosted.org/packages/af/f7/d71685b58392f93df3247ba6b3519f1c0433f61e606716920535dd92db59/rapidyaml-0.12.1-cp312-cp312-macosx_10_13_universal2.whl", hash = "sha256:bea636ed2bc7b99d2dd5243010806ac673c70fee7d316e828bd27e3593851321", size = 5124112, upload-time = "2026-05-07T19:43:18.461Z" },
+    { url = "https://files.pythonhosted.org/packages/57/5a/cf91f2d2258a11f52f2f62bf9c65739f49ea808cebaeedc648e9f78a393e/rapidyaml-0.12.1-cp312-cp312-macosx_10_13_x86_64.whl", hash = "sha256:7ca18d04a2d9244d253d99d17a80671be7f4cd7a9daf5ff9dd850737e9b0a8c4", size = 5147555, upload-time = "2026-05-07T19:43:20.363Z" },
+    { url = "https://files.pythonhosted.org/packages/90/d6/42d441eeceac1d8fc7d2a7480654db661282dd1f94deef344c5421ba0c3c/rapidyaml-0.12.1-cp312-cp312-macosx_11_0_arm64.whl", hash = "sha256:6ddd43a1f6a12e706477b85cf51d881c2362d74f4c0433d6092f6b40bae20567", size = 5124110, upload-time = "2026-05-07T19:43:22.166Z" },
+    { url = "https://files.pythonhosted.org/packages/42/70/ec54f6b47b47adfdcce6695817ceaa102b64cd41d5fc5cb2b512353481f9/rapidyaml-0.12.1-cp312-cp312-manylinux1_i686.manylinux_2_28_i686.manylinux_2_5_i686.whl", hash = "sha256:edb8133c0f0952e9a5e1efa805f32aec5dd83315cf63710a3cd3a36a7b742615", size = 292548, upload-time = "2026-05-07T19:43:23.857Z" },
+    { url = "https://files.pythonhosted.org/packages/9a/57/27ec9e7f491f8329bfc7eb082050cca6957166407fd24d81d98a0939499e/rapidyaml-0.12.1-cp312-cp312-manylinux2014_aarch64.manylinux_2_17_aarch64.manylinux_2_28_aarch64.whl", hash = "sha256:29c97a8d7022d851c3875818a4dad232f4d921f98fc578aad5bd37bc6dd6946e", size = 272421, upload-time = "2026-05-07T19:43:24.87Z" },
+    { url = "https://files.pythonhosted.org/packages/af/cb/87da89ae11d0de562928a7e8ca40d5daee55049408019d5d1b918af6800b/rapidyaml-0.12.1-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_28_x86_64.whl", hash = "sha256:489f1cba591f3e6a6325f3b08edf64abb293b5353906686ec04949ccc3a44855", size = 282080, upload-time = "2026-05-07T19:43:26.18Z" },
+    { url = "https://files.pythonhosted.org/packages/d1/f7/6f0878b1c7e67b4d805cf0720a32aa2d85adca356f12e75d8fe4e99107b8/rapidyaml-0.12.1-cp312-cp312-win32.whl", hash = "sha256:e2375a375946afbc29aa456f4403207885b610f800e5d61491933dd511d975d1", size = 262785, upload-time = "2026-05-07T19:43:27.26Z" },
+    { url = "https://files.pythonhosted.org/packages/3f/9f/71728292cc78a2d69ddf83a59d5248776174458fb4db13630eb066566800/rapidyaml-0.12.1-cp312-cp312-win_amd64.whl", hash = "sha256:dbcb37383a184db48c52182f236d5b2ac2d0fcb8ed768d076e967cc6d107e094", size = 315347, upload-time = "2026-05-07T19:43:28.239Z" },
+    { url = "https://files.pythonhosted.org/packages/4d/ff/0165060d60d1c9c0bbaa5492bbffaffe821afdfee4300b7fa035da7dadcb/rapidyaml-0.12.1-cp312-cp312-win_arm64.whl", hash = "sha256:aaf84d355b3dc0c8b027cc27418eff2c37888d77d5e92bfd7b54d6124f06daf6", size = 312000, upload-time = "2026-05-07T19:43:29.52Z" },
+    { url = "https://files.pythonhosted.org/packages/20/fe/a24ceda80e0ead701b997af6be525ed1f12405e192c5080cee2e7607c087/rapidyaml-0.12.1-cp313-cp313-macosx_10_13_universal2.whl", hash = "sha256:26df56dd872ae679ad7eb78ec704f75514ca6ea5c9229c2e336d7df2f90360dd", size = 5069159, upload-time = "2026-05-07T19:43:30.874Z" },
+    { url = "https://files.pythonhosted.org/packages/52/0c/3702d9125258abcdc9049651e34158ae2cf3557221dde637edee66765869/rapidyaml-0.12.1-cp313-cp313-macosx_10_13_x86_64.whl", hash = "sha256:b9f3900d2ae4bf72358b01e823d97cd4eea541c77fbf83198ee5189c088ec34a", size = 5092680, upload-time = "2026-05-07T19:43:32.197Z" },
+    { url = "https://files.pythonhosted.org/packages/44/d7/5215d653c8617b90ca121d04f7d1ef508dea36dc07c43646c9361d6080eb/rapidyaml-0.12.1-cp313-cp313-macosx_11_0_arm64.whl", hash = "sha256:ff4002c071ebd731257c25713b57bb9df3525e7aea1347ede824e209e9b5638f", size = 5069159, upload-time = "2026-05-07T19:43:33.519Z" },
+    { url = "https://files.pythonhosted.org/packages/52/70/ed49d7c6a3786c087dda8753549ecc00a7be56fadaea8b787e2ebb70364b/rapidyaml-0.12.1-cp313-cp313-manylinux1_i686.manylinux_2_28_i686.manylinux_2_5_i686.whl", hash = "sha256:b32a72128bcbfd399330e5d4c3f6fd7366cecbb369ecdaa9b32fd79934cc8d1f", size = 292423, upload-time = "2026-05-07T19:43:35.216Z" },
+    { url = "https://files.pythonhosted.org/packages/a5/59/371171d64e109964bab0a527bf6bd4696adb2ff41b3a851edae812270e30/rapidyaml-0.12.1-cp313-cp313-manylinux2014_aarch64.manylinux_2_17_aarch64.manylinux_2_28_aarch64.whl", hash = "sha256:09132b2eb4e8b1d3fe285b38609d9fc58dccdd43d6df3798ee38acbfd7f2bf15", size = 272203, upload-time = "2026-05-07T19:43:36.197Z" },
+    { url = "https://files.pythonhosted.org/packages/f4/48/03a3c30aa899a40a068fcf7c28e1afa08cc528f55298d53ddeeb872f5c66/rapidyaml-0.12.1-cp313-cp313-manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_28_x86_64.whl", hash = "sha256:1f3fe91b67ec3afbb290d370e7acce4f02399f1d13a4b157df6dac395a107d1b", size = 281894, upload-time = "2026-05-07T19:43:37.23Z" },
+    { url = "https://files.pythonhosted.org/packages/61/8b/85799d7e330f44d5352037e19d867d0a373d46428027aa669b9de261cb9e/rapidyaml-0.12.1-cp313-cp313-win32.whl", hash = "sha256:43a96e347c6f1aaca0378519d6bb512e1312e83005fbecdaeb5ea6ae8a9d8a13", size = 263066, upload-time = "2026-05-07T19:43:38.383Z" },
+    { url = "https://files.pythonhosted.org/packages/da/34/007cdf7aa9dbbd7a3e742a7af9235eb329b210946cdcfd48bf5966e5a809/rapidyaml-0.12.1-cp313-cp313-win_amd64.whl", hash = "sha256:72c8966ca52425eb875645bed1d02b227774d13d90479b0d671f3ec29a3b4101", size = 315204, upload-time = "2026-05-07T19:43:39.397Z" },
+    { url = "https://files.pythonhosted.org/packages/67/2d/932fd4ab7bbce7eeaab195adaf711f609f4bf94e3b9dbc26b30f7fdb18a7/rapidyaml-0.12.1-cp313-cp313-win_arm64.whl", hash = "sha256:5d0d2d0d85493b7239810073893ff301004226b85b35425d46dbced9f34d2fb4", size = 311874, upload-time = "2026-05-07T19:43:40.394Z" },
+    { url = "https://files.pythonhosted.org/packages/d3/82/c126035a3470e0cdc0f9446de842acf38af2a7f1e5c0b6dfb072895ca67e/rapidyaml-0.12.1-cp314-cp314-macosx_10_15_universal2.whl", hash = "sha256:9dae5e7cfc7ebed8d32d4378ea77c72b9de2ff7db2ea3ae066d7623731420db1", size = 5649856, upload-time = "2026-05-07T19:43:41.747Z" },
+    { url = "https://files.pythonhosted.org/packages/69/f7/09c6dc1ff4327d1bb9e47b8068bb4a5dced83d1190568303a0b4a0fb8972/rapidyaml-0.12.1-cp314-cp314-macosx_10_15_x86_64.whl", hash = "sha256:5e5dd676cd5071592c36dc5a8fe01e8eacf036b8df47fbe5bdedb540856a24a1", size = 5673400, upload-time = "2026-05-07T19:43:43.132Z" },
+    { url = "https://files.pythonhosted.org/packages/cf/fa/df944aa94d29544c87f96d508b19ed5c00de02b42de6d3541055329e80b8/rapidyaml-0.12.1-cp314-cp314-macosx_11_0_arm64.whl", hash = "sha256:eb2ed5a365f39041f9da353851951846f7bbec8aa7e0f7a8c531707e2ee99211", size = 5649853, upload-time = "2026-05-07T19:43:44.539Z" },
+    { url = "https://files.pythonhosted.org/packages/1e/19/322e915eb0a4bfa9eca6d3be9f724ad026f9c3c8e3281c543d2980c799e4/rapidyaml-0.12.1-cp314-cp314-manylinux1_i686.manylinux_2_28_i686.manylinux_2_5_i686.whl", hash = "sha256:30f4270c78e4613cd6cbfbd68d23065e44dd783e5bbfccfa301a066aa743b360", size = 292289, upload-time = "2026-05-07T19:43:46.077Z" },
+    { url = "https://files.pythonhosted.org/packages/4d/e2/ab47a96c90dd32c039d983bc04f11836f6d50ae080d739696c98d3871689/rapidyaml-0.12.1-cp314-cp314-manylinux2014_aarch64.manylinux_2_17_aarch64.manylinux_2_28_aarch64.whl", hash = "sha256:1b64974ba546d6d21935da84e85829ee8ab5c78b7db0d607aa3399a21f31355e", size = 272462, upload-time = "2026-05-07T19:43:47.262Z" },
+    { url = "https://files.pythonhosted.org/packages/9f/d2/15a25bb2947a5decf149ef36547d3ad367f032654910f25e6bc7d6f871c8/rapidyaml-0.12.1-cp314-cp314-manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_28_x86_64.whl", hash = "sha256:d57e96874d66588bf2af8b96e6b178cae7f33a791e1cccd78bef1656c0b10fc6", size = 281860, upload-time = "2026-05-07T19:43:48.35Z" },
+    { url = "https://files.pythonhosted.org/packages/33/07/a64ab8cc6c34565d3a5e687d3e7898fe59c1a4b76608b56b0782f40007e2/rapidyaml-0.12.1-cp314-cp314-win32.whl", hash = "sha256:96b303eb6537c4dd9a4ed1c6d0296ec7c7340b637f1580dce60d99ccf1869448", size = 270639, upload-time = "2026-05-07T19:43:49.394Z" },
+    { url = "https://files.pythonhosted.org/packages/fe/ae/e80303b4c14d1dc41c39d71f4cb46e6f3b6683921f99bd039fec98397808/rapidyaml-0.12.1-cp314-cp314-win_amd64.whl", hash = "sha256:ce932c0df3237c4a92428bf0407c59af217739c23c99751151eee46871c7690a", size = 325210, upload-time = "2026-05-07T19:43:50.521Z" },
+    { url = "https://files.pythonhosted.org/packages/4b/3a/9dc97f8f98394381e054b21a6f2d288ecf0e266f225a70356dd2f4394d56/rapidyaml-0.12.1-cp314-cp314-win_arm64.whl", hash = "sha256:e7492e635020edb2813393ece03bede28d6f90f30daa3464217263015c3c06b0", size = 321624, upload-time = "2026-05-07T19:43:51.896Z" },
+]
+
 [[package]]
 name = "ray"
 version = "2.55.1"
@@ -5501,7 +5564,7 @@ source = { registry = "https://pypi.org/simple" }
 dependencies = [
     { name = "attrs" },
     { name = "rpds-py" },
-    { name = "typing-extensions", marker = "python_full_version < '3.13'" },
+    { name = "typing-extensions", marker = "python_full_version < '3.13' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 sdist = { url = "https://files.pythonhosted.org/packages/22/f5/df4e9027acead3ecc63e50fe1e36aca1523e1719559c499951bb4b53188f/referencing-0.37.0.tar.gz", hash = "sha256:44aefc3142c5b842538163acb373e24cce6632bd54bdb01b21ad5863489f50d8", size = 78036, upload-time = "2025-10-13T15:30:48.871Z" }
 wheels = [
@@ -6100,26 +6163,6 @@ wheels = [
     { url = "https://files.pythonhosted.org/packages/32/46/9cb0e58b2deb7f82b84065f37f3bffeb12413f947f9388e4cac22c4621ce/sortedcontainers-2.4.0-py2.py3-none-any.whl", hash = "sha256:a163dcaede0f1c021485e957a39245190e74249897e2ae4b2aa38595db237ee0", size = 29575, upload-time = "2021-05-16T22:03:41.177Z" },
 ]
 
-[[package]]
-name = "soundfile"
-version = "0.13.1"
-source = { registry = "https://pypi.org/simple" }
-dependencies = [
-    { name = "cffi" },
-    { name = "numpy", version = "2.0.2", source = { registry = "https://pypi.org/simple" }, marker = "extra == 'extra-13-megatron-core-dev'" },
-    { name = "numpy", version = "2.4.4", source = { registry = "https://pypi.org/simple" }, marker = "extra == 'extra-13-megatron-core-lts'" },
-]
-sdist = { url = "https://files.pythonhosted.org/packages/e1/41/9b873a8c055582859b239be17902a85339bec6a30ad162f98c9b0288a2cc/soundfile-0.13.1.tar.gz", hash = "sha256:b2c68dab1e30297317080a5b43df57e302584c49e2942defdde0acccc53f0e5b", size = 46156, upload-time = "2025-01-25T09:17:04.831Z" }
-wheels = [
-    { url = "https://files.pythonhosted.org/packages/64/28/e2a36573ccbcf3d57c00626a21fe51989380636e821b341d36ccca0c1c3a/soundfile-0.13.1-py2.py3-none-any.whl", hash = "sha256:a23c717560da2cf4c7b5ae1142514e0fd82d6bbd9dfc93a50423447142f2c445", size = 25751, upload-time = "2025-01-25T09:16:44.235Z" },
-    { url = "https://files.pythonhosted.org/packages/ea/ab/73e97a5b3cc46bba7ff8650a1504348fa1863a6f9d57d7001c6b67c5f20e/soundfile-0.13.1-py2.py3-none-macosx_10_9_x86_64.whl", hash = "sha256:82dc664d19831933fe59adad199bf3945ad06d84bc111a5b4c0d3089a5b9ec33", size = 1142250, upload-time = "2025-01-25T09:16:47.583Z" },
-    { url = "https://files.pythonhosted.org/packages/a0/e5/58fd1a8d7b26fc113af244f966ee3aecf03cb9293cb935daaddc1e455e18/soundfile-0.13.1-py2.py3-none-macosx_11_0_arm64.whl", hash = "sha256:743f12c12c4054921e15736c6be09ac26b3b3d603aef6fd69f9dde68748f2593", size = 1101406, upload-time = "2025-01-25T09:16:49.662Z" },
-    { url = "https://files.pythonhosted.org/packages/58/ae/c0e4a53d77cf6e9a04179535766b3321b0b9ced5f70522e4caf9329f0046/soundfile-0.13.1-py2.py3-none-manylinux_2_28_aarch64.whl", hash = "sha256:9c9e855f5a4d06ce4213f31918653ab7de0c5a8d8107cd2427e44b42df547deb", size = 1235729, upload-time = "2025-01-25T09:16:53.018Z" },
-    { url = "https://files.pythonhosted.org/packages/57/5e/70bdd9579b35003a489fc850b5047beeda26328053ebadc1fb60f320f7db/soundfile-0.13.1-py2.py3-none-manylinux_2_28_x86_64.whl", hash = "sha256:03267c4e493315294834a0870f31dbb3b28a95561b80b134f0bd3cf2d5f0e618", size = 1313646, upload-time = "2025-01-25T09:16:54.872Z" },
-    { url = "https://files.pythonhosted.org/packages/fe/df/8c11dc4dfceda14e3003bb81a0d0edcaaf0796dd7b4f826ea3e532146bba/soundfile-0.13.1-py2.py3-none-win32.whl", hash = "sha256:c734564fab7c5ddf8e9be5bf70bab68042cd17e9c214c06e365e20d64f9a69d5", size = 899881, upload-time = "2025-01-25T09:16:56.663Z" },
-    { url = "https://files.pythonhosted.org/packages/14/e9/6b761de83277f2f02ded7e7ea6f07828ec78e4b229b80e4ca55dd205b9dc/soundfile-0.13.1-py2.py3-none-win_amd64.whl", hash = "sha256:1e70a05a0626524a69e9f0f4dd2ec174b4e9567f4d8b6c11d38b5c289be36ee9", size = 1019162, upload-time = "2025-01-25T09:16:59.573Z" },
-]
-
 [[package]]
 name = "soupsieve"
 version = "2.8.3"
@@ -6319,7 +6362,7 @@ version = "0.52.1"
 source = { registry = "https://pypi.org/simple" }
 dependencies = [
     { name = "anyio" },
-    { name = "typing-extensions", marker = "python_full_version < '3.13'" },
+    { name = "typing-extensions", marker = "python_full_version < '3.13' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 sdist = { url = "https://files.pythonhosted.org/packages/c4/68/79977123bb7be889ad680d79a40f339082c1978b5cfcf62c2d8d196873ac/starlette-0.52.1.tar.gz", hash = "sha256:834edd1b0a23167694292e94f597773bc3f89f362be6effee198165a35d62933", size = 2653702, upload-time = "2026-01-18T13:34:11.062Z" }
 wheels = [
@@ -6331,7 +6374,7 @@ name = "sympy"
 version = "1.14.0"
 source = { registry = "https://pypi.org/simple" }
 dependencies = [
-    { name = "mpmath" },
+    { name = "mpmath", marker = "(python_full_version < '3.13' and sys_platform == 'emscripten' and extra == 'extra-13-megatron-core-dev') or (python_full_version >= '3.13' and sys_platform == 'emscripten' and extra == 'extra-13-megatron-core-lts') or (python_full_version < '3.13' and sys_platform == 'win32' and extra == 'extra-13-megatron-core-dev') or (python_full_version >= '3.13' and sys_platform == 'win32' and extra == 'extra-13-megatron-core-lts') or (sys_platform != 'emscripten' and sys_platform != 'win32') or (sys_platform == 'emscripten' and extra != 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts') or (sys_platform == 'win32' and extra != 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 sdist = { url = "https://files.pythonhosted.org/packages/83/d3/803453b36afefb7c2bb238361cd4ae6125a569b4db67cd9e79846ba2d68c/sympy-1.14.0.tar.gz", hash = "sha256:d3d3fe8df1e5a0b42f0e7bdf50541697dbe7d23746e894990c030e2b05e72517", size = 7793921, upload-time = "2025-04-27T18:05:01.611Z" }
 wheels = [
@@ -6449,7 +6492,7 @@ resolution-markers = [
     "python_full_version < '3.13' and platform_machine == 's390x' and sys_platform != 'emscripten' and sys_platform != 'win32'",
 ]
 dependencies = [
-    { name = "ml-dtypes", version = "0.5.4", source = { registry = "https://pypi.org/simple" } },
+    { name = "ml-dtypes", version = "0.5.4", source = { registry = "https://pypi.org/simple" }, marker = "(python_full_version < '3.13' and extra == 'extra-13-megatron-core-dev') or (python_full_version >= '3.13' and extra == 'extra-13-megatron-core-lts') or (extra != 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
     { name = "numpy", version = "2.0.2", source = { registry = "https://pypi.org/simple" }, marker = "(python_full_version < '3.13' and extra == 'extra-13-megatron-core-dev') or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
     { name = "numpy", version = "2.4.4", source = { registry = "https://pypi.org/simple" }, marker = "extra == 'extra-13-megatron-core-lts'" },
 ]
@@ -6610,21 +6653,20 @@ name = "torch"
 version = "2.11.0"
 source = { registry = "https://pypi.org/simple" }
 dependencies = [
-    { name = "cuda-bindings", marker = "sys_platform == 'linux'" },
+    { name = "cuda-bindings", marker = "sys_platform == 'linux' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
     { name = "cuda-toolkit", extra = ["cublas", "cudart", "cufft", "cufile", "cupti", "curand", "cusolver", "cusparse", "nvjitlink", "nvrtc", "nvtx"], marker = "sys_platform == 'linux' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
-    { name = "filelock" },
-    { name = "fsspec", version = "2026.2.0", source = { registry = "https://pypi.org/simple" }, marker = "python_full_version < '3.14' or sys_platform != 'win32' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
-    { name = "fsspec", version = "2026.3.0", source = { registry = "https://pypi.org/simple" }, marker = "(python_full_version >= '3.14' and sys_platform == 'win32') or (python_full_version < '3.14' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts') or (sys_platform != 'win32' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
-    { name = "jinja2" },
-    { name = "networkx" },
-    { name = "nvidia-cudnn-cu13", marker = "sys_platform == 'linux'" },
-    { name = "nvidia-cusparselt-cu13", marker = "sys_platform == 'linux'" },
-    { name = "nvidia-nccl-cu13", marker = "sys_platform == 'linux'" },
-    { name = "nvidia-nvshmem-cu13", marker = "sys_platform == 'linux'" },
-    { name = "setuptools" },
-    { name = "sympy" },
-    { name = "triton", marker = "sys_platform == 'never'" },
-    { name = "typing-extensions" },
+    { name = "filelock", marker = "(sys_platform != 'emscripten' and sys_platform != 'win32') or (sys_platform == 'emscripten' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts') or (sys_platform == 'win32' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
+    { name = "fsspec", version = "2026.2.0", source = { registry = "https://pypi.org/simple" }, marker = "(sys_platform != 'emscripten' and sys_platform != 'win32') or (sys_platform == 'emscripten' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts') or (sys_platform == 'win32' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
+    { name = "jinja2", marker = "(sys_platform != 'emscripten' and sys_platform != 'win32') or (sys_platform == 'emscripten' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts') or (sys_platform == 'win32' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
+    { name = "networkx", marker = "(sys_platform != 'emscripten' and sys_platform != 'win32') or (sys_platform == 'emscripten' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts') or (sys_platform == 'win32' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
+    { name = "nvidia-cudnn-cu13", marker = "sys_platform == 'linux' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
+    { name = "nvidia-cusparselt-cu13", marker = "sys_platform == 'linux' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
+    { name = "nvidia-nccl-cu13", marker = "sys_platform == 'linux' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
+    { name = "nvidia-nvshmem-cu13", marker = "sys_platform == 'linux' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
+    { name = "setuptools", marker = "(sys_platform != 'emscripten' and sys_platform != 'win32') or (sys_platform == 'emscripten' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts') or (sys_platform == 'win32' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
+    { name = "sympy", marker = "(sys_platform != 'emscripten' and sys_platform != 'win32') or (sys_platform == 'emscripten' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts') or (sys_platform == 'win32' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
+    { name = "triton", marker = "sys_platform == 'never' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
+    { name = "typing-extensions", marker = "(sys_platform != 'emscripten' and sys_platform != 'win32') or (sys_platform == 'emscripten' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts') or (sys_platform == 'win32' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 wheels = [
     { url = "https://files.pythonhosted.org/packages/6f/8b/69e3008d78e5cee2b30183340cc425081b78afc5eff3d080daab0adda9aa/torch-2.11.0-cp312-cp312-macosx_11_0_arm64.whl", hash = "sha256:4b5866312ee6e52ea625cd211dcb97d6a2cdc1131a5f15cc0d87eec948f6dd34", size = 80606338, upload-time = "2026-03-23T18:11:34.781Z" },
@@ -6649,6 +6691,39 @@ wheels = [
     { url = "https://files.pythonhosted.org/packages/cf/bf/c8d12a2c86dbfd7f40fb2f56fbf5a505ccf2d9ce131eb559dfc7c51e1a04/torch-2.11.0-cp314-cp314t-win_amd64.whl", hash = "sha256:b2a43985ff5ef6ddd923bbcf99943e5f58059805787c5c9a2622bf05ca2965b0", size = 114792991, upload-time = "2026-03-23T18:08:19.216Z" },
 ]
 
+[[package]]
+name = "torchvision"
+version = "0.26.0"
+source = { registry = "https://pypi.org/simple" }
+dependencies = [
+    { name = "numpy", version = "2.0.2", source = { registry = "https://pypi.org/simple" }, marker = "(sys_platform != 'emscripten' and sys_platform != 'win32' and extra == 'extra-13-megatron-core-dev') or (sys_platform == 'emscripten' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts') or (sys_platform == 'win32' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
+    { name = "numpy", version = "2.4.4", source = { registry = "https://pypi.org/simple" }, marker = "(sys_platform != 'emscripten' and sys_platform != 'win32' and extra == 'extra-13-megatron-core-lts') or (sys_platform == 'emscripten' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts') or (sys_platform == 'win32' and extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
+    { name = "pillow", marker = "sys_platform != 'emscripten' and sys_platform != 'win32'" },
+    { name = "torch", marker = "sys_platform == 'never'" },
+]
+wheels = [
+    { url = "https://files.pythonhosted.org/packages/ae/e7/56b47cc3b132aea90ccce22bcb8975dec688b002150012acc842846039d0/torchvision-0.26.0-cp312-cp312-macosx_11_0_arm64.whl", hash = "sha256:c409e1c3fdebec7a3834465086dbda8bf7680eff79abf7fd2f10c6b59520a7a4", size = 1863502, upload-time = "2026-03-23T18:12:57.326Z" },
+    { url = "https://files.pythonhosted.org/packages/f4/ec/5c31c92c08b65662fe9604a4067ae8232582805949f11ddc042cebe818ed/torchvision-0.26.0-cp312-cp312-manylinux_2_28_aarch64.whl", hash = "sha256:406557718e62fdf10f5706e88d8a5ec000f872da913bf629aab9297622585547", size = 7767944, upload-time = "2026-03-23T18:12:42.805Z" },
+    { url = "https://files.pythonhosted.org/packages/f5/d8/cb6ccda1a1f35a6597645818641701207b3e8e13553e75fce5d86bac74b2/torchvision-0.26.0-cp312-cp312-manylinux_2_28_x86_64.whl", hash = "sha256:d61a5abb6b42a0c0c311996c2ac4b83a94418a97182c83b055a2a4ae985e05aa", size = 7522205, upload-time = "2026-03-23T18:12:54.654Z" },
+    { url = "https://files.pythonhosted.org/packages/1c/a9/c272623a0f735c35f0f6cd6dc74784d4f970e800cf063bb76687895a2ab9/torchvision-0.26.0-cp312-cp312-win_amd64.whl", hash = "sha256:7993c01648e7c61d191b018e84d38fe0825c8fcb2720cd0f37caf7ba14404aa1", size = 4255155, upload-time = "2026-03-23T18:12:32.652Z" },
+    { url = "https://files.pythonhosted.org/packages/da/80/0762f77f53605d10c9477be39bb47722cc8e383bbbc2531471ce0e396c07/torchvision-0.26.0-cp313-cp313-macosx_12_0_arm64.whl", hash = "sha256:5d63dd43162691258b1b3529b9041bac7d54caa37eae0925f997108268cbf7c4", size = 1860809, upload-time = "2026-03-23T18:12:47.629Z" },
+    { url = "https://files.pythonhosted.org/packages/e6/81/0b3e58d1478c660a5af4268713486b2df7203f35abd9195fea87348a5178/torchvision-0.26.0-cp313-cp313-manylinux_2_28_aarch64.whl", hash = "sha256:a39c7a26538c41fda453f9a9692b5ff9b35a5437db1d94f3027f6f509c160eac", size = 7727494, upload-time = "2026-03-23T18:12:46.062Z" },
+    { url = "https://files.pythonhosted.org/packages/b6/dc/d9ab5d29115aa05e12e30f1397a3eeae1d88a511241dc3bce48dc4342675/torchvision-0.26.0-cp313-cp313-manylinux_2_28_x86_64.whl", hash = "sha256:b7e6213620bbf97742e5f79832f9e9d769e6cf0f744c5b53dad80b76db633691", size = 7521747, upload-time = "2026-03-23T18:12:36.815Z" },
+    { url = "https://files.pythonhosted.org/packages/a9/1b/f1bc86a918c5f6feab1eeff11982e2060f4704332e96185463d27855bdf5/torchvision-0.26.0-cp313-cp313-win_amd64.whl", hash = "sha256:4280c35ec8cba1fcc8294fb87e136924708726864c379e4c54494797d86bc474", size = 4319880, upload-time = "2026-03-23T18:12:38.168Z" },
+    { url = "https://files.pythonhosted.org/packages/66/28/b4ad0a723ed95b003454caffcc41894b34bd8379df340848cae2c33871de/torchvision-0.26.0-cp313-cp313t-macosx_12_0_arm64.whl", hash = "sha256:358fc4726d0c08615b6d83b3149854f11efb2a564ed1acb6fce882e151412d23", size = 1951973, upload-time = "2026-03-23T18:12:48.781Z" },
+    { url = "https://files.pythonhosted.org/packages/71/e2/7a89096e6cf2f3336353b5338ba925e0addf9d8601920340e6bdf47e8eb3/torchvision-0.26.0-cp313-cp313t-manylinux_2_28_aarch64.whl", hash = "sha256:3daf9cc149cf3cdcbd4df9c59dae69ffca86c6823250442c3bbfd63fc2e26c61", size = 7728679, upload-time = "2026-03-23T18:12:26.196Z" },
+    { url = "https://files.pythonhosted.org/packages/69/1d/4e1eebc17d18ce080a11dcf3df3f8f717f0efdfa00983f06e8ba79259f61/torchvision-0.26.0-cp313-cp313t-manylinux_2_28_x86_64.whl", hash = "sha256:82c3965eca27e86a316e31e4c3e5a16d353e0bcbe0ef8efa2e66502c54493c4b", size = 7609138, upload-time = "2026-03-23T18:12:35.327Z" },
+    { url = "https://files.pythonhosted.org/packages/f3/a4/f1155e943ae5b32400d7000adc81c79bb0392b16ceb33bcf13e02e48cced/torchvision-0.26.0-cp313-cp313t-win_amd64.whl", hash = "sha256:ebc043cc5a4f0bf22e7680806dbba37ffb19e70f6953bbb44ed1a90aeb5c9bea", size = 4248202, upload-time = "2026-03-23T18:12:41.423Z" },
+    { url = "https://files.pythonhosted.org/packages/7f/c8/9bffa9c7f7bdf95b2a0a2dc535c290b9f1cc580c3fb3033ab1246ffffdeb/torchvision-0.26.0-cp314-cp314-macosx_12_0_arm64.whl", hash = "sha256:eb61804eb9dbe88c5a2a6c4da8dec1d80d2d0a6f18c999c524e32266cb1ebcd3", size = 1860813, upload-time = "2026-03-23T18:12:39.636Z" },
+    { url = "https://files.pythonhosted.org/packages/7b/ac/48f28ffd227991f2e14f4392dde7e8dc14352bb9428c1ef4a4bbf5f7ed85/torchvision-0.26.0-cp314-cp314-manylinux_2_28_aarch64.whl", hash = "sha256:9a904f2131cbfadab4df828088a9f66291ad33f49ff853872aed1f86848ef776", size = 7727777, upload-time = "2026-03-23T18:12:22.549Z" },
+    { url = "https://files.pythonhosted.org/packages/a4/21/a2266f7f1b0e58e624ff15fd6f01041f59182c49551ece0db9a183071329/torchvision-0.26.0-cp314-cp314-manylinux_2_28_x86_64.whl", hash = "sha256:0f3e572efe62ad645017ea847e0b5e4f2f638d4e39f05bc011d1eb9ac68d4806", size = 7522174, upload-time = "2026-03-23T18:12:29.565Z" },
+    { url = "https://files.pythonhosted.org/packages/fc/ba/1666f90bc0bdd77aaa11dcc42bb9f621a9c3668819c32430452e3d404730/torchvision-0.26.0-cp314-cp314-win_amd64.whl", hash = "sha256:114bec0c0e98aa4ba446f63e2fe7a2cbca37b39ac933987ee4804f65de121800", size = 4348469, upload-time = "2026-03-23T18:12:24.44Z" },
+    { url = "https://files.pythonhosted.org/packages/45/8f/1f0402ac55c2ae15651ff831957d083fe70b2d12282e72612a30ba601512/torchvision-0.26.0-cp314-cp314t-macosx_12_0_arm64.whl", hash = "sha256:b7d3e295624a28b3b1769228ce1345d94cf4d390dd31136766f76f2d20f718da", size = 1860826, upload-time = "2026-03-23T18:12:34.1Z" },
+    { url = "https://files.pythonhosted.org/packages/d2/6a/18a582fe3c5ee26f49b5c9fb21ad8016b4d1c06d10178894a58653946fda/torchvision-0.26.0-cp314-cp314t-manylinux_2_28_aarch64.whl", hash = "sha256:7058c5878262937e876f20c25867b33724586aa4499e2853b2d52b99a5e51953", size = 7729089, upload-time = "2026-03-23T18:12:31.394Z" },
+    { url = "https://files.pythonhosted.org/packages/c5/9b/f7e119b59499edc00c55c03adc9ec3bd96144d9b81c46852c431f9c64a9a/torchvision-0.26.0-cp314-cp314t-manylinux_2_28_x86_64.whl", hash = "sha256:8008474855623c6ba52876589dc52df0aa66e518c25eca841445348e5f79844c", size = 7522704, upload-time = "2026-03-23T18:12:20.301Z" },
+    { url = "https://files.pythonhosted.org/packages/d0/6a/09f3844c10643f6c0de5d95abc863420cfaf194c88c7dffd0ac523e2015f/torchvision-0.26.0-cp314-cp314t-win_amd64.whl", hash = "sha256:e9d0e022c19a78552fb055d0414d47fecb4a649309b9968573daea160ba6869c", size = 4454275, upload-time = "2026-03-23T18:12:27.487Z" },
+]
+
 [[package]]
 name = "torchx"
 version = "0.7.0"
@@ -6675,7 +6750,7 @@ name = "tqdm"
 version = "4.67.3"
 source = { registry = "https://pypi.org/simple" }
 dependencies = [
-    { name = "colorama", marker = "sys_platform == 'win32'" },
+    { name = "colorama", marker = "sys_platform == 'win32' or (extra == 'extra-13-megatron-core-dev' and extra == 'extra-13-megatron-core-lts')" },
 ]
 sdist = { url = "https://files.pythonhosted.org/packages/09/a9/6ba95a270c6f1fbcd8dac228323f2777d886cb206987444e4bce66338dd4/tqdm-4.67.3.tar.gz", hash = "sha256:7d825f03f89244ef73f1d4ce193cb1774a8179fd96f31d7e1dcde62092b960bb", size = 169598, upload-time = "2026-02-03T17:35:53.048Z" }
 wheels = [