From 89b924379f3302b6c8ae9ab3b2e6bc964f6c53bf Mon Sep 17 00:00:00 2001
From: simondanielsson <simon.danielsson99@hotmail.com>
Date: Fri, 29 May 2026 09:33:06 +0200
Subject: [PATCH 1/7] fix: remove moriio connector patches after bumping to new
 nightly vllm image

Signed-off-by: simondanielsson <simon.danielsson99@hotmail.com>
---
 .github/configs/amd-master.yaml               |   8 +-
 benchmarks/multi_node/amd_utils/setup_deps.sh | 555 ------------------
 2 files changed, 6 insertions(+), 557 deletions(-)

diff --git a/.github/configs/amd-master.yaml b/.github/configs/amd-master.yaml
index 3544aad49..99ce5830b 100644
--- a/.github/configs/amd-master.yaml
+++ b/.github/configs/amd-master.yaml
@@ -1524,7 +1524,9 @@ dsr1-fp8-mi355x-sglang-disagg-mtp:
           - "DECODE_MTP_SIZE=2"
 
 kimik2.5-fp4-mi355x-vllm-disagg:
-  image: vllm/vllm-openai-rocm:nightly-bf610c2f56764e1b30bc6065f4ceace3d6e59036
+  # TODO(simondanielsson): change to pinned version once https://github.com/vllm-project/vllm/pull/40344
+  # is part of official release, likely 0.22.0.
+  image: vllm/vllm-openai-rocm:nightly
   model: amd/Kimi-K2.5-MXFP4
   model-prefix: kimik2.5
   runner: mi355x-disagg
@@ -1578,7 +1580,9 @@ kimik2.5-fp4-mi355x-vllm-disagg:
           - "DECODE_NODES=2"
 
 minimaxm2.5-fp8-mi355x-vllm-disagg:
-  image: vllm/vllm-openai-rocm:nightly-a6682d1d259cca69a9ae737ea5608fbbe7520031
+  # TODO(simondanielsson): change to pinned version once https://github.com/vllm-project/vllm/pull/40344
+  # is part of official release, likely 0.22.0.
+  image: vllm/vllm-openai-rocm:nightly
   model: MiniMaxAI/MiniMax-M2.5
   model-prefix: minimaxm2.5
   runner: mi355x-disagg
diff --git a/benchmarks/multi_node/amd_utils/setup_deps.sh b/benchmarks/multi_node/amd_utils/setup_deps.sh
index add2e3fa5..0f6a472d1 100644
--- a/benchmarks/multi_node/amd_utils/setup_deps.sh
+++ b/benchmarks/multi_node/amd_utils/setup_deps.sh
@@ -79,556 +79,6 @@ install_amd_quark() {
     _SETUP_INSTALLED+=("amd-quark")
 }
 
-# ---------------------------------------------------------------------------
-# 8. Patch vLLM MoRI-IO save_kv_layer busy-spin (C128 tail-batch deadlock)
-#    In WRITE mode, save_kv_layer spins forever waiting for the handshake
-#    callback to set write_ready_flags. This blocks the model worker thread,
-#    preventing it from responding to EngineCore shm_broadcast, causing a
-#    TimeoutError cascade and crash.
-#    Patch: add time.sleep(0.001) and a 30s timeout to yield CPU and prevent
-#    the model worker from deadlocking.
-# ---------------------------------------------------------------------------
-patch_moriio_save_kv_timeout() {
-    python3 -c '
-import os, sys
-
-try:
-    import vllm.distributed.kv_transfer.kv_connector.v1.moriio.moriio_connector as mc
-    f = mc.__file__
-    src = open(f).read()
-
-    # Already patched?
-    if "[PATCHED] save_kv_layer timeout" in src:
-        print("[SETUP] save_kv_layer timeout patch already applied")
-        sys.exit(0)
-
-    old = """        while True:
-            if (
-                self._ready_requests.empty()
-                and remote_engine_id not in self.write_ready_flags
-            ):
-                continue"""
-
-    if old not in src:
-        print("[SETUP] WARN: save_kv_layer busy-spin pattern not found, skipping patch")
-        sys.exit(0)
-
-    new = """        # [PATCHED] save_kv_layer — null guard + timeout + sleep
-        if remote_engine_id is None:
-            return
-        import time as _time, os as _os
-        _wait_start = _time.monotonic()
-        _SAVE_KV_TIMEOUT = float(_os.environ.get("VLLM_MORIIO_HANDSHAKE_TIMEOUT", "30"))
-        while True:
-            if (
-                self._ready_requests.empty()
-                and remote_engine_id not in self.write_ready_flags
-            ):
-                _elapsed = _time.monotonic() - _wait_start
-                if _elapsed > _SAVE_KV_TIMEOUT:
-                    import logging as _logging
-                    _logging.getLogger("vllm.moriio").warning(
-                        "[HANGFIX] save_kv_layer: timeout (%.1fs) waiting for "
-                        "write_ready_flags[%s], breaking to unblock model "
-                        "worker", _elapsed, remote_engine_id)
-                    break
-                _time.sleep(0.001)
-                continue"""
-
-    new_src = src.replace(old, new)
-    if new_src == src:
-        print("[SETUP] WARN: replacement had no effect")
-        sys.exit(0)
-
-    open(f, "w").write(new_src)
-    print("[SETUP] Patched save_kv_layer: null guard + timeout + sleep")
-except Exception as e:
-    print(f"[SETUP] WARN patch save_kv_layer: {e}", file=sys.stderr)
-'
-    _SETUP_INSTALLED+=("MoRIIO-save-kv-timeout-patch")
-}
-
-# ---------------------------------------------------------------------------
-# 9. Patch MoRIIO waiting_for_transfer_complete with bounded timeout
-#    The original status.Wait() blocks forever if an RDMA completion never
-#    arrives (e.g., NIC queue saturation at C256). This replaces the unbounded
-#    wait with a polling loop using status.Succeeded() + configurable timeout.
-#    Also adds error handling to the write worker loop so a single failed
-#    transfer doesn't kill the background thread.
-# ---------------------------------------------------------------------------
-patch_moriio_transfer_timeout() {
-    python3 -c '
-import os, sys, textwrap
-
-try:
-    import vllm.distributed.kv_transfer.kv_connector.v1.moriio.moriio_engine as me
-    f = me.__file__
-    src = open(f).read()
-
-    if "[PATCHED] transfer completion timeout" in src:
-        print("[SETUP] transfer completion timeout patch already applied")
-        sys.exit(0)
-
-    # --- Patch 1: Replace waiting_for_transfer_complete with polling + timeout ---
-    old_wait = """    def waiting_for_transfer_complete(self):
-        if not self.transfer_status:
-            return
-
-        transfers_to_wait = []
-        with self.lock:
-            transfers_to_wait = self.transfer_status[:]
-            self.transfer_status.clear()
-
-        for status in transfers_to_wait:
-            try:
-                status.Wait()
-                if not status.Succeeded():
-                    logger.error(
-                        "Transfer failed: %s, Code: %s", status.Message(), status.Code()
-                    )
-                    raise TransferError("MoRIIO transfer failed!")
-            except Exception as e:
-                logger.error("Transfer %s failed: %s", status, e)
-                raise"""
-
-    new_wait = """    def waiting_for_transfer_complete(self):
-        # [PATCHED] transfer completion timeout — bounded polling loop
-        import time as _time, os as _os
-        if not self.transfer_status:
-            return
-
-        _timeout = float(_os.environ.get("VLLM_MORIIO_TRANSFER_TIMEOUT", "120"))
-
-        transfers_to_wait = []
-        with self.lock:
-            transfers_to_wait = self.transfer_status[:]
-            self.transfer_status.clear()
-
-        _start = _time.monotonic()
-        remaining = list(transfers_to_wait)
-        _polls = 0
-        _completed = 0
-
-        while remaining:
-            _elapsed = _time.monotonic() - _start
-            if _elapsed > _timeout:
-                logger.error(
-                    "[HANGFIX] transfer_timeout elapsed=%.1fs "
-                    "pending=%d/%d completed=%d polls=%d "
-                    "action=raise_transfer_error",
-                    _elapsed, len(remaining), len(transfers_to_wait),
-                    _completed, _polls,
-                )
-                raise TransferError(
-                    f"RDMA transfer timeout after {_elapsed:.1f}s, "
-                    f"{len(remaining)}/{len(transfers_to_wait)} pending"
-                )
-
-            still_waiting = []
-            for status in remaining:
-                try:
-                    if status.Succeeded():
-                        _completed += 1
-                        continue
-                    still_waiting.append(status)
-                except Exception as e:
-                    logger.error(
-                        "[HANGFIX] transfer_poll_error error=%s", e)
-                    raise TransferError(
-                        f"Transfer failed during poll: {e}"
-                    ) from e
-
-            remaining = still_waiting
-            if remaining:
-                _time.sleep(0.005)
-                _polls += 1
-                if _polls % 2000 == 0:
-                    logger.warning(
-                        "[HANGFIX] transfer_wait pending=%d "
-                        "completed=%d elapsed=%.1fs timeout=%.0fs",
-                        len(remaining), _completed,
-                        _time.monotonic() - _start, _timeout,
-                    )"""
-
-    if old_wait not in src:
-        print("[SETUP] WARN: waiting_for_transfer_complete pattern not found")
-        sys.exit(0)
-
-    new_src = src.replace(old_wait, new_wait)
-
-    # --- Patch 2: Add error handling + cleanup to _write_worker_loop ---
-    old_loop = """            self._execute_write_task(task)"""
-
-    new_loop = """            try:
-                self._execute_write_task(task)
-            except Exception as _e:
-                logger.error(
-                    "[HANGFIX] req=%s write_task_failed error=%s "
-                    "action=cleanup_and_mark_done",
-                    task.request_id, _e,
-                )
-                try:
-                    _wr = self.worker.moriio_wrapper
-                    with _wr.lock:
-                        _wr.done_req_ids.append(task.request_id)
-                    _wr.done_remote_allocate_req_dict.pop(
-                        task.request_id, None
-                    )
-                except Exception:
-                    pass"""
-
-    if old_loop in new_src:
-        new_src = new_src.replace(old_loop, new_loop, 1)
-    else:
-        print("[SETUP] WARN: _write_worker_loop pattern not found for error handling")
-
-    # --- Patch 3: Add deferred task timeout to _process_deferred_tasks ---
-    old_deferred = """    def _process_deferred_tasks(self) -> None:
-        \"\"\"Process tasks that were previously deferred.\"\"\"
-        if not self._deferred_tasks:
-            return
-
-        still_deferred: list[WriteTask] = []
-        for task in self._deferred_tasks:
-            if self._is_remote_ready(task):
-                self._execute_write_task(task)
-            else:
-                still_deferred.append(task)
-
-        self._deferred_tasks = still_deferred"""
-
-    new_deferred = """    def _process_deferred_tasks(self) -> None:
-        \"\"\"Process tasks that were previously deferred.\"\"\"
-        # [PATCHED] deferred task timeout — prune stale tasks
-        import time as _time, os as _os
-        if not self._deferred_tasks:
-            return
-
-        _DEFER_TIMEOUT = float(
-            _os.environ.get("VLLM_MORIIO_DEFER_TIMEOUT", "60"))
-
-        still_deferred: list[WriteTask] = []
-        for task in self._deferred_tasks:
-            _age = _time.monotonic() - getattr(task, "_defer_ts", _time.monotonic())
-            if _age > _DEFER_TIMEOUT:
-                logger.error(
-                    "[HANGFIX] req=%s deferred_task_expired age=%.1fs "
-                    "action=drop_and_mark_done",
-                    task.request_id, _age,
-                )
-                try:
-                    _wr = self.worker.moriio_wrapper
-                    with _wr.lock:
-                        _wr.done_req_ids.append(task.request_id)
-                    _wr.done_remote_allocate_req_dict.pop(
-                        task.request_id, None)
-                except Exception:
-                    pass
-                continue
-            if self._is_remote_ready(task):
-                try:
-                    self._execute_write_task(task)
-                except Exception as _e:
-                    logger.error(
-                        "[HANGFIX] req=%s deferred_write_failed error=%s",
-                        task.request_id, _e,
-                    )
-                    try:
-                        _wr = self.worker.moriio_wrapper
-                        with _wr.lock:
-                            _wr.done_req_ids.append(task.request_id)
-                        _wr.done_remote_allocate_req_dict.pop(
-                            task.request_id, None)
-                    except Exception:
-                        pass
-            else:
-                still_deferred.append(task)
-
-        self._deferred_tasks = still_deferred"""
-
-    if old_deferred in new_src:
-        new_src = new_src.replace(old_deferred, new_deferred, 1)
-    else:
-        print("[SETUP] WARN: _process_deferred_tasks pattern not found")
-
-    # --- Patch 4: Stamp defer time when task is deferred ---
-    old_defer_add = """                self._deferred_tasks.append(task)"""
-    new_defer_add = """                import time as _time2
-                if not hasattr(task, "_defer_ts"):
-                    task._defer_ts = _time2.monotonic()
-                self._deferred_tasks.append(task)"""
-    if old_defer_add in new_src:
-        new_src = new_src.replace(old_defer_add, new_defer_add, 1)
-    else:
-        print("[SETUP] WARN: deferred task timestamp patch target not found")
-
-    open(f, "w").write(new_src)
-    print("[SETUP] Patched: transfer timeout + writer error handling")
-
-except Exception as e:
-    print(f"[SETUP] WARN patch transfer_timeout: {e}", file=sys.stderr)
-'
-    _SETUP_INSTALLED+=("MoRIIO-transfer-timeout-patch")
-}
-
-# ---------------------------------------------------------------------------
-# 10. Patch MoRIIO start_load_kv busy-spin (same pattern as save_kv_layer)
-#     The READ-mode spin loop in start_load_kv has the same unbounded-spin
-#     issue as save_kv_layer. Add timeout + sleep + null guard.
-# ---------------------------------------------------------------------------
-patch_moriio_load_kv_timeout() {
-    python3 -c '
-import os, sys
-
-try:
-    import vllm.distributed.kv_transfer.kv_connector.v1.moriio.moriio_connector as mc
-    f = mc.__file__
-    src = open(f).read()
-
-    if "[PATCHED] start_load_kv timeout" in src:
-        print("[SETUP] start_load_kv timeout patch already applied")
-        sys.exit(0)
-
-    old = """        while True:
-            if (
-                self._ready_requests.empty()
-                and remote_engine_id not in self.load_ready_flag
-                and wait_handshake_readd_req
-            ):
-                continue"""
-
-    if old not in src:
-        print("[SETUP] WARN: start_load_kv busy-spin pattern not found, skipping")
-        sys.exit(0)
-
-    new = """        # [PATCHED] start_load_kv timeout — prevent model worker deadlock
-        if remote_engine_id is None and not wait_handshake_readd_req:
-            self._reqs_to_send.update(metadata.reqs_to_send)
-            return
-        import time as _time, os as _os
-        _wait_start = _time.monotonic()
-        _LOAD_KV_TIMEOUT = float(_os.environ.get("VLLM_MORIIO_HANDSHAKE_TIMEOUT", "30"))
-        while True:
-            if (
-                self._ready_requests.empty()
-                and remote_engine_id not in self.load_ready_flag
-                and wait_handshake_readd_req
-            ):
-                if _time.monotonic() - _wait_start > _LOAD_KV_TIMEOUT:
-                    import logging as _logging
-                    _logging.getLogger("vllm.moriio").warning(
-                        "[HANGFIX] start_load_kv: timeout (%.1fs) waiting for "
-                        "load_ready_flag[%s]", _time.monotonic() - _wait_start,
-                        remote_engine_id)
-                    break
-                _time.sleep(0.001)
-                continue"""
-
-    new_src = src.replace(old, new)
-    if new_src == src:
-        print("[SETUP] WARN: start_load_kv replacement had no effect")
-        sys.exit(0)
-
-    open(f, "w").write(new_src)
-    print("[SETUP] Patched start_load_kv busy-spin with timeout + sleep")
-except Exception as e:
-    print(f"[SETUP] WARN patch start_load_kv: {e}", file=sys.stderr)
-'
-    _SETUP_INSTALLED+=("MoRIIO-load-kv-timeout-patch")
-}
-
-# ---------------------------------------------------------------------------
-# 11. Fix READ-mode scheduler assertion in _update_from_kv_xfer_finished
-#     vLLM asserts that a request in finished_recving must be either
-#     WAITING_FOR_REMOTE_KVS or finished.  In READ mode the request can
-#     transition to RUNNING before the aggregated recv notification arrives,
-#     crashing the engine with AssertionError.
-#     (present in v0.17.1 & v0.18.0)
-# ---------------------------------------------------------------------------
-patch_scheduler_read_mode_fix() {
-    python3 -c '
-import os, sys
-
-try:
-    import vllm.v1.core.sched.scheduler as smod
-    f = smod.__file__
-    src = open(f).read()
-
-    if "[PATCHED] read-mode recv assertion" in src:
-        print("[SETUP] scheduler read-mode assertion fix already applied")
-        sys.exit(0)
-
-    old_recv = """        for req_id in kv_connector_output.finished_recving or ():
-            logger.debug("Finished recving KV transfer for request %s", req_id)
-            assert req_id in self.requests
-            req = self.requests[req_id]
-            if req.status == RequestStatus.WAITING_FOR_REMOTE_KVS:
-                self.finished_recving_kv_req_ids.add(req_id)
-            else:
-                assert RequestStatus.is_finished(req.status)
-                self._free_blocks(self.requests[req_id])"""
-
-    new_recv = """        # [PATCHED] read-mode recv assertion — handle intermediate states
-        for req_id in kv_connector_output.finished_recving or ():
-            logger.debug("Finished recving KV transfer for request %s", req_id)
-            if req_id not in self.requests:
-                logger.debug("Request %s already removed, skipping recv", req_id)
-                continue
-            req = self.requests[req_id]
-            if req.status == RequestStatus.WAITING_FOR_REMOTE_KVS:
-                self.finished_recving_kv_req_ids.add(req_id)
-            elif RequestStatus.is_finished(req.status):
-                self._free_blocks(self.requests[req_id])
-            else:
-                logger.debug(
-                    "Request %s recv finished but status=%s (not "
-                    "WAITING_FOR_REMOTE_KVS or finished), skipping "
-                    "block free — will be freed on request completion",
-                    req_id, req.status.name)"""
-
-    if old_recv not in src:
-        print("[SETUP] WARN: scheduler finished_recving pattern not found, skipping")
-        sys.exit(0)
-
-    new_src = src.replace(old_recv, new_recv, 1)
-
-    old_send = """        for req_id in kv_connector_output.finished_sending or ():
-            logger.debug("Finished sending KV transfer for request %s", req_id)
-            assert req_id in self.requests
-            self._free_blocks(self.requests[req_id])"""
-
-    new_send = """        for req_id in kv_connector_output.finished_sending or ():
-            logger.debug("Finished sending KV transfer for request %s", req_id)
-            if req_id not in self.requests:
-                logger.debug("Request %s already removed, skipping send", req_id)
-                continue
-            self._free_blocks(self.requests[req_id])"""
-
-    if old_send in new_src:
-        new_src = new_src.replace(old_send, new_send, 1)
-    else:
-        print("[SETUP] WARN: scheduler finished_sending pattern not found")
-
-    open(f, "w").write(new_src)
-    print("[SETUP] Patched: scheduler _update_from_kv_xfer_finished read-mode fix")
-
-except Exception as e:
-    print(f"[SETUP] WARN patch scheduler read-mode: {e}", file=sys.stderr)
-'
-    _SETUP_INSTALLED+=("scheduler-read-mode-fix")
-}
-
-# ---------------------------------------------------------------------------
-# 12. Idle KV block reaper for disaggregated prefill (READ mode)
-#     The RIXL notification path can lose `finished_sending` signals under
-#     high concurrency with ibv_post_send failures. This leaves KV blocks
-#     permanently allocated on the prefill engine even after the decode has
-#     finished reading. Over multiple benchmark rounds, leaked blocks
-#     accumulate and eventually saturate the prefill KV cache.
-#
-#     Fix: instrument the scheduler's `schedule()` method to detect idle
-#     periods (0 running, 0 waiting for >5s) and force-free blocks for
-#     any remaining requests whose status is finished.
-# ---------------------------------------------------------------------------
-patch_prefill_idle_kv_reaper() {
-    python3 -c '
-import os, sys
-
-try:
-    import vllm.v1.core.sched.scheduler as smod
-    f = smod.__file__
-    src = open(f).read()
-
-    if "[PATCHED] idle-kv-reaper" in src:
-        print("[SETUP] idle KV block reaper already applied")
-        sys.exit(0)
-
-    # Find the _update_from_kv_xfer_finished method end and add reaper logic
-    # We inject into the method that processes KV transfer completions.
-    marker = "[PATCHED] read-mode recv assertion"
-    if marker not in src:
-        print("[SETUP] WARN: scheduler read-mode patch not found, skipping reaper")
-        sys.exit(0)
-
-    # Add reaper state initialization to __init__
-    old_init_marker = "self.finished_recving_kv_req_ids"
-    if old_init_marker not in src:
-        print("[SETUP] WARN: finished_recving_kv_req_ids not found in scheduler")
-        sys.exit(0)
-
-    # Find the first occurrence to insert reaper state
-    init_pos = src.find(old_init_marker)
-    # Find the line containing it
-    line_end = src.find("\n", init_pos)
-    init_line = src[init_pos:line_end]
-
-    # Add reaper state after this line
-    reaper_init = init_line + """
-        # [PATCHED] idle-kv-reaper state
-        self._idle_kv_reaper_ts = 0.0
-        self._idle_kv_reaper_active = False"""
-
-    src = src.replace(init_line, reaper_init, 1)
-
-    # Now add the reaper logic at the end of _update_from_kv_xfer_finished
-    # Find the finished_sending handler we patched
-    send_handler = """        for req_id in kv_connector_output.finished_sending or ():
-            logger.debug("Finished sending KV transfer for request %s", req_id)
-            if req_id not in self.requests:
-                logger.debug("Request %s already removed, skipping send", req_id)
-                continue
-            self._free_blocks(self.requests[req_id])"""
-
-    reaper_logic = send_handler + """
-
-        # [PATCHED] idle-kv-reaper — force-free leaked prefill KV blocks
-        import time as _time
-        _REAPER_IDLE_SECS = 5.0
-        _num_running = sum(1 for r in self.requests.values()
-                          if r.status == RequestStatus.RUNNING)
-        _should_reap = (_num_running == 0)
-
-        if _should_reap:
-            if not self._idle_kv_reaper_active:
-                self._idle_kv_reaper_active = True
-                self._idle_kv_reaper_ts = _time.monotonic()
-            elif _time.monotonic() - self._idle_kv_reaper_ts > _REAPER_IDLE_SECS:
-                _reaped = 0
-                _reap_ids = []
-                for _rid, _req in list(self.requests.items()):
-                    if RequestStatus.is_finished(_req.status):
-                        _reap_ids.append(_rid)
-                for _rid in _reap_ids:
-                    try:
-                        _req = self.requests[_rid]
-                        self._free_blocks(_req)
-                        _reaped += 1
-                    except Exception as _e:
-                        logger.debug("[KV-REAPER] free_blocks failed for %s: %s", _rid, _e)
-                if _reaped > 0:
-                    logger.warning(
-                        "[KV-REAPER] Force-freed blocks for %d finished "
-                        "requests after %.1fs idle",
-                        _reaped, _time.monotonic() - self._idle_kv_reaper_ts)
-                self._idle_kv_reaper_ts = _time.monotonic()
-        else:
-            self._idle_kv_reaper_active = False"""
-
-    if send_handler in src:
-        src = src.replace(send_handler, reaper_logic, 1)
-    else:
-        print("[SETUP] WARN: send handler not found for reaper injection")
-        sys.exit(0)
-
-    open(f, "w").write(src)
-    print("[SETUP] Patched: idle KV block reaper for prefill")
-
-except Exception as e:
-    print(f"[SETUP] WARN patch idle-kv-reaper: {e}", file=sys.stderr)
-'
-    _SETUP_INSTALLED+=("idle-kv-reaper")
-}
-
 # ---------------------------------------------------------------------------
 # SGLang: Patch aiter gluon pa_mqa_logits — fix 2D → 3D instr_shape for
 # Triton ≥ 3.5.
@@ -742,11 +192,6 @@ install_transformers_glm5() {
 if [[ "$ENGINE" == "vllm-disagg" ]]; then
     install_recipe_deps
     install_amd_quark
-    patch_moriio_save_kv_timeout
-    patch_moriio_transfer_timeout
-    patch_moriio_load_kv_timeout
-    patch_scheduler_read_mode_fix
-    patch_prefill_idle_kv_reaper
 
     # =========================================================================
     # vLLM: Export UCX/RIXL paths (persists since this file is sourced)

From d2aadeec7f2379ec6cdb15dfe8935abcb41ab83e Mon Sep 17 00:00:00 2001
From: simondanielsson <simon.danielsson99@hotmail.com>
Date: Tue, 2 Jun 2026 09:40:08 +0200
Subject: [PATCH 2/7] fix: move read mode envvar to flag

Signed-off-by: simondanielsson <simon.danielsson99@hotmail.com>
---
 benchmarks/multi_node/amd_utils/job.slurm      | 1 -
 benchmarks/multi_node/amd_utils/server_vllm.sh | 6 +++---
 benchmarks/multi_node/amd_utils/submit.sh      | 1 -
 3 files changed, 3 insertions(+), 5 deletions(-)

diff --git a/benchmarks/multi_node/amd_utils/job.slurm b/benchmarks/multi_node/amd_utils/job.slurm
index 5e8e67606..759c473ca 100755
--- a/benchmarks/multi_node/amd_utils/job.slurm
+++ b/benchmarks/multi_node/amd_utils/job.slurm
@@ -399,7 +399,6 @@ if [[ "$ENGINE" == "vllm-disagg" ]]; then
         -e UCX_LOG_LEVEL=warn
         -e HSA_ENABLE_SDMA=1
         -e PROXY_STREAM_IDLE_TIMEOUT=\${PROXY_STREAM_IDLE_TIMEOUT:-300}
-        -e VLLM_MORIIO_CONNECTOR_READ_MODE=\${VLLM_MORIIO_CONNECTOR_READ_MODE:-1}
         -e PYTHONPYCACHEPREFIX=/tmp/pycache
     )
 else
diff --git a/benchmarks/multi_node/amd_utils/server_vllm.sh b/benchmarks/multi_node/amd_utils/server_vllm.sh
index d61fe0359..f02b1cd56 100755
--- a/benchmarks/multi_node/amd_utils/server_vllm.sh
+++ b/benchmarks/multi_node/amd_utils/server_vllm.sh
@@ -256,7 +256,7 @@ if [ "$NODE_RANK" -eq 0 ]; then
         --served-model-name ${SERVED_MODEL} \
         --port $SERVER_PORT \
         --trust-remote-code \
-        --kv-transfer-config '{\"kv_connector\": \"MoRIIOConnector\", \"kv_role\": \"kv_producer\", \"kv_connector_extra_config\": {\"proxy_ip\": \"${NODE0_ADDR}\", \"proxy_ping_port\": \"${PROXY_PING_PORT}\", \"http_port\": \"${SERVER_PORT}\"}}' \
+        --kv-transfer-config '{\"kv_connector\": \"MoRIIOConnector\", \"kv_role\": \"kv_producer\", \"kv_connector_extra_config\": {\"proxy_ip\": \"${NODE0_ADDR}\", \"proxy_ping_port\": \"${PROXY_PING_PORT}\", \"http_port\": \"${SERVER_PORT}\", \"read_mode\": true}}' \
         ${PREFILL_SERVER_CONFIG}"
 
     if [[ "$DRY_RUN" -eq 1 ]]; then
@@ -422,7 +422,7 @@ elif [ "$NODE_RANK" -gt 0 ] && [ "$NODE_RANK" -lt "$xP" ]; then
         --served-model-name ${SERVED_MODEL} \
         --port $SERVER_PORT \
         --trust-remote-code \
-        --kv-transfer-config '{\"kv_connector\": \"MoRIIOConnector\", \"kv_role\": \"kv_producer\", \"kv_connector_extra_config\": {\"proxy_ip\": \"${NODE0_ADDR}\", \"proxy_ping_port\": \"${PROXY_PING_PORT}\", \"http_port\": \"${SERVER_PORT}\"}}' \
+        --kv-transfer-config '{\"kv_connector\": \"MoRIIOConnector\", \"kv_role\": \"kv_producer\", \"kv_connector_extra_config\": {\"proxy_ip\": \"${NODE0_ADDR}\", \"proxy_ping_port\": \"${PROXY_PING_PORT}\", \"http_port\": \"${SERVER_PORT}\", \"read_mode\": true}}' \
         ${PREFILL_SERVER_CONFIG}"
 
     if [[ "$DRY_RUN" -eq 1 ]]; then
@@ -478,7 +478,7 @@ else
         --served-model-name ${SERVED_MODEL} \
         --port $SERVER_PORT \
         --trust-remote-code \
-        --kv-transfer-config '{\"kv_connector\": \"MoRIIOConnector\", \"kv_role\": \"kv_consumer\", \"kv_connector_extra_config\": {\"proxy_ip\": \"${NODE0_ADDR}\", \"proxy_ping_port\": \"${PROXY_PING_PORT}\", \"http_port\": \"${SERVER_PORT}\"}}' \
+        --kv-transfer-config '{\"kv_connector\": \"MoRIIOConnector\", \"kv_role\": \"kv_consumer\", \"kv_connector_extra_config\": {\"proxy_ip\": \"${NODE0_ADDR}\", \"proxy_ping_port\": \"${PROXY_PING_PORT}\", \"http_port\": \"${SERVER_PORT}\", \"read_mode\": true}}' \
         ${DECODE_SERVER_CONFIG}"
 
     if [[ "$DRY_RUN" -eq 1 ]]; then
diff --git a/benchmarks/multi_node/amd_utils/submit.sh b/benchmarks/multi_node/amd_utils/submit.sh
index fa3d65418..fc91a78e8 100755
--- a/benchmarks/multi_node/amd_utils/submit.sh
+++ b/benchmarks/multi_node/amd_utils/submit.sh
@@ -102,7 +102,6 @@ export PROFILER_ARGS=$profiler_args
 # Engine-specific xP/yD semantics and TP exports
 if [[ "$ENGINE" == "vllm-disagg" ]]; then
     export PROXY_STREAM_IDLE_TIMEOUT=${PROXY_STREAM_IDLE_TIMEOUT:-300}
-    export VLLM_MORIIO_CONNECTOR_READ_MODE=${VLLM_MORIIO_CONNECTOR_READ_MODE:-1}
 fi
 # xP = prefill workers, yD = decode workers (may span multiple nodes)
 export xP=$PREFILL_WORKERS

From 24555d34e5a1e889e09bc17000a4ed114faa45a4 Mon Sep 17 00:00:00 2001
From: simondanielsson <simon.danielsson99@hotmail.com>
Date: Tue, 2 Jun 2026 10:14:59 +0200
Subject: [PATCH 3/7] fix: unpin vllm-router image

Signed-off-by: simondanielsson <simon.danielsson99@hotmail.com>
---
 benchmarks/multi_node/amd_utils/job.slurm | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/benchmarks/multi_node/amd_utils/job.slurm b/benchmarks/multi_node/amd_utils/job.slurm
index 759c473ca..669c63ad2 100755
--- a/benchmarks/multi_node/amd_utils/job.slurm
+++ b/benchmarks/multi_node/amd_utils/job.slurm
@@ -314,7 +314,7 @@ SANITIZED_USER=$(echo "$USER_NAME" | tr -c 'a-zA-Z0-9_.-' '_')
 export DOCKER_CONT_NAME="container_${ENGINE}_${SANITIZED_USER}_${MODEL_NAME}_${SLURM_JOB_ID}"
 
 # vLLM external router container
-VLLM_ROUTER_IMAGE="${VLLM_ROUTER_IMAGE:-vllm/vllm-router:nightly-20260511-e667ebb}"
+VLLM_ROUTER_IMAGE="${VLLM_ROUTER_IMAGE:-vllm/vllm-router:nightly}"
 ROUTER_CONT_NAME="router_vllm_${SANITIZED_USER}_${SLURM_JOB_ID}"
 export RUN_FILE_FULL="$WS_PATH/${RUN_FILE}"
 

From dfdbc7d0b6b95fe30bcb15fa55a59f775541ea1d Mon Sep 17 00:00:00 2001
From: simondanielsson <simon.danielsson99@hotmail.com>
Date: Tue, 2 Jun 2026 12:14:12 +0200
Subject: [PATCH 4/7] fix: update to mori_low_latency backend after rename in
 nightly

Signed-off-by: simondanielsson <simon.danielsson99@hotmail.com>
---
 benchmarks/multi_node/amd_utils/models_vllm.yaml | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/benchmarks/multi_node/amd_utils/models_vllm.yaml b/benchmarks/multi_node/amd_utils/models_vllm.yaml
index b051de8d9..0d063c2a0 100644
--- a/benchmarks/multi_node/amd_utils/models_vllm.yaml
+++ b/benchmarks/multi_node/amd_utils/models_vllm.yaml
@@ -26,15 +26,15 @@ amd-Llama-3.3-70B-Instruct-FP8-KV:
 
 Kimi-K2.5-MXFP4:
   prefill_flags: "--tensor-parallel-size 8 --compilation-config '{\"cudagraph_mode\":\"PIECEWISE\"}' --no-enable-prefix-caching --block-size 1 --gpu-memory-utilization 0.90 --mm-encoder-tp-mode data"
-  decode_flags: "--tensor-parallel-size 8 --enable-expert-parallel --all2all-backend mori --compilation-config '{\"cudagraph_mode\":\"PIECEWISE\"}' --no-enable-prefix-caching --block-size 1 --gpu-memory-utilization 0.90 --mm-encoder-tp-mode data"
+  decode_flags: "--tensor-parallel-size 8 --enable-expert-parallel --all2all-backend mori_low_latency --compilation-config '{\"cudagraph_mode\":\"PIECEWISE\"}' --no-enable-prefix-caching --block-size 1 --gpu-memory-utilization 0.90 --mm-encoder-tp-mode data"
   env: "VLLM_USE_V1=1 VLLM_ROCM_USE_AITER=1 VLLM_ROCM_USE_AITER_PAGED_ATTN=0 VLLM_ROCM_USE_AITER_RMSNORM=1 VLLM_USE_AITER_TRITON_SILU_MUL=0 VLLM_ENGINE_READY_TIMEOUT_S=3600"
   hf_dir: "models--amd--Kimi-K2.5-MXFP4"
 
 MiniMax-M2.5:
   # AITER fused-MoE kernel fmoe_bf16_blockscaleFp8_g1u1_vs_silu_32x384 for gfx950 writes OOB when run with MiniMax's shapes at M=8K(=num batched tokens), crashing vllm during AITER warmup.
   # Set token budget to 4k to avoid using that shape, instead of disabling AITER_MOE.
-  prefill_flags: "--max-num-batched-tokens 4K --tensor-parallel-size 8 --enable-expert-parallel --all2all-backend mori --no-enable-prefix-caching --gpu-memory-utilization 0.95 --block-size 32"
-  decode_flags: "--max-num-batched-tokens 4K --tensor-parallel-size 8 --enable-expert-parallel --all2all-backend mori --no-enable-prefix-caching --gpu-memory-utilization 0.95 --block-size 32"
+  prefill_flags: "--max-num-batched-tokens 4K --tensor-parallel-size 8 --enable-expert-parallel --all2all-backend mori_low_latency --no-enable-prefix-caching --gpu-memory-utilization 0.95 --block-size 32"
+  decode_flags: "--max-num-batched-tokens 4K --tensor-parallel-size 8 --enable-expert-parallel --all2all-backend mori_low_latency --no-enable-prefix-caching --gpu-memory-utilization 0.95 --block-size 32"
   env: "VLLM_USE_V1=1 VLLM_ROCM_USE_AITER=1 VLLM_ROCM_QUICK_REDUCE_QUANTIZATION=INT4 VLLM_ENGINE_READY_TIMEOUT_S=3600 VLLM_ROCM_SHUFFLE_KV_CACHE_LAYOUT=1"
   hf_dir: "models--MiniMaxAI--MiniMax-M2.5"
 

From 0c16e44544fa3ef9b0710879454c4b179f35bb0a Mon Sep 17 00:00:00 2001
From: simondanielsson <simon.danielsson99@hotmail.com>
Date: Thu, 4 Jun 2026 09:00:21 +0200
Subject: [PATCH 5/7] fix: pin nightlyies

Signed-off-by: simondanielsson <simon.danielsson99@hotmail.com>
---
 .github/configs/amd-master.yaml | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/.github/configs/amd-master.yaml b/.github/configs/amd-master.yaml
index 99ce5830b..d2311d1d8 100644
--- a/.github/configs/amd-master.yaml
+++ b/.github/configs/amd-master.yaml
@@ -1526,7 +1526,7 @@ dsr1-fp8-mi355x-sglang-disagg-mtp:
 kimik2.5-fp4-mi355x-vllm-disagg:
   # TODO(simondanielsson): change to pinned version once https://github.com/vllm-project/vllm/pull/40344
   # is part of official release, likely 0.22.0.
-  image: vllm/vllm-openai-rocm:nightly
+  image: vllm/vllm-openai-rocm:nightly-3f0a91bb96f8d72e0498b95c166e817deae14d62
   model: amd/Kimi-K2.5-MXFP4
   model-prefix: kimik2.5
   runner: mi355x-disagg
@@ -1582,7 +1582,7 @@ kimik2.5-fp4-mi355x-vllm-disagg:
 minimaxm2.5-fp8-mi355x-vllm-disagg:
   # TODO(simondanielsson): change to pinned version once https://github.com/vllm-project/vllm/pull/40344
   # is part of official release, likely 0.22.0.
-  image: vllm/vllm-openai-rocm:nightly
+  image: vllm/vllm-openai-rocm:nightly-3f0a91bb96f8d72e0498b95c166e817deae14d62
   model: MiniMaxAI/MiniMax-M2.5
   model-prefix: minimaxm2.5
   runner: mi355x-disagg

From 3c94a6f597871a4c0563fcf8a756ec244719b113 Mon Sep 17 00:00:00 2001
From: simondanielsson <simon.danielsson99@hotmail.com>
Date: Thu, 4 Jun 2026 09:05:50 +0200
Subject: [PATCH 6/7] fix: comments and add perf-changelog.yml

Signed-off-by: simondanielsson <simon.danielsson99@hotmail.com>
---
 .github/configs/amd-master.yaml               | 4 ----
 benchmarks/multi_node/amd_utils/setup_deps.sh | 4 ++--
 perf-changelog.yaml                           | 8 ++++++++
 3 files changed, 10 insertions(+), 6 deletions(-)

diff --git a/.github/configs/amd-master.yaml b/.github/configs/amd-master.yaml
index d2311d1d8..9fcc8f720 100644
--- a/.github/configs/amd-master.yaml
+++ b/.github/configs/amd-master.yaml
@@ -1549,7 +1549,6 @@ kimik2.5-fp4-mi355x-vllm-disagg:
           dp-attn: false
           additional-settings:
           - "PREFILL_NODES=1"
-          - "VLLM_MORIIO_CONNECTOR_READ_MODE=1"
         decode:
           num-worker: 2
           tp: 8
@@ -1570,7 +1569,6 @@ kimik2.5-fp4-mi355x-vllm-disagg:
           dp-attn: false
           additional-settings:
           - "PREFILL_NODES=1"
-          - "VLLM_MORIIO_CONNECTOR_READ_MODE=1"
         decode:
           num-worker: 2
           tp: 8
@@ -1607,7 +1605,6 @@ minimaxm2.5-fp8-mi355x-vllm-disagg:
           dp-attn: false
           additional-settings:
           - "PREFILL_NODES=1"
-          - "VLLM_MORIIO_CONNECTOR_READ_MODE=1"
         decode:
           num-worker: 2
           tp: 8
@@ -1628,7 +1625,6 @@ minimaxm2.5-fp8-mi355x-vllm-disagg:
           dp-attn: false
           additional-settings:
           - "PREFILL_NODES=1"
-          - "VLLM_MORIIO_CONNECTOR_READ_MODE=1"
         decode:
           num-worker: 2
           tp: 8
diff --git a/benchmarks/multi_node/amd_utils/setup_deps.sh b/benchmarks/multi_node/amd_utils/setup_deps.sh
index 0f6a472d1..35eaf17dc 100644
--- a/benchmarks/multi_node/amd_utils/setup_deps.sh
+++ b/benchmarks/multi_node/amd_utils/setup_deps.sh
@@ -3,8 +3,8 @@
 # setup_deps.sh — Install missing disagg dependencies at container start.
 #
 # Dispatched by $ENGINE (set by server.sh dispatcher):
-#   vllm-disagg   -> vLLM/MoRI-IO patches + UCX/RIXL path exports
-#                    (base image: vllm/vllm-openai-rocm:v0.18.0)
+#   vllm-disagg   -> recipe deps + amd-quark + UCX/RIXL path exports
+#                    (base image: vllm/vllm-openai-rocm:nightly)
 #   sglang-disagg -> SGLang aiter gluon patch + per-model installs
 #                    (base image: lmsysorg/sglang-rocm:v0.5.12-rocm720-mi35x-*)
 #
diff --git a/perf-changelog.yaml b/perf-changelog.yaml
index 935cded22..e549813f6 100644
--- a/perf-changelog.yaml
+++ b/perf-changelog.yaml
@@ -3200,3 +3200,11 @@
     - "Bump image to lmsysorg/sglang-rocm:v0.5.12.post1-rocm720-mi35x-20260523, 1P1D TP8/EP1, dp-attn false, conc [8..512]"
     - "MoRI conn.py overlay (48e459bd) via job.slurm; launcher qwen3.5_fp4_mi355x_sglang-disagg.sh"
   pr-link: https://github.com/SemiAnalysisAI/InferenceX/pull/1579
+
+- config-keys:
+    - kimik2.5-fp4-mi355x-vllm-disagg
+    - minimaxm2.5-fp8-mi355x-vllm-disagg
+  description:
+    - "Bump image to vllm/vllm-openai-rocm:nightly (MoRI-IO fixes upstreamed in vllm#40344)"
+    - "Rename a2a backend mori to mori_low_latency; set read_mode via kv_connector_extra_config instead of VLLM_MORIIO_CONNECTOR_READ_MODE env var"
+  pr-link: https://github.com/SemiAnalysisAI/InferenceX/pull/1585

From f3b4132ef714f613f4aac405d297bd25d4d48cf3 Mon Sep 17 00:00:00 2001
From: simondanielsson <simon.danielsson99@hotmail.com>
Date: Thu, 4 Jun 2026 09:09:01 +0200
Subject: [PATCH 7/7] fix: pint router  iamge as well

Signed-off-by: simondanielsson <simon.danielsson99@hotmail.com>
---
 benchmarks/multi_node/amd_utils/job.slurm | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/benchmarks/multi_node/amd_utils/job.slurm b/benchmarks/multi_node/amd_utils/job.slurm
index 669c63ad2..c62b645f2 100755
--- a/benchmarks/multi_node/amd_utils/job.slurm
+++ b/benchmarks/multi_node/amd_utils/job.slurm
@@ -314,7 +314,7 @@ SANITIZED_USER=$(echo "$USER_NAME" | tr -c 'a-zA-Z0-9_.-' '_')
 export DOCKER_CONT_NAME="container_${ENGINE}_${SANITIZED_USER}_${MODEL_NAME}_${SLURM_JOB_ID}"
 
 # vLLM external router container
-VLLM_ROUTER_IMAGE="${VLLM_ROUTER_IMAGE:-vllm/vllm-router:nightly}"
+VLLM_ROUTER_IMAGE="${VLLM_ROUTER_IMAGE:-vllm/vllm-router:nightly-20260603-e667ebb}"
 ROUTER_CONT_NAME="router_vllm_${SANITIZED_USER}_${SLURM_JOB_ID}"
 export RUN_FILE_FULL="$WS_PATH/${RUN_FILE}"