Misc fixes to prepare for vllm v0.13.0 version bump (#739)

JenniferWang · web-flow · commit 803b65dc73b8 · 2026-01-28T13:19:43.000-05:00
diff --git a/benchmarks/generator/throughput.py b/benchmarks/generator/throughput.py
@@ -61,6 +61,7 @@
 from forge.types import LauncherConfig, ProvisionerConfig
 from forge.util.config import parse
 from omegaconf import DictConfig
+from tqdm import tqdm
 from vllm import __version__ as vllm_version
 
 if vllm_version >= "0.13.0":
@@ -142,12 +143,25 @@ async def run_throughput_benchmark(
     prompts = [req.prompt for req in requests]
     request_ids = [req.request_id for req in requests]
 
-    start = time.perf_counter()
     # TODO: here we're measuring two things together: compute (vllm) and io (monarch).
     # We shall consider finer grained metrics collection to distinguish the two.
-    completions = await asyncio.gather(
-        *[generator.generate.route(prompt) for prompt in prompts]
-    )
+    start = time.perf_counter()
+    # Create tasks with their indices to preserve order
+    tasks = [
+        asyncio.create_task(generator.generate.route(prompt)) for prompt in prompts
+    ]
+    with tqdm(
+        total=len(tasks),
+        desc="Processing requests",
+        unit="req",
+        smoothing=0,  # Show instantaneous rate, not smoothed
+    ) as pbar:
+        for coro in asyncio.as_completed(tasks):
+            await coro
+            pbar.update(1)
+
+    # Gather results in original order
+    completions = [task.result() for task in tasks]
     end = time.perf_counter()
 
     elapsed_time = end - start
diff --git a/tests/unit_tests/test_generator_config.py b/tests/unit_tests/test_generator_config.py
@@ -45,7 +45,6 @@ def test_generator_default_initialization(self):
         self.assertEqual(generator.engine_args.tensor_parallel_size, 1)
         self.assertEqual(generator.engine_args.pipeline_parallel_size, 1)
         self.assertFalse(generator.engine_args.enforce_eager)
-        self.assertTrue(generator.engine_args._is_v1_supported_oracle())
 
         # Sampling defaults
         self.assertEqual(generator.sampling_params.n, 1)
@@ -90,7 +89,6 @@ def test_generator_with_dict_configs(self):
         self.assertEqual(generator.engine_args.gpu_memory_utilization, 0.1)
         self.assertEqual(generator.engine_args.max_model_len, 1024)
         self.assertTrue(generator.engine_args.enforce_eager)
-        self.assertTrue(generator.engine_args._is_v1_supported_oracle())
 
         self.assertEqual(generator.sampling_params.n, 2)
         self.assertEqual(generator.sampling_params.max_tokens, 32)
@@ -127,7 +125,6 @@ def test_generator_yaml_config_loading(self):
             self.assertEqual(generator.engine_args.tensor_parallel_size, 1)
             self.assertEqual(generator.engine_args.pipeline_parallel_size, 1)
             self.assertTrue(generator.engine_args.enforce_eager)
-            self.assertTrue(generator.engine_args._is_v1_supported_oracle())
 
             self.assertEqual(generator.sampling_params.n, 2)
             self.assertEqual(generator.sampling_params.max_tokens, 32)