fix(generate): handle None entries in GenerationBatch logits_processors

BLuchterhand · BLuchterhand · commit b279bd19d8fb · 2026-04-29T17:36:28.000-04:00
self.logits_processors can be a mixed list of None and List[Callable] after
batches with and without processors are merged via extend(). The any() guard
at line 1337 returns True for [None, [fn]] but the inner loop assumes every
element is iterable, raising TypeError on None entries.

Reproduce: BatchGenerator with no constructor processors, insert one prompt
with no per-element processors and another with logits_processors=[[fn]],
then call next_generated().

Mirrors the existing 'samplers[e] or self.fallback_sampler' pattern at
line 1358.
diff --git a/mlx_lm/generate.py b/mlx_lm/generate.py
@@ -1343,7 +1343,7 @@ def _step(self) -> Tuple[List[int], List[mx.array]]:
             processed_logits = []
             for e in range(len(self.uids)):
                 sample_logits = logits[e : e + 1]
-                for processor in self.logits_processors[e]:
+                for processor in self.logits_processors[e] or ():
                     sample_logits = processor(token_context[e], sample_logits)
                 processed_logits.append(sample_logits)
             logits = mx.concatenate(processed_logits, axis=0)
diff --git a/tests/test_generate.py b/tests/test_generate.py
@@ -402,6 +402,23 @@ def test_batch_generate_with_logits_processors(self):
         self.assertEqual(responses[uid1].logprobs[1].item(), 0.0)
         self.assertEqual(responses[uid2].logprobs[2].item(), 0.0)
 
+    def test_batch_generate_mixed_processor_per_element(self):
+        # Regression: when one inserted prompt has logits_processors and another
+        # has none, the merged batch contains a mix of [None] and [fn] entries.
+        # _step previously crashed iterating self.logits_processors[e] when [e]
+        # was None.
+        prompt = self.tokenizer.encode("hello")
+
+        batch_gen = BatchGenerator(self.model, max_tokens=1)
+        batch_gen.insert([prompt])
+
+        logit_bias = {0: 2000.0}
+        processors = make_logits_processors(logit_bias)
+        batch_gen.insert([prompt], logits_processors=[processors])
+
+        responses = batch_gen.next_generated()
+        self.assertEqual(len(responses), 2)
+
     def test_batch_generate_processor_tokens_match_prompt_on_first_step(self):
         prompt = self.tokenizer.encode("hello")
         seen = []