refactor: reject multiturn for structured task (not supported)

leonardmq · leonardmq · commit 4d947317c1b8 · 2026-03-31T15:52:28.000+08:00
diff --git a/libs/core/kiln_ai/adapters/chat/test_chat_formatter.py b/libs/core/kiln_ai/adapters/chat/test_chat_formatter.py
@@ -1,5 +1,3 @@
-from typing import Any
-
 from kiln_ai.adapters.chat import ChatStrategy, get_chat_formatter
 from kiln_ai.adapters.chat.chat_formatter import (
     COT_FINAL_ANSWER_PROMPT,
@@ -235,24 +233,6 @@ def test_multiturn_formatter_multiple_tool_results():
     assert first.final_call
 
 
-def _make_formatter(user_input: Any) -> MultiturnFormatter:
-    return MultiturnFormatter(
-        prior_trace=[{"role": "system", "content": "sys"}], user_input=user_input
-    )  # type: ignore[arg-type]
-
-
-def test_multiturn_formatter_is_tool_result_detection():
-    """_is_tool_result correctly identifies tool result inputs."""
-    assert _make_formatter({"tool_call_id": "x", "content": "y"})._is_tool_result
-    assert _make_formatter(
-        [{"tool_call_id": "x", "content": "y"}, {"tool_call_id": "z", "content": "w"}]
-    )._is_tool_result
-    assert not _make_formatter("plain string")._is_tool_result
-    assert not _make_formatter({"content": "no id"})._is_tool_result
-    assert not _make_formatter([])._is_tool_result
-    assert not _make_formatter([{"content": "no id"}])._is_tool_result
-
-
 def test_multiturn_formatter_user_input_not_confused_with_tool_result():
     """A regular dict input (no tool_call_id) is treated as a user message."""
     prior_trace = [{"role": "system", "content": "sys"}]
diff --git a/libs/core/kiln_ai/adapters/model_adapters/base_adapter.py b/libs/core/kiln_ai/adapters/model_adapters/base_adapter.py
@@ -158,6 +158,24 @@ def model_provider(self) -> KilnModelProvider:
             )
         return self._model_provider
 
+    @staticmethod
+    def _normalize_prior_trace(
+        prior_trace: list[ChatCompletionMessageParam] | None,
+    ) -> list[ChatCompletionMessageParam] | None:
+        if not prior_trace:
+            return None
+        return prior_trace
+
+    def _reject_multiturn_with_structured_input(
+        self,
+        prior_trace: list[ChatCompletionMessageParam] | None,
+    ) -> None:
+        if prior_trace is not None and self.input_schema is not None:
+            raise ValueError(
+                "Cannot run multiturn execution with a task that has a structured input schema. "
+                "Use an unstructured task, or call without prior_trace."
+            )
+
     async def invoke(
         self,
         input: InputType,
@@ -177,19 +195,18 @@ async def _run_returning_run_output(
         prior_trace: list[ChatCompletionMessageParam] | None = None,
         parent_task_run: TaskRun | None = None,
     ) -> Tuple[TaskRun, RunOutput]:
-        # validate input, allowing arrays.
-        # Skip when prior_trace is provided: the input may be a tool result or a
-        # follow-up message that shouldn't be validated against the task input schema.
-        if self.input_schema is not None and prior_trace is None:
+        prior_trace = self._normalize_prior_trace(prior_trace)
+        self._reject_multiturn_with_structured_input(prior_trace)
+
+        # validate input, allowing arrays
+        if self.input_schema is not None:
             validate_schema_with_value_error(
                 input,
                 self.input_schema,
                 "This task requires a specific input schema. While the model produced JSON, that JSON didn't meet the schema. Search 'Troubleshooting Structured Data Issues' in our docs for more information.",
                 require_object=False,
             )
 
-        prior_trace = prior_trace if prior_trace else None
-
         # Format model input for model call (we save the original input in the task without formatting)
         formatted_input = input
         formatter_id = self.model_provider().formatter
@@ -339,18 +356,17 @@ def _prepare_stream(
         input: InputType,
         prior_trace: list[ChatCompletionMessageParam] | None,
     ) -> AdapterStream:
-        # Skip input schema validation when prior_trace is provided: the input may be
-        # a tool result or follow-up message not matching the task input schema.
-        if self.input_schema is not None and prior_trace is None:
+        prior_trace = self._normalize_prior_trace(prior_trace)
+        self._reject_multiturn_with_structured_input(prior_trace)
+
+        if self.input_schema is not None:
             validate_schema_with_value_error(
                 input,
                 self.input_schema,
                 "This task requires a specific input schema. While the model produced JSON, that JSON didn't meet the schema. Search 'Troubleshooting Structured Data Issues' in our docs for more information.",
                 require_object=False,
             )
 
-        prior_trace = prior_trace if prior_trace else None
-
         formatted_input = input
         formatter_id = self.model_provider().formatter
         if formatter_id is not None:
@@ -533,6 +549,8 @@ def build_chat_formatter(
         input: InputType,
         prior_trace: list[ChatCompletionMessageParam] | None = None,
     ) -> ChatFormatter:
+        prior_trace = self._normalize_prior_trace(prior_trace)
+        self._reject_multiturn_with_structured_input(prior_trace)
         if prior_trace is not None:
             return MultiturnFormatter(prior_trace, input)
         if self.prompt_builder is None:
diff --git a/libs/core/kiln_ai/adapters/model_adapters/test_base_adapter.py b/libs/core/kiln_ai/adapters/model_adapters/test_base_adapter.py
@@ -1,3 +1,4 @@
+import json
 from unittest.mock import AsyncMock, MagicMock, patch
 
 import pytest
@@ -28,6 +29,7 @@
 from kiln_ai.datamodel.skill import Skill
 from kiln_ai.datamodel.tool_id import KilnBuiltInToolId
 from kiln_ai.tools.base_tool import KilnToolInterface
+from kiln_ai.utils.open_ai_types import ChatCompletionMessageParam
 
 
 class MockAdapter(BaseAdapter):
@@ -446,6 +448,13 @@ def test_build_chat_formatter_with_prior_trace_returns_multiturn_formatter(adapt
     assert formatter.initial_messages() == prior_trace
 
 
+def test_build_chat_formatter_empty_prior_trace_matches_none(adapter):
+    fmt_empty = adapter.build_chat_formatter("new input", prior_trace=[])
+    fmt_none = adapter.build_chat_formatter("new input", prior_trace=None)
+    assert type(fmt_empty) is type(fmt_none)
+    assert fmt_empty.__class__.__name__ != "MultiturnFormatter"
+
+
 @pytest.mark.asyncio
 async def test_invoke_with_prior_trace_none_starts_fresh(base_project):
     task = Task(
@@ -493,6 +502,7 @@ async def test_invoke_with_prior_trace_none_starts_fresh(base_project):
         ),
     ):
         run = await adapter.invoke("input", prior_trace=None)
+    assert isinstance(run, TaskRun)
     assert run.output.output == "ok"
     adapter._run.assert_called_once()
     assert adapter._run.call_args[1].get("prior_trace") is None
@@ -549,6 +559,244 @@ async def mock_run(input, **kwargs):
     assert captured_prior_trace == trace
 
 
+_INPUT_OBJECT_SCHEMA = json.dumps(
+    {
+        "type": "object",
+        "properties": {"x": {"type": "number"}},
+        "required": ["x"],
+    }
+)
+
+_MULTITURN_STRUCTURED_ERROR = (
+    "Cannot run multiturn execution with a task that has a structured input schema"
+)
+
+
+def test_normalize_prior_trace_empty_and_none():
+    assert BaseAdapter._normalize_prior_trace(None) is None
+    assert BaseAdapter._normalize_prior_trace([]) is None
+    trace: list[ChatCompletionMessageParam] = [{"role": "user", "content": "h"}]
+    assert BaseAdapter._normalize_prior_trace(trace) == trace
+
+
+@pytest.mark.asyncio
+async def test_invoke_rejects_multiturn_with_structured_input(tmp_path):
+    project = Project(name="proj", path=tmp_path / "proj.kiln")
+    project.save_to_file()
+    task = Task(
+        name="t",
+        instruction="i",
+        parent=project,
+    )
+    task.save_to_file()
+    adapter = MockAdapter(
+        task=task,
+        run_config=KilnAgentRunConfigProperties(
+            model_name="gpt_4o",
+            model_provider_name=ModelProviderName.openai,
+            prompt_id="simple_prompt_builder",
+            structured_output_mode=StructuredOutputMode.json_schema,
+        ),
+    )
+    adapter.input_schema = _INPUT_OBJECT_SCHEMA
+    adapter._run = AsyncMock()
+    prior_trace: list[ChatCompletionMessageParam] = [
+        {"role": "user", "content": "hi"},
+    ]
+
+    with pytest.raises(ValueError, match=_MULTITURN_STRUCTURED_ERROR):
+        await adapter.invoke({"x": 1}, prior_trace=prior_trace)
+
+    adapter._run.assert_not_called()
+
+
+@pytest.mark.asyncio
+@pytest.mark.parametrize("prior_trace", [None, []])
+async def test_invoke_validates_input_schema_when_single_turn(
+    tmp_path, prior_trace: list[ChatCompletionMessageParam] | None
+):
+    project = Project(name="proj", path=tmp_path / "proj.kiln")
+    project.save_to_file()
+    task = Task(
+        name="t",
+        instruction="i",
+        parent=project,
+    )
+    task.save_to_file()
+    adapter = MockAdapter(
+        task=task,
+        run_config=KilnAgentRunConfigProperties(
+            model_name="gpt_4o",
+            model_provider_name=ModelProviderName.openai,
+            prompt_id="simple_prompt_builder",
+            structured_output_mode=StructuredOutputMode.json_schema,
+        ),
+    )
+    adapter.input_schema = _INPUT_OBJECT_SCHEMA
+    adapter._run = AsyncMock()
+
+    with pytest.raises(ValueError, match="input schema"):
+        await adapter.invoke({}, prior_trace=prior_trace)
+
+    adapter._run.assert_not_called()
+
+
+@pytest.mark.asyncio
+@pytest.mark.parametrize("prior_trace", [None, []])
+async def test_invoke_empty_prior_trace_like_none_allows_structured_input(
+    tmp_path, prior_trace: list[ChatCompletionMessageParam] | None
+):
+    project = Project(name="proj", path=tmp_path / "proj.kiln")
+    project.save_to_file()
+    task = Task(
+        name="t",
+        instruction="i",
+        parent=project,
+    )
+    task.save_to_file()
+    adapter = MockAdapter(
+        task=task,
+        run_config=KilnAgentRunConfigProperties(
+            model_name="gpt_4o",
+            model_provider_name=ModelProviderName.openai,
+            prompt_id="simple_prompt_builder",
+            structured_output_mode=StructuredOutputMode.json_schema,
+        ),
+    )
+    adapter.input_schema = _INPUT_OBJECT_SCHEMA
+    adapter._run = AsyncMock(
+        return_value=(
+            RunOutput(output="ok", intermediate_outputs=None, trace=None),
+            None,
+        )
+    )
+
+    with (
+        patch(
+            "kiln_ai.adapters.model_adapters.base_adapter.model_parser_from_id",
+            return_value=MagicMock(
+                parse_output=MagicMock(
+                    return_value=RunOutput(
+                        output="ok", intermediate_outputs=None, trace=None
+                    )
+                )
+            ),
+        ),
+        patch(
+            "kiln_ai.adapters.model_adapters.base_adapter.request_formatter_from_id",
+        ),
+        patch.object(
+            adapter,
+            "model_provider",
+            return_value=MagicMock(
+                parser="default",
+                formatter=None,
+                reasoning_capable=False,
+            ),
+        ),
+    ):
+        await adapter.invoke({"x": 1}, prior_trace=prior_trace)
+
+    adapter._run.assert_called_once()
+    assert adapter._run.call_args[1].get("prior_trace") is None
+
+
+def test_prepare_stream_rejects_multiturn_with_structured_input(tmp_path):
+    project = Project(name="proj", path=tmp_path / "proj.kiln")
+    project.save_to_file()
+    task = Task(
+        name="t",
+        instruction="i",
+        parent=project,
+    )
+    task.save_to_file()
+    adapter = MockAdapter(
+        task=task,
+        run_config=KilnAgentRunConfigProperties(
+            model_name="gpt_4o",
+            model_provider_name=ModelProviderName.openai,
+            prompt_id="simple_prompt_builder",
+            structured_output_mode=StructuredOutputMode.json_schema,
+        ),
+    )
+    adapter.input_schema = _INPUT_OBJECT_SCHEMA
+    prior_trace: list[ChatCompletionMessageParam] = [
+        {"role": "user", "content": "hi"},
+    ]
+
+    with (
+        patch.object(
+            adapter,
+            "model_provider",
+            return_value=MagicMock(formatter=None),
+        ),
+        pytest.raises(ValueError, match=_MULTITURN_STRUCTURED_ERROR),
+    ):
+        adapter._prepare_stream({"x": 1}, prior_trace=prior_trace)
+
+
+@pytest.mark.parametrize("prior_trace", [None, []])
+def test_prepare_stream_validates_input_schema_when_single_turn(
+    tmp_path, prior_trace: list[ChatCompletionMessageParam] | None
+):
+    project = Project(name="proj", path=tmp_path / "proj.kiln")
+    project.save_to_file()
+    task = Task(
+        name="t",
+        instruction="i",
+        parent=project,
+    )
+    task.save_to_file()
+    adapter = MockAdapter(
+        task=task,
+        run_config=KilnAgentRunConfigProperties(
+            model_name="gpt_4o",
+            model_provider_name=ModelProviderName.openai,
+            prompt_id="simple_prompt_builder",
+            structured_output_mode=StructuredOutputMode.json_schema,
+        ),
+    )
+    adapter.input_schema = _INPUT_OBJECT_SCHEMA
+    invalid_input: dict = {}
+
+    with (
+        patch.object(
+            adapter,
+            "model_provider",
+            return_value=MagicMock(formatter=None),
+        ),
+        pytest.raises(ValueError, match="input schema"),
+    ):
+        adapter._prepare_stream(invalid_input, prior_trace=prior_trace)
+
+
+def test_build_chat_formatter_rejects_multiturn_with_structured_input(tmp_path):
+    project = Project(name="proj", path=tmp_path / "proj.kiln")
+    project.save_to_file()
+    task = Task(
+        name="t",
+        instruction="i",
+        parent=project,
+    )
+    task.save_to_file()
+    adapter = MockAdapter(
+        task=task,
+        run_config=KilnAgentRunConfigProperties(
+            model_name="gpt_4o",
+            model_provider_name=ModelProviderName.openai,
+            prompt_id="simple_prompt_builder",
+            structured_output_mode=StructuredOutputMode.json_schema,
+        ),
+    )
+    adapter.input_schema = _INPUT_OBJECT_SCHEMA
+    prior_trace: list[ChatCompletionMessageParam] = [
+        {"role": "user", "content": "hi"},
+    ]
+
+    with pytest.raises(ValueError, match=_MULTITURN_STRUCTURED_ERROR):
+        adapter.build_chat_formatter("new input", prior_trace=prior_trace)
+
+
 @pytest.mark.parametrize(
     "initial_mode,expected_mode",
     [