Kiln-AI
diff --git a/‎.github/workflows/check_api_bindings.yml‎
Lines changed: 36 additions & 0 deletions b/‎.github/workflows/check_api_bindings.yml‎
Lines changed: 36 additions & 0 deletions
diff --git a/‎app/desktop/studio_server/copilot_api.py‎
Lines changed: 13 additions & 5 deletions b/‎app/desktop/studio_server/copilot_api.py‎
Lines changed: 13 additions & 5 deletions
diff --git a/‎app/desktop/studio_server/data_gen_api.py‎
Lines changed: 7 additions & 0 deletions b/‎app/desktop/studio_server/data_gen_api.py‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎app/desktop/studio_server/eval_api.py‎
Lines changed: 28 additions & 0 deletions b/‎app/desktop/studio_server/eval_api.py‎
Lines changed: 28 additions & 0 deletions
@@ -60,6 +60,42 @@ jobs:
           # Change to the correct directory and run the schema check
           cd app/web_ui/src/lib
           ./check_schema.sh
+          cd -
+
+          # Check agent policy annotations
+          ANNOTATIONS_DIR="libs/server/kiln_server/utils/agent_checks/annotations"
+          TEMP_DIR=$(mktemp -d)
+
+          echo "Checking for unannotated endpoints..."
+          uv run python -m kiln_server.utils.agent_checks.dump_annotations \
+            http://localhost:8757/openapi.json "$TEMP_DIR"
+
+          echo "Checking annotation files are up to date..."
+          DIFF_FAILED=false
+          for f in "$TEMP_DIR"/*.json; do
+            filename=$(basename "$f")
+            if [ ! -f "$ANNOTATIONS_DIR/$filename" ]; then
+              echo "Missing checked-in annotation: $filename"
+              DIFF_FAILED=true
+            elif ! diff -q "$f" "$ANNOTATIONS_DIR/$filename" > /dev/null 2>&1; then
+              echo "Annotation differs: $filename"
+              diff -u "$ANNOTATIONS_DIR/$filename" "$f" || true
+              DIFF_FAILED=true
+            fi
+          done
+
+          if [ "$DIFF_FAILED" = true ]; then
+            echo ""
+            echo -e "\033[31mAgent policy annotations are not up to date.\033[0m"
+            echo "Run the dump CLI to regenerate:"
+            echo "  uv run python -m kiln_server.utils.agent_checks.dump_annotations http://localhost:8757/openapi.json $ANNOTATIONS_DIR"
+            rm -rf "$TEMP_DIR"
+            kill $DEV_SERVER_PID || true
+            exit 1
+          fi
+
+          echo "Agent policy annotations are up to date."
+          rm -rf "$TEMP_DIR"
 
           # Stop dev server
           kill $DEV_SERVER_PID || true
 
@@ -75,6 +75,7 @@
     RefineSpecApiOutput,
     SubmitAnswersRequest,
 )
+from kiln_server.utils.agent_checks.policy import ALLOW_AGENT
 from pydantic import BaseModel, Field
 
 logger = logging.getLogger(__name__)
@@ -114,7 +115,7 @@ class CreateSpecWithCopilotRequest(BaseModel):
 
 
 def connect_copilot_api(app: FastAPI):
-    @app.post("/api/copilot/clarify_spec", tags=["Copilot"])
+    @app.post("/api/copilot/clarify_spec", tags=["Copilot"], openapi_extra=ALLOW_AGENT)
     async def clarify_spec(input: ClarifySpecApiInput) -> ClarifySpecApiOutput:
         api_key = get_copilot_api_key()
         client = get_authenticated_client(api_key)
@@ -140,7 +141,7 @@ async def clarify_spec(input: ClarifySpecApiInput) -> ClarifySpecApiOutput:
             detail="Unknown error.",
         )
 
-    @app.post("/api/copilot/refine_spec", tags=["Copilot"])
+    @app.post("/api/copilot/refine_spec", tags=["Copilot"], openapi_extra=ALLOW_AGENT)
     async def refine_spec(input: RefineSpecApiInput) -> RefineSpecApiOutput:
         api_key = get_copilot_api_key()
         client = get_authenticated_client(api_key)
@@ -166,7 +167,9 @@ async def refine_spec(input: RefineSpecApiInput) -> RefineSpecApiOutput:
             detail="Unknown error.",
         )
 
-    @app.post("/api/copilot/generate_batch", tags=["Copilot"])
+    @app.post(
+        "/api/copilot/generate_batch", tags=["Copilot"], openapi_extra=ALLOW_AGENT
+    )
     async def generate_batch(input: GenerateBatchApiInput) -> GenerateBatchApiOutput:
         api_key = get_copilot_api_key()
         client = get_authenticated_client(api_key)
@@ -192,7 +195,7 @@ async def generate_batch(input: GenerateBatchApiInput) -> GenerateBatchApiOutput
             detail="Unknown error.",
         )
 
-    @app.post("/api/copilot/question_spec", tags=["Copilot"])
+    @app.post("/api/copilot/question_spec", tags=["Copilot"], openapi_extra=ALLOW_AGENT)
     async def question_spec(
         input: SpecQuestionerApiInput,
     ) -> QuestionSet:
@@ -220,7 +223,11 @@ async def question_spec(
             detail="Unknown error.",
         )
 
-    @app.post("/api/copilot/refine_spec_with_question_answers", tags=["Copilot"])
+    @app.post(
+        "/api/copilot/refine_spec_with_question_answers",
+        tags=["Copilot"],
+        openapi_extra=ALLOW_AGENT,
+    )
     async def submit_question_answers(
         request: SubmitAnswersRequest,
     ) -> RefineSpecApiOutput:
@@ -249,6 +256,7 @@ async def submit_question_answers(
     @app.post(
         "/api/projects/{project_id}/tasks/{task_id}/spec_with_copilot",
         tags=["Copilot"],
+        openapi_extra=ALLOW_AGENT,
     )
     async def create_spec_with_copilot(
         project_id: Annotated[
 
@@ -23,6 +23,7 @@
 )
 from kiln_server.project_api import project_from_id
 from kiln_server.task_api import task_from_id
+from kiln_server.utils.agent_checks.policy import ALLOW_AGENT
 from openai.types.chat import (
     ChatCompletionSystemMessageParam,
     ChatCompletionUserMessageParam,
@@ -126,6 +127,7 @@ def connect_data_gen_api(app: FastAPI):
         "/api/projects/{project_id}/tasks/{task_id}/generate_categories",
         summary="Generate Categories",
         tags=["Synthetic Data"],
+        openapi_extra=ALLOW_AGENT,
     )
     async def generate_categories(
         project_id: Annotated[
@@ -170,6 +172,7 @@ async def generate_categories(
         "/api/projects/{project_id}/tasks/{task_id}/generate_inputs",
         summary="Generate Inputs",
         tags=["Synthetic Data"],
+        openapi_extra=ALLOW_AGENT,
     )
     async def generate_samples(
         project_id: Annotated[
@@ -213,6 +216,7 @@ async def generate_samples(
         "/api/projects/{project_id}/tasks/{task_id}/save_sample",
         summary="Save Sample",
         tags=["Synthetic Data"],
+        openapi_extra=ALLOW_AGENT,
     )
     async def save_sample(
         project_id: Annotated[
@@ -237,6 +241,7 @@ async def save_sample(
         "/api/projects/{project_id}/tasks/{task_id}/generate_sample",
         summary="Generate Sample",
         tags=["Synthetic Data"],
+        openapi_extra=ALLOW_AGENT,
     )
     async def generate_sample(
         project_id: Annotated[
@@ -307,6 +312,7 @@ async def generate_sample(
         "/api/projects/{project_id}/tasks/{task_id}/generate_qna",
         summary="Generate Q&A Pairs",
         tags=["Synthetic Data"],
+        openapi_extra=ALLOW_AGENT,
     )
     async def generate_qna_pairs(
         project_id: Annotated[
@@ -362,6 +368,7 @@ async def generate_qna_pairs(
         "/api/projects/{project_id}/tasks/{task_id}/save_qna_pair",
         summary="Save Q&A Pair",
         tags=["Synthetic Data"],
+        openapi_extra=ALLOW_AGENT,
     )
     async def save_qna_pair(
         project_id: Annotated[
 
@@ -29,6 +29,11 @@
 from kiln_ai.datamodel.task_output import normalize_rating
 from kiln_ai.utils.name_generator import generate_memorable_name
 from kiln_server.task_api import task_from_id
+from kiln_server.utils.agent_checks.policy import (
+    ALLOW_AGENT,
+    DENY_AGENT,
+    agent_policy_require_approval,
+)
 from pydantic import BaseModel, Field
 
 from .correlation_calculator import (
@@ -439,6 +444,7 @@ def connect_evals_api(app: FastAPI):
         "/api/projects/{project_id}/tasks/{task_id}/create_evaluator",
         summary="Create Evaluator",
         tags=["Evals"],
+        openapi_extra=ALLOW_AGENT,
     )
     async def create_evaluator(
         project_id: Annotated[
@@ -469,6 +475,7 @@ async def create_evaluator(
         "/api/projects/{project_id}/tasks/{task_id}/run_configs",
         summary="List Run Configs",
         tags=["Run Configs"],
+        openapi_extra=ALLOW_AGENT,
     )
     async def get_run_configs(
         project_id: Annotated[
@@ -485,6 +492,7 @@ async def get_run_configs(
         "/api/projects/{project_id}/tasks/{task_id}/evals/{eval_id}",
         summary="Get Eval",
         tags=["Evals"],
+        openapi_extra=ALLOW_AGENT,
     )
     async def get_eval(
         project_id: Annotated[
@@ -502,6 +510,7 @@ async def get_eval(
         "/api/projects/{project_id}/tasks/{task_id}/evals/{eval_id}",
         summary="Delete Eval",
         tags=["Evals"],
+        openapi_extra=DENY_AGENT,
     )
     async def delete_eval(
         project_id: Annotated[
@@ -520,6 +529,9 @@ async def delete_eval(
         "/api/projects/{project_id}/tasks/{task_id}/evals/{eval_id}",
         summary="Update Eval",
         tags=["Evals"],
+        openapi_extra=agent_policy_require_approval(
+            "Allow agent to edit eval? Ensure you backup your project before allowing agentic edits."
+        ),
     )
     async def update_eval(
         project_id: Annotated[
@@ -558,6 +570,7 @@ async def update_eval(
         "/api/projects/{project_id}/tasks/{task_id}/evals",
         summary="List Evals",
         tags=["Evals"],
+        openapi_extra=ALLOW_AGENT,
     )
     async def get_evals(
         project_id: Annotated[
@@ -576,6 +589,7 @@ async def get_evals(
         "/api/projects/{project_id}/tasks/{task_id}/evals/{eval_id}/eval_configs",
         summary="List Eval Configs",
         tags=["Evals"],
+        openapi_extra=ALLOW_AGENT,
     )
     async def get_eval_configs(
         project_id: Annotated[
@@ -594,6 +608,7 @@ async def get_eval_configs(
         "/api/projects/{project_id}/tasks/{task_id}/evals/{eval_id}/eval_config/{eval_config_id}",
         summary="Get Eval Config",
         tags=["Evals"],
+        openapi_extra=ALLOW_AGENT,
     )
     async def get_eval_config(
         project_id: Annotated[
@@ -615,6 +630,7 @@ async def get_eval_config(
         "/api/projects/{project_id}/tasks/{task_id}/run_configs",
         summary="Create Run Config",
         tags=["Run Configs"],
+        openapi_extra=ALLOW_AGENT,
     )
     async def create_task_run_config(
         project_id: Annotated[
@@ -672,6 +688,9 @@ async def create_task_run_config(
         "/api/projects/{project_id}/tasks/{task_id}/run_configs/{run_config_id}",
         summary="Update Run Config",
         tags=["Run Configs"],
+        openapi_extra=agent_policy_require_approval(
+            "Allow agent to edit run config? Ensure you backup your project before allowing agentic edits."
+        ),
     )
     async def update_run_config(
         project_id: Annotated[
@@ -712,6 +731,7 @@ async def update_run_config(
         "/api/projects/{project_id}/tasks/{task_id}/evals/{eval_id}/create_eval_config",
         summary="Create Eval Config",
         tags=["Evals"],
+        openapi_extra=ALLOW_AGENT,
     )
     async def create_eval_config(
         project_id: Annotated[
@@ -743,6 +763,7 @@ async def create_eval_config(
         "/api/projects/{project_id}/tasks/{task_id}/evals/{eval_id}/eval_config/{eval_config_id}/run_comparison",
         summary="Run Run Config Comparison",
         tags=["Evals"],
+        openapi_extra=ALLOW_AGENT,
     )
     async def run_eval_config(
         project_id: Annotated[
@@ -798,6 +819,7 @@ async def run_eval_config(
         "/api/projects/{project_id}/tasks/{task_id}/evals/{eval_id}/set_current_eval_config/{eval_config_id}",
         summary="Set Default Eval Config",
         tags=["Evals"],
+        openapi_extra=ALLOW_AGENT,
     )
     async def set_default_eval_config(
         project_id: Annotated[
@@ -843,6 +865,7 @@ async def set_default_eval_config(
         "/api/projects/{project_id}/tasks/{task_id}/evals/{eval_id}/run_calibration",
         summary="Run Calibration",
         tags=["Evals"],
+        openapi_extra=ALLOW_AGENT,
     )
     async def run_eval_config_eval(
         project_id: Annotated[
@@ -869,6 +892,7 @@ async def run_eval_config_eval(
         "/api/projects/{project_id}/tasks/{task_id}/evals/{eval_id}/eval_config/{eval_config_id}/run_config/{run_config_id}/results",
         summary="Get Eval Run Results",
         tags=["Evals"],
+        openapi_extra=ALLOW_AGENT,
     )
     async def get_eval_run_results(
         project_id: Annotated[
@@ -906,6 +930,7 @@ async def get_eval_run_results(
         "/api/projects/{project_id}/tasks/{task_id}/evals/{eval_id}/progress",
         summary="Get Eval Progress",
         tags=["Evals"],
+        openapi_extra=ALLOW_AGENT,
     )
     async def get_eval_progress(
         project_id: Annotated[
@@ -965,6 +990,7 @@ async def get_eval_progress(
         "/api/projects/{project_id}/tasks/{task_id}/evals/{eval_id}/eval_config/{eval_config_id}/score_summary",
         summary="Get Run Config Score Summary",
         tags=["Evals"],
+        openapi_extra=ALLOW_AGENT,
     )
     async def get_eval_config_score_summary(
         project_id: Annotated[
@@ -1078,6 +1104,7 @@ async def get_eval_config_score_summary(
         "/api/projects/{project_id}/tasks/{task_id}/evals/{eval_id}/eval_configs_score_summary",
         summary="Get Eval Config Comparison Summary",
         tags=["Evals"],
+        openapi_extra=ALLOW_AGENT,
     )
     async def get_eval_configs_score_summary(
         project_id: Annotated[
@@ -1224,6 +1251,7 @@ async def get_eval_configs_score_summary(
         "/api/projects/{project_id}/tasks/{task_id}/run_configs/{run_config_id}/eval_scores",
         summary="Get Run Config Eval Scores",
         tags=["Run Configs"],
+        openapi_extra=ALLOW_AGENT,
     )
     async def get_run_config_eval_scores(
         project_id: Annotated[