coder
diff --git a/‎data/benchmarks/v0.7.0/default/leaderboard.json‎
Lines changed: 162 additions & 0 deletions b/‎data/benchmarks/v0.7.0/default/leaderboard.json‎
Lines changed: 162 additions & 0 deletions
@@ -0,0 +1,162 @@
+{
+  "generated_at": "2025-09-04T10:11:00.427201",
+  "version": "0.7.0",
+  "strategy": "default",
+  "total_entries": 3,
+  "total_runs_analyzed": 14,
+  "entries": [
+    {
+      "rank": 1,
+      "config": {
+        "model": "qwen/qwen3-235b-a22b-thinking-2507",
+        "strategy": "default",
+        "deck": "Red Deck",
+        "stake": 1,
+        "seed": "OOOO155",
+        "challenge": null,
+        "version": "0.7.0",
+        "name": "Unknown Name",
+        "description": "Unknown Description",
+        "author": "BalatroBench",
+        "tags": []
+      },
+      "total_runs": 5,
+      "completed_runs": 5,
+      "won_runs": 0,
+      "averaged_stats": {
+        "avg_final_round": 3.4,
+        "avg_ante_reached": 1.6,
+        "avg_jokers_bought": 0,
+        "avg_jokers_sold": 0.4,
+        "avg_consumables_used": 0.6,
+        "avg_rerolls": 0.6,
+        "avg_money_spent": 12.8,
+        "avg_successful_calls": 29,
+        "avg_invalid_responses": 0,
+        "avg_failed_calls": 2,
+        "avg_avg_input_tokens": 2749.81,
+        "avg_avg_output_tokens": 2643.91,
+        "avg_avg_reasoning_tokens": 2507.57,
+        "avg_avg_total_tokens": 5393.72,
+        "avg_avg_response_time_ms": 2319.17,
+        "avg_total_input_tokens": 81573.4,
+        "avg_total_output_tokens": 78361.6,
+        "avg_total_reasoning_tokens": 74651.2,
+        "avg_total_tokens": 159935,
+        "avg_total_response_time_ms": 62944,
+        "avg_total_cost": 0.26,
+        "avg_avg_cost_per_call": 0.01,
+        "avg_total_upstream_inference_cost": 0,
+        "avg_total_upstream_prompt_cost": 0.02,
+        "avg_total_upstream_completion_cost": 0.24,
+        "avg_providers_used_count": 1,
+        "avg_reasoning_calls": 0,
+        "avg_avg_reasoning_content_length": 0.0,
+        "avg_total_reasoning_content_length": 0,
+        "avg_request_ids_count": 29
+      }
+    },
+    {
+      "rank": 2,
+      "config": {
+        "model": "openai/gpt-oss-120b",
+        "strategy": "default",
+        "deck": "Red Deck",
+        "stake": 1,
+        "seed": "OOOO155",
+        "challenge": null,
+        "version": "0.7.0",
+        "name": "Unknown Name",
+        "description": "Unknown Description",
+        "author": "BalatroBench",
+        "tags": []
+      },
+      "total_runs": 4,
+      "completed_runs": 4,
+      "won_runs": 0,
+      "averaged_stats": {
+        "avg_final_round": 3,
+        "avg_ante_reached": 2,
+        "avg_jokers_bought": 0,
+        "avg_jokers_sold": 0.25,
+        "avg_consumables_used": 0.75,
+        "avg_rerolls": 0,
+        "avg_money_spent": 10,
+        "avg_successful_calls": 24.75,
+        "avg_invalid_responses": 0.5,
+        "avg_failed_calls": 0.25,
+        "avg_avg_input_tokens": 2210.44,
+        "avg_avg_output_tokens": 610.14,
+        "avg_avg_reasoning_tokens": 484.28,
+        "avg_avg_total_tokens": 2820.58,
+        "avg_avg_response_time_ms": 2566.22,
+        "avg_total_input_tokens": 54700.5,
+        "avg_total_output_tokens": 15144,
+        "avg_total_reasoning_tokens": 12037,
+        "avg_total_tokens": 69844.5,
+        "avg_total_response_time_ms": 64102,
+        "avg_total_cost": 0.01,
+        "avg_avg_cost_per_call": 0.0,
+        "avg_total_upstream_inference_cost": 0,
+        "avg_total_upstream_prompt_cost": 0.0,
+        "avg_total_upstream_completion_cost": 0.01,
+        "avg_providers_used_count": 1,
+        "avg_reasoning_calls": 0,
+        "avg_avg_reasoning_content_length": 0.0,
+        "avg_total_reasoning_content_length": 0,
+        "avg_request_ids_count": 24.75
+      }
+    },
+    {
+      "rank": 3,
+      "config": {
+        "model": "openai/gpt-oss-20b",
+        "strategy": "default",
+        "deck": "Red Deck",
+        "stake": 1,
+        "seed": "OOOO155",
+        "challenge": null,
+        "version": "0.7.0",
+        "name": "Unknown Name",
+        "description": "Unknown Description",
+        "author": "BalatroBench",
+        "tags": []
+      },
+      "total_runs": 5,
+      "completed_runs": 4,
+      "won_runs": 0,
+      "averaged_stats": {
+        "avg_final_round": 2,
+        "avg_ante_reached": 1.2,
+        "avg_jokers_bought": 0,
+        "avg_jokers_sold": 0,
+        "avg_consumables_used": 0.4,
+        "avg_rerolls": 0,
+        "avg_money_spent": 1.2,
+        "avg_successful_calls": 12,
+        "avg_invalid_responses": 2,
+        "avg_failed_calls": 0,
+        "avg_avg_input_tokens": 2284.9,
+        "avg_avg_output_tokens": 725.17,
+        "avg_avg_reasoning_tokens": 605.28,
+        "avg_avg_total_tokens": 3010.07,
+        "avg_avg_response_time_ms": 2795.64,
+        "avg_total_input_tokens": 27975.2,
+        "avg_total_output_tokens": 9010.4,
+        "avg_total_reasoning_tokens": 7446,
+        "avg_total_tokens": 36985.6,
+        "avg_total_response_time_ms": 29405.6,
+        "avg_total_cost": 0.0,
+        "avg_avg_cost_per_call": 0.0,
+        "avg_total_upstream_inference_cost": 0,
+        "avg_total_upstream_prompt_cost": 0.0,
+        "avg_total_upstream_completion_cost": 0.0,
+        "avg_providers_used_count": 1.2,
+        "avg_reasoning_calls": 0,
+        "avg_avg_reasoning_content_length": 0.0,
+        "avg_total_reasoning_content_length": 0,
+        "avg_request_ids_count": 12
+      }
+    }
+  ]
+}