update visualized.ipynb (open-compass#516)

Guojiacheng2017 · kushalarora · commit 724b5430ff0e · 2024-11-21T15:58:35.000-08:00
* Update visualize.ipynb

1. solve the problem that some benchmark score is too high and out of range;
2. solve the problem that some model lack the evaluation of MMBench_TEST_EN;

* * visualized.ipynb
diff --git a/scripts/visualize.ipynb b/scripts/visualize.ipynb
@@ -50,6 +50,24 @@
     "        for item in data_list:\n",
     "            assert new_range[0] <= item[lb] <= new_range[1]\n",
     "            item[lb] = (item[lb] - new_range[0]) / max_range * 100\n",
+    "    return data_list, range_map\n",
+    "\n",
+    "# solve the problem that some benchmark score is too high and out of range\n",
+    "def log_normalize(raw_data, labels):\n",
+    "    data_list = cp.deepcopy(raw_data)\n",
+    "    minimum, maximum, max_range, range_map = {}, {}, 0, {}\n",
+    "    for lb in labels:\n",
+    "        minimum[lb] = min([np.log(x[lb]) for x in data_list])\n",
+    "        maximum[lb] = max([np.log(x[lb]) for x in data_list])\n",
+    "        max_range = max(max_range, maximum[lb] - minimum[lb])\n",
+    "    max_range *= 1.005\n",
+    "    for lb in labels:\n",
+    "        mid = (minimum[lb] + maximum[lb]) / 2\n",
+    "        new_range = (mid - max_range / 2, mid + max_range / 2) if (mid + max_range / 2) < 100 else (100 - max_range, 100)\n",
+    "        range_map[lb] = new_range\n",
+    "        for item in data_list:\n",
+    "            assert new_range[0] <= np.log(item[lb]) <= new_range[1]\n",
+    "            item[lb] = (np.log(item[lb]) - new_range[0]) / max_range * 100\n",
     "    return data_list, range_map"
    ]
   },
@@ -64,11 +82,19 @@
     "models = list(data)\n",
     "print(models)\n",
     "\n",
+    "# model2vis = [\n",
+    "#     'GPT-4v (detail: low)', 'GeminiProVision', 'Qwen-VL-Plus', \n",
+    "#     'InternLM-XComposer2-VL', 'LLaVA-v1.5-13B', 'CogVLM-17B-Chat',\n",
+    "#     'mPLUG-Owl2', 'Qwen-VL-Chat', 'IDEFICS-80B-Instruct'\n",
+    "# ]\n",
+    "\n",
     "model2vis = [\n",
-    "    'GPT-4v (detail: low)', 'GeminiProVision', 'Qwen-VL-Plus', \n",
-    "    'InternLM-XComposer2-VL', 'LLaVA-v1.5-13B', 'CogVLM-17B-Chat',\n",
+    "    # 'GPT-4v (detail: low)', 'GeminiProVision', 'InternLM-XComposer2-VL', \n",
+    "    'GPT-4v (1106, detail-low)', 'Gemini-1.0-Pro', 'Gemini-1.5-Pro', #'Gemini-1.5-Flash', 'Qwen-VL-Plus', \n",
+    "    'InternLM-XComposer2', 'LLaVA-v1.5-13B', 'CogVLM-17B-Chat',\n",
     "    'mPLUG-Owl2', 'Qwen-VL-Chat', 'IDEFICS-80B-Instruct'\n",
     "]\n",
+    "\n",
     "colors = [\n",
     "    '#1f77b4', '#ff7f0e', '#2ca02c', '#d62728', '#9467bd', '#8c564b', \n",
     "    '#e377c2', '#7f7f7f', '#bcbd22'\n",
@@ -81,8 +107,12 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "from collections import defaultdict\n",
+    "\n",
     "split = 'MMBench_TEST_EN'\n",
-    "data_sub = {k: v[split] for k, v in data.items()}\n",
+    "# data_sub = {k: v[split] for k, v in data.items()}\n",
+    "data_sub = {k: defaultdict(int, v)[split] for k, v in data.items()}\n",
+    "# solve the problem that some model lack the evaluation of MMBench_TEST_EN\n",
     "\n",
     "labels = list(data_sub[model2vis[0]])\n",
     "labels.remove('Overall')\n",