ci: include high prevalence files

dsanders11 · dsanders11 · commit 3eee73efcd3d · 2025-11-22T17:55:11.000-08:00
diff --git a/.github/workflows/include-analysis-edges.yml b/.github/workflows/include-analysis-edges.yml
@@ -8,8 +8,8 @@ on:
 permissions: {}
 
 jobs:
-  by_added_size:
-    name: By added size
+  by_edge_added_size:
+    name: By edge added size
     runs-on: ubuntu-latest
     steps:
       - name: Checkout
@@ -27,7 +27,7 @@ jobs:
           curl https://commondatastorage.googleapis.com/chromium-browser-clang/include-analysis.js > include-analysis.js
       - name: Find Heavy Include edges
         run: |
-          python extract_include_analysis_edges.py --filter-generated-files --filter-third-party --weight-threshold 75000000 > heavy-includes.csv
+          python extract_include_analysis_edges.py --edges --filter-generated-files --filter-third-party --weight-threshold 75000000 > heavy-includes.csv
       - uses: actions/upload-artifact@ea165f8d65b6e75b540449e92b4886f43607fa02 # v4.6.2
         with:
           name: heavy-includes
@@ -105,8 +105,98 @@ jobs:
 
             await core.summary.write();
 
-  by_prevalence:
-    name: By prevalence
+  by_file_prevalence:
+    name: By file prevalence
+    runs-on: ubuntu-latest
+    steps:
+      - name: Checkout
+        uses: actions/checkout@11bd71901bbe5b1630ceea73d27597364c9af683 # v4.2.2
+        with:
+          repository: dsanders11/chromium-include-cleanup
+      - uses: actions/setup-python@a26af69be951a213d495a4c3e4e4022e16d87065 # v5.6.0
+        with:
+          python-version: '3.12'
+          cache: 'pip'
+      - name: Install Dependencies
+        run: pip install -r requirements.txt
+      - name: Download Include Analysis Output
+        run: |
+          curl https://commondatastorage.googleapis.com/chromium-browser-clang/include-analysis.js > include-analysis.js
+      - name: Find Prevalent Files
+        run: |
+          python extract_include_analysis_edges.py --filter-generated-files --filter-third-party --metric prevalence --weight-threshold 10 > prevalent-files.csv
+      - run: npm install @actions/cache
+      - uses: actions/github-script@60a0d83039c74a4aee543508d2ffcb1c3799cdea # v7.0.1
+        with:
+          script: |
+            const fs = require('node:fs');
+            const cache = require('@actions/cache');
+
+            const data = fs.readFileSync('./prevalent-files.csv', 'utf8').trim();
+
+            const files = await Promise.all(data.split('\n').map(async (line, idx) => {
+              const [filename, added_size, prevalence, expanded_size] = line.trim().split(',');
+
+              // Check if this is known from a previous run
+              const cacheKey = `prevalent-chromium-file-${filename}`;
+              const cacheHit =
+                (await cache.restoreCache(['/dev/null'], cacheKey, undefined, {
+                  lookupOnly: true,
+                })) !== undefined;
+
+              if (!cacheHit) {
+                // Create a cache entry (only the name matters) to keep track of
+                // includes we've seen from previous runs to mark them as stale
+                await cache.saveCache(['/dev/null'], cacheKey);
+              }
+
+              return [
+                filename,
+                parseInt(added_size),
+                parseFloat(prevalence),
+                parseInt(expanded_size),
+                cacheHit,
+              ];
+            }));
+
+            const addTable = (files) => {
+              core.summary.addTable([
+                [
+                  { data: 'File', header: true },
+                  { data: 'Prevalence', header: true },
+                  { data: 'Added Size', header: true },
+                  { data: 'Expanded Size', header: true },
+                ],
+                // Sort by prevalence, then convert it back to string or it won't render
+                ...files
+                  .sort((a, b) => b[2] - a[2])
+                  .map(([filename, added_size, prevalence, expandedSize]) => [
+                    filename,
+                    `${prevalence.toFixed(2)}%`,
+                    added_size.toLocaleString(),
+                    expandedSize.toLocaleString(),
+                  ]),
+              ]);
+            }
+
+            core.summary.addHeading('🔗 Prevalent Chromium Files');
+            core.summary.addRaw(`Found ${files.length} files at 10%+ prevalence`);
+
+            const newlySeen = files.filter(([, , , , cacheHit]) => !cacheHit)
+            if (newlySeen.length > 0) {
+              core.summary.addHeading('Not Seen Before', '2');
+              addTable(newlySeen);
+              core.summary.addHeading('All Files', '2');
+            } else {
+              core.summary.addBreak();
+            }
+
+            addTable(files);
+
+            await core.summary.write();
+
+  by_edge_prevalence:
+    name: By edge prevalence
     runs-on: ubuntu-latest
     steps:
       - name: Checkout
@@ -124,7 +214,7 @@ jobs:
           curl https://commondatastorage.googleapis.com/chromium-browser-clang/include-analysis.js > include-analysis.js
       - name: Find Prevalent Include edges
         run: |
-          python extract_include_analysis_edges.py --filter-generated-files --filter-third-party --metric prevalence --weight-threshold 30 > prevalent-includes.csv
+          python extract_include_analysis_edges.py --edges --filter-generated-files --filter-third-party --metric prevalence --weight-threshold 30 > prevalent-includes.csv
       - run: npm install @actions/cache
       - uses: actions/github-script@60a0d83039c74a4aee543508d2ffcb1c3799cdea # v7.0.1
         with:
@@ -198,8 +288,8 @@ jobs:
 
             await core.summary.write();
 
-  by_centrality:
-    name: By centrality
+  by_edge_centrality:
+    name: By edge centrality
     runs-on: ubuntu-latest
     steps:
       - name: Checkout
@@ -215,9 +305,9 @@ jobs:
       - name: Download Include Analysis Output
         run: |
           curl https://commondatastorage.googleapis.com/chromium-browser-clang/include-analysis.js > include-analysis.js
-      - name: Find Prevalent Include edges
+      - name: Find High Centrality Include edges
         run: |
-          python extract_include_analysis_edges.py --filter-generated-files --filter-third-party --metric centrality --weight-threshold 0.04 > high-centrality-includes.csv
+          python extract_include_analysis_edges.py --edges --filter-generated-files --filter-third-party --metric centrality --weight-threshold 0.04 > high-centrality-includes.csv
       - run: npm install @actions/cache
       - uses: actions/github-script@60a0d83039c74a4aee543508d2ffcb1c3799cdea # v7.0.1
         with:
diff --git a/extract_include_analysis_metrics.py b/extract_include_analysis_metrics.py
@@ -4,9 +4,7 @@
 import csv
 import logging
 import os
-import re
 import sys
-from datetime import datetime
 
 from include_analysis import IncludeAnalysisOutput, ParseError, load_include_analysis
 from suggest_include_changes import filter_filenames
@@ -59,8 +57,43 @@ def extract_include_analysis_edges(
             yield file, include, size, prevalence, expanded_size, centrality
 
 
+def extract_include_analysis_files(
+    include_analysis: IncludeAnalysisOutput,
+    metric: str = None,
+    weight_threshold=None,
+    filter_generated_files=False,
+    filter_mojom_headers=False,
+    filter_third_party=False,
+):
+    filenames = filter_filenames(
+        include_analysis["files"],
+        filter_generated_files=filter_generated_files,
+        filter_mojom_headers=filter_mojom_headers,
+        filter_third_party=filter_third_party,
+    )
+
+    for file in filenames:
+        size = include_analysis["asizes"][file]
+        expanded_size = include_analysis["tsizes"][file]
+        prevalence = include_analysis["prevalence"][file]
+
+        if metric == "input_size":
+            weight = size
+        elif metric == "expanded_size":
+            weight = expanded_size
+        elif metric == "prevalence":
+            weight = prevalence
+        else:
+            weight = None
+
+        if weight_threshold and weight is not None and float(weight) < weight_threshold:
+            continue
+
+        yield file, size, prevalence, expanded_size
+
+
 def main():
-    parser = argparse.ArgumentParser(description="Extract include edges from include analysis, with filtering")
+    parser = argparse.ArgumentParser(description="Extract metrics from include analysis, with filtering")
     parser.add_argument(
         "include_analysis_output",
         type=str,
@@ -71,14 +104,15 @@ def main():
         "--metric",
         choices=["centrality", "expanded_size", "input_size", "prevalence"],
         default="input_size",
-        help="Metric to use for edge weights.",
+        help="Metric to use for weights.",
     )
     parser.add_argument(
         "--weight-threshold", type=float, help="Filter out changes with a weight value below the threshold."
     )
     parser.add_argument(
         "--filter-third-party", action="store_true", help="Filter out third_party/ (excluding blink) and v8."
     )
+    parser.add_argument("--edges", action="store_true", help="Output metrics about edges.")
     parser.add_argument("--filter-generated-files", action="store_true", help="Filter out generated files.")
     parser.add_argument("--filter-mojom-headers", action="store_true", help="Filter out mojom headers.")
     group = parser.add_mutually_exclusive_group()
@@ -103,15 +137,26 @@ def main():
     csv_writer = csv.writer(sys.stdout)
 
     try:
-        for row in extract_include_analysis_edges(
-            include_analysis,
-            metric=args.metric,
-            weight_threshold=args.weight_threshold,
-            filter_generated_files=args.filter_generated_files,
-            filter_mojom_headers=args.filter_mojom_headers,
-            filter_third_party=args.filter_third_party,
-        ):
-            csv_writer.writerow(row)
+        if args.edges:
+            for row in extract_include_analysis_edges(
+                include_analysis,
+                metric=args.metric,
+                weight_threshold=args.weight_threshold,
+                filter_generated_files=args.filter_generated_files,
+                filter_mojom_headers=args.filter_mojom_headers,
+                filter_third_party=args.filter_third_party,
+            ):
+                csv_writer.writerow(row)
+        else:
+            for row in extract_include_analysis_files(
+                include_analysis,
+                metric=args.metric,
+                weight_threshold=args.weight_threshold,
+                filter_generated_files=args.filter_generated_files,
+                filter_mojom_headers=args.filter_mojom_headers,
+                filter_third_party=args.filter_third_party,
+            ):
+                csv_writer.writerow(row)
 
         sys.stdout.flush()
     except BrokenPipeError: