ai-engineering-from-scratch-zh/phases/18-ethics-safety-alignment/27-data-provenance-training-governance/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
  "lesson": "27-data-provenance-training-governance",
  "title": "数据溯源与训练数据治理",
  "questions": [
    {
      "stage": "pre",
      "question": "为什么训练数据治理的合规窗口在采集阶段，而非训练之后？",
      "options": [
        "因为监管者不审计已部署的模型",
        "因为 cookie 同意框架禁止采集后的使用",
        "因为 GDPR 的删除权不适用于 AI",
        "一旦数据进入模型权重，就无法做精准擦除；从头再训练是唯一彻底的补救，而其代价高得令人却步"
      ],
      "correct": 3,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "加州 AB 2013 大约要求开发者在数据集摘要中公布多少个法定条目？",
      "options": [
        "3",
        "30",
        "12",
        "7"
      ],
      "correct": 2,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "相对于 Gebru 等人 2018 的 datasheet 结构，AB 2013 的哪个条目是新增的？",
      "options": [
        "数据集的来源或所有者",
        "系统是否使用、或持续使用合成数据生成",
        "清洗、处理或其他修改",
        "数据采集的时间段"
      ],
      "correct": 1,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "对于在公开可得的第一方内容上训练 LLM，2025 年趋同的数据保护机构（DPA）原则是什么？",
      "options": [
        "在任何情况下都禁止训练",
        "只能使用合成数据",
        "始终需要明确的用户同意",
        "正当利益（legitimate interest）可在提供退出选项和适当保障的前提下为在公开可得的第一方内容上训练提供正当理由；无需同意"
      ],
      "correct": 3,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "以下哪一项不是本课列出的、针对「不可逆性问题」的部分补救手段？",
      "options": [
        "遗忘（unlearning，以 MIA 衡量的近似移除）",
        "基于影响函数（influence-function）的定位与选择性更新",
        "GDPR 强制的自动权重删除",
        "通过微调来抑制源自该数据的输出"
      ],
      "correct": 2,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "Data Provenance Initiative 的《Consent in Crisis》（2024 年 7 月）有何发现？",
      "options": [
        "出版方正以加速的速度添加 robots.txt 限制；可公开训练的公共领域正在迅速收缩，从 2023 到 2024 年约 25% 的顶级训练来源新增了限制",
        "合成数据已完全取代网页数据",
        "各来源的同意率保持稳定",
        "robots.txt 限制逐年减少"
      ],
      "correct": 0,
      "explanation": ""
    }
  ]
}