ai-engineering-from-scratch-zh/phases/05-nlp-foundations-to-advanced/05-sentiment-analysis/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
{
  "lesson": "05-sentiment-analysis",
  "title": "情感分析",
  "questions": [
    {
      "stage": "pre",
      "question": "为什么 'The food was not great' 对朴素 BoW 分类器是个困难的案例？",
      "options": [
        "它没有标点",
        "它混用了英语和法语",
        "否定翻转了含义，但词袋模型丢弃了 'not' 与 'great' 之间的关联",
        "它包含的 token 太少"
      ],
      "correct": 2,
      "explanation": "BoW 无法把 'not' 绑定到它所否定的词上，所以分类器错过了极性翻转。"
    },
    {
      "stage": "pre",
      "question": "经典情感分析由哪两个步骤组成？",
      "options": [
        "先翻译，再分类",
        "先嵌入，再聚类",
        "表示（把文本向量化）和分类（在向量上跑线性模型）",
        "先检索，再排序"
      ],
      "correct": 2,
      "explanation": "经典情感分析是特征提取后接一个线性分类器。"
    },
    {
      "stage": "check",
      "question": "尽管朴素贝叶斯有“朴素”的独立性假设，为什么它还能奏效？",
      "options": [
        "在稀疏文本特征和中等规模数据下，分类器主要关心每个词偏向哪一边，而非精确的联合概率",
        "朴素贝叶斯暗中学到了交互项",
        "对文本而言该假设其实是成立的",
        "拉普拉斯平滑修正了依赖性"
      ],
      "correct": 0,
      "explanation": "即便独立性假设错了，每个词的偏向信息也足以做好分类。"
    },
    {
      "stage": "check",
      "question": "为什么在预处理中加入 'NOT_' 前缀的 token？",
      "options": [
        "为了归一化大小写",
        "为了对词做词干提取",
        "把 'good' 与 'NOT_good' 变成可被分类器赋予相反权重的不同特征",
        "为了缩小词汇表"
      ],
      "correct": 2,
      "explanation": "否定作用域处理把被否定的形式拆成不同特征，让 BoW 分类器能够建模这种翻转。"
    },
    {
      "stage": "check",
      "question": "为什么对情感分析而言去除停用词是有风险的？",
      "options": [
        "否定词（'not'、'no'、'never'）通常被当作停用词，但它们携带情感信号",
        "停用词表太长",
        "它会增加稀疏性",
        "去除停用词会破坏分词"
      ],
      "correct": 0,
      "explanation": "默认停用词表会去掉否定词以及类似的情感携带者。"
    },
    {
      "stage": "post",
      "question": "当情感类别不平衡时，你应该报告哪个指标？",
      "options": [
        "Macro-F1（各类 F1 的均值，等权重）",
        "仅 accuracy",
        "均方误差",
        "仅 Micro-F1"
      ],
      "correct": 0,
      "explanation": "Macro-F1 迫使少数类被计入；accuracy 或 micro-F1 会把它掩盖掉。"
    },
    {
      "stage": "post",
      "question": "什么时候应该跳过经典模型、转而用 transformer 做情感分析？",
      "options": [
        "当你只有不到 100 个样本时",
        "当延迟至关重要时",
        "当你需要可解释性时",
        "讽刺识别、内容立场不断转变的长文档、基于方面的情感分析，或低资源语言"
      ],
      "correct": 3,
      "explanation": "讽刺、基于方面以及跨语言的情感分析超出了经典 BoW 模型的能力范围。"
    },
    {
      "stage": "post",
      "question": "为什么 L2 正则化对文本上的逻辑回归很重要？",
      "options": [
        "计算梯度所必需",
        "避免 ReLU 死神经元",
        "加速矩阵求逆",
        "否则稀疏高维的文本特征会让模型记住训练样本"
      ],
      "correct": 3,
      "explanation": "L2 防止在文本这种稀疏特征、高维场景下过拟合。"
    }
  ]
}