-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
67 lines (67 loc) · 3.17 KB
/
Copy pathquiz.json
File metadata and controls
67 lines (67 loc) · 3.17 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
[
{
"id": "feateng-pre-1",
"stage": "pre",
"question": "为什么特征工程往往比选择一个更花哨的算法更有影响力?",
"options": [
"特征工程让代码运行更快",
"好的特征向模型暴露出原始数据所隐藏的模式,使即便是简单模型也能奏效",
"特征工程消除了对测试集的需要",
"花哨的算法无法处理原始数据"
],
"correct": 1,
"explanation": "数据的表示方式比算法更重要。像 BMI(体重/身高^2)这样精心设计的特征直接暴露出相关模式,使得即便是逻辑回归也能与复杂的集成方法相媲美。"
},
{
"id": "feateng-pre-2",
"stage": "pre",
"question": "什么是独热编码(one-hot encoding)?",
"options": [
"用每个类别在数据集中的频率替换该类别",
"为每个类别创建一个二值列,每行恰好有一列被置为 1",
"把所有特征转换为 0 到 1 之间的值",
"把目标变量编码为概率"
],
"correct": 1,
"explanation": "独热编码为每个唯一类别创建一个二值列。对于取值为红/蓝/绿的颜色特征,它会产生三列:is_red、is_blue、is_green。"
},
{
"id": "feateng-post-1",
"stage": "post",
"question": "目标编码存在什么数据泄漏风险?",
"options": [
"它使模型训练太慢",
"它用目标均值替换类别,如果不只在训练数据上计算,就可能从测试集泄漏信息",
"它创建过多特征",
"它只对二元目标有效"
],
"correct": 1,
"explanation": "目标编码用每个类别的目标均值替换该类别。如果在整个数据集(包括测试数据)上计算,测试标签就会泄漏进训练特征,从而虚高性能估计。"
},
{
"id": "feateng-post-2",
"stage": "post",
"question": "TF-IDF 用逆文档频率为词加权。这有什么效果?",
"options": [
"像 'the' 这样的常见词因为出现频繁而获得高权重",
"罕见、有区分度的词获得更高权重,而常见词获得更低权重",
"无论频率如何,所有词都获得相同权重",
"每篇文档只保留出现频率最高的词"
],
"correct": 1,
"explanation": "IDF = log(总文档数 / 包含该词的文档数)。常见词(出现在许多文档中)的 IDF 低。罕见、有区分度的词 IDF 高,使它们在表示中更具影响力。"
},
{
"id": "feateng-post-3",
"stage": "post",
"question": "你有两个相关系数为 0.98 的特征。为什么你可能会移除其中一个?",
"options": [
"高度相关的特征总会导致模型崩溃",
"它们是冗余的——两者携带几乎相同的信息,同时保留两者会增加过拟合风险而不增添信号",
"相关特征会使数据变得非平稳",
"相关系数高于 0.5 意味着这些特征在测量不同的东西"
],
"correct": 1,
"explanation": "相关系数 r=0.98 的特征几乎是冗余的。同时保留两者相当于增加了一个带噪声的副本,增加了维度、过拟合风险和多重共线性,却没有提供关于目标的新信息。"
}
]