ai-engineering-from-scratch-zh/phases/18-ethics-safety-alignment/14-ascii-art-visual-jailbreaks/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
  "lesson": "14-ascii-art-visual-jailbreaks",
  "title": "ASCII 艺术与视觉越狱",
  "questions": [
    {
      "stage": "pre",
      "question": "为什么 token 级和语义级的安全过滤器会漏掉 ArtPrompt 式攻击？",
      "options": [
        "ArtPrompt 需要对模型进行微调",
        "ArtPrompt 只对多模态模型有效",
        "ArtPrompt 总是使用 base64 编码",
        "ArtPrompt 在视觉识别层面运作：过滤器看到的是无害的标点符号，而模型把渲染出的字母读作一个词"
      ],
      "correct": 3,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "按 Jiang 等人（ACL 2024）所述，ArtPrompt 的两个步骤是什么？",
      "options": [
        "翻译成法语，再回译",
        "识别出与安全相关的词（token），然后做 ASCII 艺术替换并生成伪装后的 prompt",
        "随机搜索，再提升困惑度",
        "Tokenizer 不匹配，再截断上下文"
      ],
      "correct": 1,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "为什么困惑度过滤（PPL）防御在 ArtPrompt 上失效？",
      "options": [
        "在伪装输入上困惑度总是等于零",
        "在 ASCII 艺术上困惑度无法测量",
        "困惑度过滤器默认被禁用",
        "ASCII 艺术困惑度高，但任何合法的结构化输入也是如此；能拦住攻击的阈值同样会拦住合法内容"
      ],
      "correct": 3,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "ViTC 基准测量什么？",
      "options": [
        "模型的工具调用准确率",
        "模型训练数据的毒性",
        "模型读取非语义视觉 prompt（ASCII 艺术、wingdings、类似的编码文本）的能力",
        "模型压缩视觉数据的能力"
      ],
      "correct": 2,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "StructuralSleight 把 ArtPrompt 泛化到了什么？",
      "options": [
        "不常见的文本编码结构（UTES）：树、图、嵌套 JSON、JSON 内嵌 CSV、diff 风格代码等",
        "通过梯度搜索得到的对抗性 token 后缀",
        "长上下文样本填塞",
        "仅图像输入"
      ],
      "correct": 0,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "ViTC 结果所隐含的能力-安全权衡是什么？",
      "options": [
        "更小的模型总是更安全",
        "视觉识别与 ArtPrompt 的成功无关",
        "模型读取非语义视觉文本的能力越强，ArtPrompt 式攻击对它就越有效",
        "更大的上下文窗口会降低 ArtPrompt 的成功率"
      ],
      "correct": 2,
      "explanation": ""
    }
  ]
}