-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
37 lines (37 loc) · 2.84 KB
/
Copy pathquiz.json
File metadata and controls
37 lines (37 loc) · 2.84 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
[
{
"question": "一个 LLM 演示和一个生产级 LLM 应用之间最大的差距是什么?",
"options": ["模型质量", "基础设施:错误处理、流式输出、成本跟踪、限流、回退、可观测性,以及高负载下的优雅降级", "prompt 质量", "API 提供商的选择"],
"correct": 1,
"explanation": "演示只是调用 API 并打印回复。生产必须处理超时、提供商宕机、并发用户、成本预算、流式投递、日志记录和优雅降级。模型反倒是简单的部分。",
"stage": "pre"
},
{
"question": "为什么流式 token 投递在生产级 LLM 应用中很重要?",
"options": ["它降低成本", "用户会觉得首个 token 快速到达就是更快,即使总生成时间相同——把感知延迟从数秒降到毫秒级", "它占用更少内存", "它提升模型准确率"],
"correct": 1,
"explanation": "没有流式输出,用户要等 3-10 秒、什么都看不到,直到完整回复出现。有了流式输出,首个 token 约 200 毫秒到达,文字持续涌出,让体验感觉很灵敏。",
"stage": "pre"
},
{
"question": "当你的 LLM API 提供商发生宕机时,应该发生什么?",
"options": ["给用户显示一个错误页面", "应用应该自动回退到备用提供商,或返回一个优雅的降级响应", "无限重试直到提供商恢复", "切换到本地模型"],
"correct": 1,
"explanation": "生产系统需要回退策略:提供商 A 失败时尝试提供商 B、对常见查询提供缓存回复,或返回一条有帮助的「暂时不可用」消息。永远不要让提供商宕机使你的应用崩溃。",
"stage": "post"
},
{
"question": "生产级 LLM 应用应该跟踪哪些可观测性指标?",
"options": ["只跟踪错误计数", "请求延迟(P50/P95/P99)、每请求成本、错误率、token 用量、缓存命中率,以及来自自动化评估的质量分数", "只跟踪模型准确率", "只跟踪每月成本"],
"correct": 1,
"explanation": "全面的可观测性覆盖:延迟分位数(用于 SLA 合规)、成本跟踪(用于预算管理)、错误率(用于可靠性)、token 用量(用于优化),以及质量指标(用于检测回归)。",
"stage": "post"
},
{
"question": "为什么你应该在 LLM 应用中实现限流(rate limiting)?",
"options": ["让应用显得很独家", "防止个别用户耗尽你的 API 预算、抵御滥用,并确保高流量期间的公平访问", "降低模型准确率", "限流只在免费层级才需要"],
"correct": 1,
"explanation": "没有限流,单个用户(或机器人)可能在几分钟内耗尽你当天的 API 预算。限流保护你的成本、防止滥用,并确保所有用户在高峰负载期间获得合理的响应时间。",
"stage": "post"
}
]