Keywords: 同义词挖掘
1. 挖掘候选 pair (同义词对)
基于用户行为
-
Session 共现 (用户在一段时间内先后输入的不同搜索词)
- 这些词在语义或意图上可能存在关联, 可作为潜在同义词候选对;
-
点击同源 (统计不同搜索词点击相同实体的比例)
- Query A -> 实体 X
- Query A -> 实体 X
-
(可选) 当
$P(X|Q_A) ≈ P(X|Q_B)$ 时视为候选对
基于文本相似度
- 中文拼音相似度 (如"麦当劳" vs "麦当当");
- 编辑距离 (如"烧烤" vs "烧拷");
- 包含关系 (如"火锅" vs "重庆火锅");
- 向量相似度