Skip to content

Latest commit

 

History

History
59 lines (40 loc) · 1.58 KB

File metadata and controls

59 lines (40 loc) · 1.58 KB

同义词挖掘

create date last modify

Keywords: 同义词挖掘

同义词挖掘基本流程

1. 挖掘候选 pair (同义词对)

基于用户行为

  • Session 共现 (用户在一段时间内先后输入的不同搜索词)

    • 这些词在语义或意图上可能存在关联, 可作为潜在同义词候选对;
  • 点击同源 (统计不同搜索词点击相同实体的比例)

    • Query A -> 实体 X
    • Query A -> 实体 X
    • (可选)$P(X|Q_A) ≈ P(X|Q_B)$ 时视为候选对

基于文本相似度

  1. 中文拼音相似度 (如"麦当劳" vs "麦当当");
  2. 编辑距离 (如"烧烤" vs "烧拷");
  3. 包含关系 (如"火锅" vs "重庆火锅");
  4. 向量相似度
2. 候选过滤

背景