Skip to content
Back to Milestones

Vector Search Integration & TIGER Reproduction

Open
Overdue by 15 day(s)
Due by March 31, 2026
Last updated Mar 13, 2026

🎯 里程碑目标 (Goal)

本里程碑旨在增强 Torch-RecHub 在召回阶段 (Retrieval) 的能力,重点引入主流向量数据库的统一接口封装,并跟进学界前沿,完成生成式推荐模型 TIGER 的复现。所有功能开发完成后,将配套完整的 Tutorials 文档,并通过 Datawhale 官方渠道(微信公众号等)进行社区宣发。

🛠️ 核心任务 (Key Tasks)

1. 向量库召回封装 (Vector Database Integration)
目标:降低用户在召回阶段使用向量库的门槛,提供统一易用的 Python 接口。

  • 接口设计:定义统一的 IndexerRetriever 抽象基类。
  • **库封装 **:集成三个主流向量库(覆盖:Faiss, Milvus, Annoy )。
    • 支持向量的 add (构建索引) 与 search (近邻检索)。
    • 支持 Save/Load 索引文件。

2. 前沿模型复现: TIGER (Generative Recommender)
目标:复现 NeurIPS 2023 论文 TIGER: Transformer Index for GEnerative Recommenders

  • Semantic ID 生成:实现基于 RQ-VAE 的 Item ID 量化与生成流程(可以使用 Sentence-T5-Base 或 Sentence-T5-Large 代替 XXL 版本)。
  • 生成式检索模型:实现基于 Transformer (Seq2Seq) 的推荐模型架构。
  • 基准测试:在公开数据集(如 Amazon Beauty/Sports)上跑通流程并对齐论文效果。

3. 文档与案例 (Documentation & Tutorials)
目标:确保新功能“看得到、学得会、用得上”。

  • 向量库 Tutorial:编写 Jupyter Notebook,演示“从 Embedding 生成到向量库召回”的全流程。
  • TIGER Demo:提供 TIGER 模型的最小化运行案例(包含数据处理脚本)。
  • API 文档更新:更新 Readme 及相关函数文档字符串。

📢 宣发计划 (Marketing & Release)

  • 宣发渠道:Datawhale 微信公众号、技术社群。
  • Release Note 编写。
75% complete

List view