OpenMar 13, 2026
Overdue by 15 day(s)
•Due by March 31, 2026
•Last updated 🎯 里程碑目标 (Goal)
本里程碑旨在增强 Torch-RecHub 在召回阶段 (Retrieval) 的能力,重点引入主流向量数据库的统一接口封装,并跟进学界前沿,完成生成式推荐模型 TIGER 的复现。所有功能开发完成后,将配套完整的 Tutorials 文档,并通过 Datawhale 官方渠道(微信公众号等)进行社区宣发。
🛠️ 核心任务 (Key Tasks)
1. 向量库召回封装 (Vector Database Integration)
目标:降低用户在召回阶段使用向量库的门槛,提供统一易用的 Python 接口。
- 接口设计:定义统一的
Indexer和Retriever抽象基类。 - **库封装 **:集成三个主流向量库(覆盖:Faiss, Milvus, Annoy )。
- 支持向量的
add(构建索引) 与search(近邻检索)。 - 支持 Save/Load 索引文件。
- 支持向量的
2. 前沿模型复现: TIGER (Generative Recommender)
目标:复现 NeurIPS 2023 论文 TIGER: Transformer Index for GEnerative Recommenders。
- Semantic ID 生成:实现基于 RQ-VAE 的 Item ID 量化与生成流程(可以使用 Sentence-T5-Base 或 Sentence-T5-Large 代替 XXL 版本)。
- 生成式检索模型:实现基于 Transformer (Seq2Seq) 的推荐模型架构。
- 基准测试:在公开数据集(如 Amazon Beauty/Sports)上跑通流程并对齐论文效果。
3. 文档与案例 (Documentation & Tutorials)
目标:确保新功能“看得到、学得会、用得上”。
- 向量库 Tutorial:编写 Jupyter Notebook,演示“从 Embedding 生成到向量库召回”的全流程。
- TIGER Demo:提供 TIGER 模型的最小化运行案例(包含数据处理脚本)。
- API 文档更新:更新 Readme 及相关函数文档字符串。
📢 宣发计划 (Marketing & Release)
- 宣发渠道:Datawhale 微信公众号、技术社群。
- Release Note 编写。
75% complete
List view
0 issues of 1 selected
- Status: Open.#110 In datawhalechina/torch-rechub;