Skip to content

Milestones

List view

  • # 🎯 里程碑目标 (Goal) 本里程碑旨在增强 Torch-RecHub 在**召回阶段 (Retrieval)** 的能力,重点引入主流向量数据库的统一接口封装,并跟进学界前沿,完成生成式推荐模型 **TIGER** 的复现。所有功能开发完成后,将配套完整的 Tutorials 文档,并通过 Datawhale 官方渠道(微信公众号等)进行社区宣发。 # 🛠️ 核心任务 (Key Tasks) **1. 向量库召回封装 (Vector Database Integration)** 目标:降低用户在召回阶段使用向量库的门槛,提供统一易用的 Python 接口。 - [ ] **接口设计**:定义统一的 `Indexer` 和 `Retriever` 抽象基类。 - [ ] **库封装 **:集成三个主流向量库(覆盖:*Faiss*, *Milvus*, *Annoy* )。 - 支持向量的 `add` (构建索引) 与 `search` (近邻检索)。 - 支持 Save/Load 索引文件。 **2. 前沿模型复现: TIGER (Generative Recommender)** 目标:复现 NeurIPS 2023 论文 [TIGER: Transformer Index for GEnerative Recommenders](https://arxiv.org/abs/2305.05065)。 - [ ] **Semantic ID 生成**:实现基于 RQ-VAE 的 Item ID 量化与生成流程(可以使用 Sentence-T5-Base 或 Sentence-T5-Large 代替 XXL 版本)。 - [ ] **生成式检索模型**:实现基于 Transformer (Seq2Seq) 的推荐模型架构。 - [ ] **基准测试**:在公开数据集(如 Amazon Beauty/Sports)上跑通流程并对齐论文效果。 **3. 文档与案例 (Documentation & Tutorials)** 目标:确保新功能“看得到、学得会、用得上”。 - [ ] **向量库 Tutorial**:编写 Jupyter Notebook,演示“从 Embedding 生成到向量库召回”的全流程。 - [ ] **TIGER Demo**:提供 TIGER 模型的最小化运行案例(包含数据处理脚本)。 - [ ] **API 文档更新**:更新 Readme 及相关函数文档字符串。 # 📢 宣发计划 (Marketing & Release) - [ ] 宣发渠道:Datawhale 微信公众号、技术社群。 - [ ] Release Note 编写。

    Overdue by 15 day(s)
    Due by March 31, 2026
    3/4 issues closed