如果您是大模型开发者,希望让赤兔支持您的模型,您可以直接提交相应的 Pull Request,项目团队将在与您确认后进行合入,可参考CONTRIBUTING。
如果您对于自行接入模型感到困难,也可以联系我们的服务支持团队 solution@chitu.ai。
如果您正在研制或使用某种架构的芯片,而赤兔暂未对其支持,您可以直接提交相应的 Pull Request,项目团队将在与您确认后进行合入,可参考CONTRIBUTING。
如果您对于自行适配新的芯片架构感到困难,也可以联系我们的服务支持团队 solution@chitu.ai。
可以使用FP8格式存储权重,使用BF16格式执行运算,相当于某种w8a16,但这里的8是float8。 但由于浮点数转换操作比整数转换稍微复杂一些,所以这里面会遇到一点技术挑战。 知乎上的这篇回答详细解释了格式转换中的一些关键优化点。
简单来说,节省一半算力的同时还能有几倍性能加速是比较特殊的情况,更多时候,赤兔方案带来的是性价比而非绝对性能的提升。 关于什么时候会出现这种比较特殊的情况,知乎上的这篇回答做了一些说明。
赤兔项目并非重复造轮子,其专注于多元化国产算力支持以及用户从超小规模到大规模的平滑扩展需求,是对大模型开源生态的有益补充。
如果您符合以下情况之一,我们建议您尝试赤兔:
- 使用国产算力,例如华为昇腾、沐曦、海光等;
- 混合使用多种算力芯片;
- 对大模型推理部署的性能指标有较高需求;
- 希望降低大模型推理部署的算力成本;
- 从事推理引擎研究工作。
从 chitu v0.2.2 版本开始,支持 CPU+GPU 异构推理。纯CPU推理支持在计划中。