- 感知与执行的解耦: 在你的方案中,为何选择将视觉语言模型(VLM)与扩散策略(Diffusion Policy)进行解耦,而不是采用全端到端的统一架构?如果直接利用大模型输出动作空间坐标点,在高精度微操场景下,主要的性能瓶颈通常在哪里?
- 实时闭环修正: 扩散模型通常以 Action Chunk(动作块)形式输出。但在面对实时动态环境或非线性形变物体时,如果动作序列尚未执行完,目标状态已发生偏移,系统如何实现高效的闭环实时修正?
- 多峰分布规划: 请举例说明扩散模型如何处理任务中的多峰分布(Multimodal Distribution)路径规划。当模型面对两种逻辑均合理的路径时,如何避免在决策边界产生“摇摆”或输出无效的均值动作?
-
长时程记忆的可靠性: 在执行耗时较长的任务时,Transformer 的
$KV\ Cache$ 随序列长度呈二次方增长,而 Mamba 虽然通过线性压缩解决了计算开销,但本质上是有损压缩。如何确保模型在运行很长时间后,依然能精准记住先前的逻辑节点,而不会因为状态压缩产生“幻觉”? - 底层结构对比: 请从信息瓶颈和计算流的角度,详细阐述 Transformer 架构与 Mamba 架构的核心区别。
-
计算复杂度推导: 为什么 Transformer 的注意力机制复杂度是
$O(N^2)$ ,而 Mamba(状态空间模型 SSM)能做到$O(N)$ 的线性复杂度? - 精度与性能权衡: 在你的定量实验中,Mamba 相比 Transformer 在执行精度上是否有损失?如果有,是如何通过算法优化的?
- 分层规划架构: 你提到的高层规划模型(High-level Planner)的具体结构是什么?它是如何与底层控制器进行指令传递的?
- 上下文理解限制: 如果高层规划模型仅获取 3-5 帧历史图片作为输入,它通过什么机制来实现对整个长程任务状态的连贯认知?
- 训练全流程: 请描述该高层规划模型的训练 Pipeline,包括数据增强手段、损失函数的设计以及如何解决正负样本不平衡问题。
- 选择性扫描机制: 在 Selective Scan 中,模型如何学习“哪些信息该遗忘、哪些信息该进入状态向量”?如果系统漏掉了一个关键的瞬时特征(如极微小的位移),系统层面有哪些容错机制?
- 视觉遮挡处理: 当操作区域出现严重遮挡(Occlusion)导致视觉反馈丢失时,系统是具备基于历史状态的“盲操”能力,还是会直接触发安全挂起?
- 物理参数对齐: 仿真环境与真实物理世界的动力学参数(如物体的弹性模量、摩擦力等)往往存在巨大差异,你是如何通过技术手段减少 Sim-to-Real 的鸿沟?
- 分布外(OOD)场景下的认知惯性: Mamba 的状态更新是递归的。如果在长时间操作后突然遇到训练集中未见的突发异常状况,隐藏状态(Hidden State)是否会因为由于“历史记忆太重”而产生惯性,强行将当前异常拟合到过去的正常轨迹中?
- 实机验证评估: 该算法在真实场景中的任务成功率(Success Rate)大概是多少?目前的瓶颈在于感知精度还是控制频率?
- 概率几何: 一根单位长度的木棍随机折成三段,能够构成三角形的概率是多少?请给出推导逻辑。
- 图论与连通性: 在给定的二维网格(0/1 矩阵)中,如何高效计算相互连接的“独立连通区域”数量?
- 数学方程: 请写出你模型中核心算法的离散化表达或状态更新方程。