every-embodied/12-具身智能面试问题汇总/01具身智能面试题库1.md at main · datawhalechina/every-embodied · GitHub

32 lines (23 loc) · 3.88 KB

一、架构逻辑与高精度控制

感知与执行的解耦： 在你的方案中，为何选择将视觉语言模型（VLM）与扩散策略（Diffusion Policy）进行解耦，而不是采用全端到端的统一架构？如果直接利用大模型输出动作空间坐标点，在高精度微操场景下，主要的性能瓶颈通常在哪里？
实时闭环修正： 扩散模型通常以 Action Chunk（动作块）形式输出。但在面对实时动态环境或非线性形变物体时，如果动作序列尚未执行完，目标状态已发生偏移，系统如何实现高效的闭环实时修正？
多峰分布规划： 请举例说明扩散模型如何处理任务中的多峰分布（Multimodal Distribution）路径规划。当模型面对两种逻辑均合理的路径时，如何避免在决策边界产生“摇摆”或输出无效的均值动作？

二、长序列建模（Transformer vs. Mamba）

长时程记忆的可靠性： 在执行耗时较长的任务时，Transformer 的 $KV\ Cache$ 随序列长度呈二次方增长，而 Mamba 虽然通过线性压缩解决了计算开销，但本质上是有损压缩。如何确保模型在运行很长时间后，依然能精准记住先前的逻辑节点，而不会因为状态压缩产生“幻觉”？
底层结构对比： 请从信息瓶颈和计算流的角度，详细阐述 Transformer 架构与 Mamba 架构的核心区别。
计算复杂度推导： 为什么 Transformer 的注意力机制复杂度是 $O(N^2)$，而 Mamba（状态空间模型 SSM）能做到 $O(N)$ 的线性复杂度？
精度与性能权衡： 在你的定量实验中，Mamba 相比 Transformer 在执行精度上是否有损失？如果有，是如何通过算法优化的？

三、高层规划与模型训练

分层规划架构： 你提到的高层规划模型（High-level Planner）的具体结构是什么？它是如何与底层控制器进行指令传递的？
上下文理解限制： 如果高层规划模型仅获取 3-5 帧历史图片作为输入，它通过什么机制来实现对整个长程任务状态的连贯认知？
训练全流程： 请描述该高层规划模型的训练 Pipeline，包括数据增强手段、损失函数的设计以及如何解决正负样本不平衡问题。
选择性扫描机制： 在 Selective Scan 中，模型如何学习“哪些信息该遗忘、哪些信息该进入状态向量”？如果系统漏掉了一个关键的瞬时特征（如极微小的位移），系统层面有哪些容错机制？

四、鲁棒性与 Sim-to-Real

视觉遮挡处理： 当操作区域出现严重遮挡（Occlusion）导致视觉反馈丢失时，系统是具备基于历史状态的“盲操”能力，还是会直接触发安全挂起？
物理参数对齐： 仿真环境与真实物理世界的动力学参数（如物体的弹性模量、摩擦力等）往往存在巨大差异，你是如何通过技术手段减少 Sim-to-Real 的鸿沟？
分布外（OOD）场景下的认知惯性： Mamba 的状态更新是递归的。如果在长时间操作后突然遇到训练集中未见的突发异常状况，隐藏状态（Hidden State）是否会因为由于“历史记忆太重”而产生惯性，强行将当前异常拟合到过去的正常轨迹中？
实机验证评估： 该算法在真实场景中的任务成功率（Success Rate）大概是多少？目前的瓶颈在于感知精度还是控制频率？

五、数理基础与算法实现

概率几何： 一根单位长度的木棍随机折成三段，能够构成三角形的概率是多少？请给出推导逻辑。
图论与连通性： 在给定的二维网格（0/1 矩阵）中，如何高效计算相互连接的“独立连通区域”数量？
数学方程： 请写出你模型中核心算法的离散化表达或状态更新方程。

⚡