TIMID: Time-Dependent Mistake Detection in Videos of Robot Executions
本文提出了名为 TIMID 的新架构,旨在通过结合视频与任务提示,利用弱监督学习检测机器人执行高难度任务时出现的复杂时间依赖性错误,并借助多机器人仿真数据集解决了错误执行数据稀缺及零样本仿真到现实评估的难题。
3511 篇论文
本文提出了名为 TIMID 的新架构,旨在通过结合视频与任务提示,利用弱监督学习检测机器人执行高难度任务时出现的复杂时间依赖性错误,并借助多机器人仿真数据集解决了错误执行数据稀缺及零样本仿真到现实评估的难题。
本文提出了测试时自视 - 他视适应(TE²A³)任务,并设计了通过多标签原型生长和双线索一致性机制来在线调整模型以应对多动作候选及跨视角时空差异的 DCPGN 方法,在 EgoMe-anti 和 EgoExoLearn 基准上显著优于现有最先进方法。
本文通过构建统一框架,系统比较了旨在支持 GQL 标准修订的 PG-Keys 语言与图函数依赖(GFD)、图生成依赖(GGD)的表达能力,确立了包含严格分层关系的完整表达力层级,并精确定位了 PG-Keys 在现有属性图约束形式化方法中的独特优势。
该论文提出了细粒度的区域感知声源理解(RA-SSU)新任务,构建了包含音乐和生活场景的细粒度数据集(f-Music 和 f-Lifescene),并设计了具备掩码协同与混合专家提示机制的 SSUFormer 模型,实现了帧级声源分割与描述的最先进性能。
ConfCtrl 提出了一种置信度感知的视频插值框架,通过结合置信度加权投影点云潜变量与卡尔曼启发式的预测 - 更新机制,使扩散模型在大视角变化下既能遵循指定相机姿态,又能有效重建未见区域,从而生成几何一致且视觉合理的 novel view。
本文提出了 EmoSURA 评估框架,通过将情感语音描述分解为原子感知单元并结合音频验证机制,有效解决了传统指标和 LLM 在长文本情感语音字幕评估中的语义捕捉不足与推理不一致问题,并配套推出了标准化基准 SURABench 以提升评估的准确性与可靠性。
本文提出了 BrainSTR 框架,通过结合自适应相位划分、注意力机制及时空监督对比学习,实现了可解释的动态脑网络建模,能够精准识别精神疾病诊断中的关键时间相位与亚网络特征。
该论文提出了 VLM-Loc 框架,利用大视觉语言模型的空间推理能力,通过将点云转换为鸟瞰图与场景图并结合部分节点分配机制,实现了从自然语言描述到 3D 点云地图的精准定位,并发布了 CityLoc 基准数据集以验证其优越性能。
该论文针对扩散模型在色觉障碍(CVD)可访问性方面的不足,提出并验证了新型评估指标"CVDLoss",揭示了现有模型难以通过提示词可靠地改善图像色觉可访问性的现状。
该论文提出了一种基于新型混合双曲四叉树分解和加权交叉分析的随机移位分层动态规划算法,在 Gap-ETH 假设下为维双曲空间中的旅行商问题和斯坦纳树问题构建了具有最优依赖关系的-近似方案。
本文提出了 RecThinker 框架,通过引入“分析 - 规划 - 行动”范式及专用工具集,使推荐代理能够主动规划推理路径并自主获取关键信息,从而克服传统被动模式下的信息局限,显著提升推荐效果。
该论文将低维欧几里得空间中-中值和-均值问题的-近似算法运行时间从$2^{(1/\varepsilon)^{O(d^2)}}n2^{\tilde{O}(1/\varepsilon)^{d-1}}nd-1$的下界,从而确立了近乎紧致的复杂度界限。
本文提出了 MissBench 基准及框架,旨在通过标准化不平衡缺失模态协议并引入模态公平性指数(MEI)和模态学习指数(MLI)等诊断指标,揭示现有情感计算模型在真实缺失场景下隐藏的模态贡献不公与优化失衡问题。
该论文提出了一种名为“能力一致性系统”(CCS)的新框架,通过将内存一致性模型(如 MESI)映射到身份授权场景,证明了基于发布一致性(RCC)的撤销策略在高速代理执行环境中能将未授权操作数量从时间依赖的线性增长降低至与代理速度无关的常数级,从而在根本上解决了传统基于时间窗口的访问控制机制在大规模并发下的安全性失效问题。
本文提出了轻量级统一多模态模型 InternVL-U,通过解耦视觉表征与推理中心的数据合成策略,在仅使用 40 亿参数的情况下实现了理解、推理、生成与编辑能力的统一,其综合性能显著超越了参数量大 3 倍以上的同类基线模型。
该论文提出了 DISPLAY 框架,通过仅依赖手腕关节坐标和物体边界框的稀疏运动引导、物体感知注意力机制以及多任务辅助训练策略,实现了高保真且可灵活控制的人与物体交互视频生成。
本文通过在 ROS 中实现并对比五种协作定位算法(CCL、DCL、StCL、CI 和 Standard-CL)在弱数据关联与鲁棒检测条件下的蒙特卡洛仿真,揭示了各方法在精度与一致性之间的权衡,指出 CI 算法在保持竞争力的同时实现了最佳平衡,而 StCL 和 Standard-CL 虽精度最高但存在严重不一致性,DCL 则因隐式正则化机制在挑战性条件下表现出卓越的稳定性。
TREC 2025 RAG 赛道通过引入长叙事查询、基于 MS MARCO V2.1 语料库的多层评估框架以及强调归因验证,旨在推动构建透明、事实性强且具备推理能力的检索增强生成系统。
本文提出了首个面向体育场景的大规模空间智能数据集 CourtSI 及其基准测试 CourtSI-Bench,通过利用球场几何结构构建百万级问答数据,揭示了现有视觉语言模型在体育空间推理上的局限性,并验证了基于该数据微调模型可显著提升其在空间理解与评论生成方面的性能。
本文通过博弈论模型和仿真证明,现有的 802.11 分布式 MAC 协议在非合作环境下会导致节点陷入低效的纳什均衡,而若能实现信道资源分配与节点传输策略的解耦,则可使所有竞争节点获得比 DCF 更高的吞吐量。