Taming Modality Entanglement in Continual Audio-Visual Segmentation
本文针对细粒度多模态持续学习中存在的模态纠缠问题,提出了持续音视频分割新任务,并设计了基于碰撞的多模态回放框架(CMR),通过多模态样本选择策略和基于碰撞的样本回放机制,有效缓解了多模态语义漂移与共现混淆挑战,显著提升了持续学习性能。
6336 篇论文
本文针对细粒度多模态持续学习中存在的模态纠缠问题,提出了持续音视频分割新任务,并设计了基于碰撞的多模态回放框架(CMR),通过多模态样本选择策略和基于碰撞的样本回放机制,有效缓解了多模态语义漂移与共现混淆挑战,显著提升了持续学习性能。
本文针对多模态大语言模型(MLLMs)在文本 - 视觉场景下的安全漏洞,提出了名为 PolyJailbreak 的新型黑盒越狱框架,该框架利用“多模态安全不对称”现象,通过原子策略原语库和强化学习多智能体优化,在无需访问模型内部参数的情况下实现了对 GPT-4o 等主流模型的高效攻击,显著超越了现有最先进方法。
本文提出了名为 HumanMPC 的模型预测控制框架,通过结合数据驱动的人体运动预测与一种仅约束初始控制输入的新型可达性安全公式,实现了微飞行器在复杂三维人类环境中既安全又高效的导航。
本文针对孟加拉国教育资源匮乏的现状,提出了一套结合《我的世界》教育版的分层人机交互框架,通过离线模式、本地网络及云端部署等适配方案,在低配硬件与不稳定基础设施下实现本土化、可访问的互动游戏学习。
本文提出了名为 Dream4Drive 的新型合成数据生成框架,通过结合 3D 感知引导图与 3D 资产渲染来微调驾驶世界模型,从而在无需额外训练轮次的情况下显著提升自动驾驶感知模型在长尾场景下的性能,并配套发布了大规模 3D 资产数据集 DriveObj3D。
本文提出了 MoE-GS,这是首个将混合专家(MoE)技术引入动态高斯泼溅的框架,通过新颖的体素感知像素路由自适应融合多种形变先验以提升动态新视图合成质量,并借助单遍渲染、门控剪枝及知识蒸馏等策略有效缓解了模型容量增加带来的效率挑战。
本研究通过在 Kubernetes 环境中对 Valkey、KeyDB 和 Garnet 等 Redis 替代方案进行真实负载基准测试,全面评估了它们在吞吐量、延迟、资源效率及迁移复杂度等方面的性能权衡与长期可行性,填补了当前云原生内存数据存储领域实验评估的空白。
本文提出了 HCLA 系统,这是一种面向人类的多智能体框架,旨在通过自然语言交互、结构化证据评分及可追溯的专家式推理重构,提升数字资产异常交易检测中的可解释性、问责制与决策透明度,以满足金融取证中的监管与合规需求。
本文提出了 AnyPcc 通用点云压缩框架,通过引入具备多粒度先验的通用上下文模型和实例自适应微调策略,有效解决了现有方法在跨密度场景及分布外数据上的泛化难题,在 15 个多样化数据集上实现了低复杂度下的最新压缩性能。
本文提出了一种结合主动机械臂搅拌与启发式置信度闭环控制的自动化方法,通过优化搅拌模式(四圈)和自适应调速策略,有效解决了水陷阱中害虫因遮挡导致的计数不准问题,显著降低了计数误差并缩短了任务执行时间。
本文提出了 CountFormer 框架,通过结合 DINOv2 自监督视觉基础模型与位置编码,在严格无样本设置下探索了利用视觉重复和结构特征提升类无关物体计数性能的有效性,并在 FSC-147 基准上取得了具有竞争力的结果。
本文提出了 LagMemo,一种利用语言 3D 高斯泼溅记忆构建统一 3D 语言记忆库的导航系统,通过高效查询与动态验证机制实现了多模态开放词汇及多目标视觉导航,并在其构建的 GOAT-Core 基准测试中显著超越了现有最先进方法。
SAGE 提出了一种无需微调的零样本方法,通过结合线稿与光流的结构引导及生成式合成技术,有效解决了在语义差异大或时间跨度长的多样化视频片段之间生成高质量、结构连贯过渡帧的难题。
本文提出了名为 MobiDock 的模块化自重构双臂移动机器人系统,该系统通过基于视觉的自主对接和螺纹锁紧机制将两个独立机器人物理连接为统一平台,从而将复杂的多机器人协同控制简化为单系统管理,显著提升了动态稳定性、操作精度及任务执行效率。
本文提出了向量化在线 POMDP 规划器(VOPP),这是一种利用张量表示和完全向量化计算来消除并行依赖与同步瓶颈的新型在线求解器,其计算效率比现有最先进并行求解器高出至少 20 倍,且在仅需千分之一规划预算的情况下性能优于最先进序列求解器。
该论文提出了一种名为“扩散回弹”的取证方法,通过分析图像在扩散模型重建过程中的感知相似性变化来检测 AI 生成图像,在 4000 张图像数据集上实现了 0.993 的 AUROC 高精度,并展现出对压缩和噪声等常见失真的鲁棒性。
本文提出了首个名为 PhantomFetch 的硬件无关防御方案,通过混淆敏感加载效应来阻断 IP 步长预取器侧信道攻击,在无需硬件修改且保持预取性能的同时,以极小开销实现了安全加固。
本文针对高斯泼溅(GS)重建质量评估的挑战,提出了一种模拟人类真实观看行为的多距离主观评估方法,并构建了首个考虑输入数据多重不确定性的 MUGSQA 数据集及相应基准,旨在全面评估不同 GS 方法的鲁棒性及现有质量指标的准确性。
本文提出了名为 CountOCC 的开放世界遮挡计数框架,通过分层多模态引导重建被遮挡物体的特征并引入视觉等价目标,有效解决了现有方法在遮挡场景下的失效问题,并在多个数据集上实现了显著的性能提升。
该论文提出了名为 LAMP 的语言增强多智能体策略框架,通过“思考 - 表达 - 决策”流程将非结构化语言信息融入经济决策,显著提升了多智能体强化学习在模拟经济环境中的累积收益、鲁棒性及可解释性。