OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks
该论文提出了 OmniEarth 基准,这是一个包含 28 项细粒度任务、多源遥感数据及严格盲测协议的综合评估框架,旨在系统评估视觉语言模型在感知、推理和鲁棒性方面的地学任务能力,并揭示了现有模型在复杂地理空间场景中的显著差距。
6073 篇论文
该论文提出了 OmniEarth 基准,这是一个包含 28 项细粒度任务、多源遥感数据及严格盲测协议的综合评估框架,旨在系统评估视觉语言模型在感知、推理和鲁棒性方面的地学任务能力,并揭示了现有模型在复杂地理空间场景中的显著差距。
本文提出了 MORE-R1,一种通过监督微调构建细粒度逐步推理数据并结合强化学习(GRPO)优化策略,以显著提升大视觉语言模型在跨模态对象 - 实体关系提取任务中性能与推理透明度的新方法。
本文提出了无需训练的 PruneSID 框架,通过协同重要性分析与多样性保持的两阶段策略及动态压缩机制,在显著降低视觉语言模型计算开销的同时实现了卓越的压缩性能与跨模态泛化能力。
本文提出了 StyleVLA,一种基于 Qwen3-VL-4B 的驾驶风格感知视觉语言动作模型,通过引入物理约束混合损失和构建大规模多风格指令数据集,实现了在轨迹可行性、风格适应性及综合驾驶表现上超越现有闭源模型及最先进 VLA 模型的自动驾驶决策能力。
本文提出了一种结合自注意力编码与坐标保持融合的两阶段组件感知框架,通过自注意力自编码器、坐标保持门控融合模块及空间自适应细化修正器,在多种面部与非面部数据集上显著超越了现有生成模型,实现了高保真、语义准确且空间对齐的草图到图像生成。
本文提出了对角蒸馏(Diagonal Distillation)方法,通过采用“前期多步、后期少步”的非对称生成策略并结合隐式光流建模,有效解决了现有视频蒸馏技术在长序列生成中运动连贯性差、误差累积及延迟过高的问题,实现了在保持高质量的同时将 5 秒视频生成速度提升 277.3 倍至 31 FPS。
本文旨在报告并寻求关于“监管需求工程工件模型(AM4RRE)”的反馈,该模型旨在解决当前合规设计实践中缺乏系统性整合、跨视角协调困难及法律知识密集型等挑战,从而推动将监管要求无缝融入软件工程生命周期以实现“合规即设计”。
本文提出了 SurgFed 框架,通过语言引导的通道选择(LCS)和语言引导的超聚合(LHA)机制,有效解决了机器人辅助微创手术中因组织多样性和任务多样性导致的联邦学习适应性与聚合难题,显著提升了跨手术类型场景下的分割与深度估计性能。
该论文提出了一种结合检索增强生成(RAG)与大语言模型的嵌入式 C 软件测试自动化方案,通过利用项目特定工件减少幻觉,在工业评估中实现了 100% 的语法正确率和 85% 的运行时验证通过率,有望将测试时间缩短 66% 并达到每小时生成 270 个测试的效率。
该论文提出了一种基于多项式推理的混合代数验证技术,通过并行多模运算避免大整数计算,显著提升了算术电路字级验证的效率。
本文提出了 Context-Nav 方法,通过将长文本描述转化为引导探索的全局先验,并结合视点感知的 3D 空间推理来验证候选目标,从而在无任务特定训练的情况下实现了实例导航的先进性能。
该论文通过引入新基准 FutureVQA 和一种无需时序标签的自监督思维链微调方法,揭示了驾驶视觉语言模型在响应一致性和时序推理方面的可靠性缺陷,并证明了强视觉理解并不等同于有效的未来场景推理能力。
该论文提出了基于 LLM 的 RuleSafe 基准测试以评估长程非马尔可夫操作任务,并设计了结合 VQ-VAE 的 VQ-Memory 模块,通过离散潜变量编码历史状态,显著提升了现有视觉 - 语言 - 动作模型在复杂长程操作中的规划能力、泛化性及计算效率。
本文提出了名为 RESBev 的即插即用方法,通过构建潜在世界模型预测时空关联以重构受损特征,从而显著提升了现有鸟瞰图(BEV)感知模型在自然干扰和对抗攻击下的鲁棒性。
本文提出了 DCAU-Net,一种通过引入差分交叉注意力机制(DCA)以降低计算复杂度并增强判别结构聚焦,以及采用通道 - 空间特征融合(CSFF)策略来自适应整合语义与细节信息的新型医学图像分割框架,从而在保持高精度的同时提升了模型的鲁棒性。
该研究提出了一种由大语言模型驱动的动态多模态表达生成方法,通过构建语义敏感提示实现教学指令与语音手势的协同,显著提升了虚拟现实中教学代理的拟人感、社会临场感及学习者的参与度与学习效果。
该论文提出了一种基于组相对策略优化(GRPO)的强化学习后训练策略,通过混合奖励机制和过程级奖励,使现有统一多模态模型无需大规模交错数据即可显著提升视觉故事叙述等复杂交错生成任务的质量与连贯性。
本文针对动态人机交互场景下的具身问答挑战,提出了包含动态与静态子集的新数据集 DynHiL-EQA,并设计了无需训练的 DIVRR 框架,通过相关性引导的视图细化与选择性记忆机制,有效解决了遮挡歧义并实现了高效推理。
该论文提出了一种名为 NS-VLA 的新型神经符号视觉 - 语言 - 动作框架,通过结合符号编码器、符号求解器和在线强化学习,有效解决了现有模型在数据效率、可复用原语学习以及探索能力方面的局限,并在机器人操作任务中展现出卓越的少样本训练、抗干扰及零样本泛化性能。
本文提出了一种专为解决跨隔离区接口漏洞而设计的自动化程序修复框架,该框架通过结合专用模糊测试、弥补大语言模型隔离区感知不足的补丁生成技术以及补丁验证机制,有效提升了修复此类安全漏洞的自动化水平。