Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine
该论文指出思维链(CoT)在医学视觉问答任务中常因感知瓶颈而表现不如直接回答,并提出了无需训练的感知锚定与描述接地两种干预方法,有效提升了视觉大模型的准确性并逆转了性能劣势。
3161 篇论文
该论文指出思维链(CoT)在医学视觉问答任务中常因感知瓶颈而表现不如直接回答,并提出了无需训练的感知锚定与描述接地两种干预方法,有效提升了视觉大模型的准确性并逆转了性能劣势。
本文提出了 SIL-GPO 框架,通过结合图注意力网络与自模仿学习策略的强化学习方法,有效解决了边缘 AI 微服务系统中异构服务编排的联合优化难题,显著降低了端到端延迟并提升了资源利用率。
本文提出了 CalibFusion,一种面向水面环境的 Transformer 基可微雷达 - 相机融合检测器,它通过端到端学习隐式外参微调,有效克服了传统方法在纹理缺失和杂波干扰场景下的校准局限,显著提升了融合检测的精度与鲁棒性。
本文提出了名为 ERP-RiskBench 的复合基准与防数据泄露的集成学习框架,通过结合真实采购日志、标注欺诈数据及合成数据,利用时间感知和分组感知的嵌套交叉验证,显著提升了企业资源计划(ERP)系统中财务风险检测的准确性与可解释性,并纠正了以往研究中因数据泄露导致的性能高估问题。
该研究通过配对诊断实验发现,尽管语义噪声初始化在图像扩散模型中表现优异,但在文本到视频生成任务中并未展现出统计显著的优越性,其性能与高斯噪声基线相当。
AutoFigure-Edit 是一个端到端系统,能够结合长文本理解与参考图引导的风格迁移,从长篇科学文本中直接生成可编辑且风格可控的高质量科学插图(SVG 格式)。
该论文提出了一种结合可解释人工智能(XAI)与少样本学习(FSL)的混合分类模型,通过集成孪生网络和原型网络并利用 Grad-CAM 增强可解释性,在数据受限条件下实现了对玉米、水稻和小麦叶片病害阶段的高精度识别与透明化诊断。
该论文针对现有图表智能在深度研究能力上的不足,提出了通过并行相对策略优化(PRPO)解决训练冲突的框架,并构建了基于“误差唯一性”原则的 MCDR-Bench 评测基准,从而系统性地提升了大型视觉语言模型在图表深度分析中的协同训练与客观评估能力。
该论文提出了一种名为 MultiGen 的新方法,通过引入独立于模型上下文窗口的可编辑外部记忆模块,将生成过程分解为记忆、观测和动态三个部分,从而解决了现有视频世界模型在环境可编辑性及多人协同交互一致性方面的局限性。
本文提出了名为 VB 的基准测试,旨在评估多模态大模型在图像可见性与视角推理任务中判断可见性、识别不可回答情况并给出置信度的能力,通过最小化编辑对照实验和多项严格指标发现 GPT-4o 与 Gemini 3.1 Pro 表现最佳,而开源模型 Gemma 3 12B 亦展现出超越部分旧版闭源系统的潜力。
本文提出了名为“叙事编织者(Narrative Weaver)”的新框架,通过结合多模态大语言模型进行叙事规划、引入动态记忆库实现细粒度控制,并发布了首个电商广告视频分镜数据集(EAVSD),从而解决了生成式 AI 在长序列内容创作中难以维持多模态可控性与视觉一致性的核心挑战。
该论文提出利用眼动追踪数据作为监督信号,通过引入专用的注视令牌引导医学视觉语言模型按时间顺序模拟放射科医生的视觉搜索过程,从而显著提升了模型在医学影像推理任务中的性能与泛化能力。
本文提出了一种结合语法引导合成(SyGuS)与扩展了谓词和函数更新的时序流逻辑(TSL)的新方法,通过从执行轨迹中挖掘数据转换与时序规范,实现了比被动学习基线更鲁棒且样本效率更高的反应式程序合成。
该论文提出了 ATLAS 框架,通过引入可学习的上下文控制与基于评分标准的强化微调策略,使小语言模型能够在大型工具空间中高效执行长程任务,从而在有限的参数和上下文预算下达到接近前沿智能体的性能。
本文提出了一种结合地球静止轨道卫星数据与分层规划方法的动态目标观测新策略,通过利用长达 35 分钟的超前信息制定长期观测蓝图并结合星载传感器进行短期优化,显著提升了云规避和风暴追踪等场景下的观测性能(最高提升 41%)。
本文提出了 ProtAlign 框架,通过对比学习将蛋白质序列与结构映射到统一的嵌入空间,从而实现了跨模态检索并提升了功能预测与稳定性评估等下游任务的性能。
该论文针对现有隐形水印检测依赖特定算法先验知识的局限,提出了无需解码信息的通用水印存在检测(UWPD)任务,并构建了 UniFreq-100K 数据集及提出利用自适应频谱感知与动态多频谱注意力机制的 FSNet 模型,实现了在未知嵌入算法下的优异零样本检测能力。
该论文提出了一种双向反馈融合框架,通过联合建模室内环境演变与人类活动特征,并引入双时间尺度模块及复合损失函数,显著提升了室内二氧化碳和 PM2.5 浓度预测的准确性与可解释性。
本文提出了名为 FutureBoosting 的混合 AI 框架,通过将冻结的时间序列基础模型生成的预测特征融入回归模型,有效克服了单一模型在捕捉跨变量关联与历史驱动因素方面的局限,从而在电价预测任务中显著提升了预测精度与可解释性。
本文提出了一种名为"Safe Transformer"的模块化方法,通过在 Transformer 层间插入包含显式安全位的离散信息瓶颈,利用对比学习实现安全决策的可解释性与可控制性,仅需轻量级微调即可在保持生成能力的同时显著降低攻击成功率。