3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis
本文提出了 3DMedAgent,这是一种通过协调异构工具并利用长期结构化记忆,使现有的 2D 多模态大语言模型无需 3D 微调即可执行从感知到理解的渐进式 3D CT 分析的统一智能体,并在 DeepChestVQA 基准及 40 多项任务中展现了超越现有模型的卓越性能。
8464 篇论文
本文提出了 3DMedAgent,这是一种通过协调异构工具并利用长期结构化记忆,使现有的 2D 多模态大语言模型无需 3D 微调即可执行从感知到理解的渐进式 3D CT 分析的统一智能体,并在 DeepChestVQA 基准及 40 多项任务中展现了超越现有模型的卓越性能。
本文提出了 OVerSeeC,一种基于“理解 - 定位 - 合成”模块化流程的零-shot 框架,能够利用大语言模型和开放词汇分割技术,直接从卫星图像和自然语言指令中生成适应未知实体与复杂任务偏好的全局代价图,从而实现可扩展的自主导航规划。
本文以蓝牙低功耗平台为例,通过真实硬件验证发现后量子密钥交换中的通信开销往往超过计算成本,从而指出实现高效量子安全组网需协同优化协议配置与底层通信机制。
本文介绍了 ABD 基准,旨在评估前沿大语言模型在有限一阶世界中通过稀疏异常假设恢复可满足性的默认 - 异常归因能力,揭示了模型在有效性上的高表现与稀疏性差距及跨场景泛化失败模式。
本文针对开放词汇语义分割在未见域和未见类别上的泛化难题,提出了首个自动驾驶领域的开放词汇域泛化(OVDG-SS)基准,并设计了基于状态空间的 S2-Corr 机制以修正文本 - 图像关联失真,从而显著提升了模型在复杂城市场景中的跨域鲁棒性。
本文介绍了名为 INDUCTION 的基准测试,旨在评估大语言模型在有限结构中进行一阶逻辑概念合成的能力,通过精确模型检查验证公式正确性,并揭示了不同模型在任务难度、公式简洁性及泛化策略上的显著差异。
本文提出了一种名为 SKYLIGHT 的可扩展三维光子存内张量核心架构,通过共设计拓扑、波长路由、信号累加及编程机制,实现了支持实时推理与本地学习的百通道光子 AI 加速器,在能效和推理速度上显著超越现有 GPU 方案并展现出对硬件非理想性的强鲁棒性。
本文提出了 UniMatch,一种通过结合类无关 3D 分割、多模态大语言模型引导以及基于排名的对比学习,实现跨类别强非等形物体间稠密语义匹配的粗到细框架。
该论文指出 iCloud 将分布式因果图强行投影为线性时间链的“范畴错误”导致了其与 Time Machine、Git 等工具的根本性不兼容及数据损坏,并主张采用 Open Atomic Ethernet 的原子事务语义来使协议行为回归物理现实以解决此类问题。
本文提出了 InfScene-SR,一种基于扩散模型的任意尺寸图像超分辨率方法,通过引入方差校正融合(VCF)和空间解耦方差校正(SDVC)技术,在消除大尺度场景拼接边界伪影的同时,将显存复杂度降至常数级,从而实现了高效、连续且分布式的超分辨率重建。
该论文提出了一种在线物体 - 场景 - 相机分解与重组的数据增强方案,通过将训练图像解耦为独立要素并动态重组,有效解决了单目 3D 目标检测中数据多样性不足和过拟合问题,从而在多种监督设置下显著提升了模型性能。
本文提出了一种基于扩散模型的上下文图像分解框架,通过轻量级 LoRA 微调、循环一致性联合训练策略以及渐进式自改进机制,有效解决了真实场景中(如 Logo 与表面)具有非线性耦合交互的复杂分层图像分解难题。
本文提出了一种名为“见即说,即排好”(See It, Say It, Sorted)的轻量级、无需训练且即插即用的迭代框架,通过在推理过程中动态引入视觉证据池来监督每一步生成,从而有效抑制多模态大模型中的视觉幻觉传播并显著提升推理准确率。
本文提出了 ARLArena 框架以系统分析智能体强化学习(ARL)的稳定性问题,并基于此设计了能显著缓解训练不稳定的 SAMPO 方法,为构建稳定且可复现的 LLM 智能体训练流程提供了统一视角与实践指导。
该论文提出了一种利用语言模型将图像和视频的语义分割掩码离散化为游程编码(RLE)序列的新方法,通过创新的令牌化策略有效压缩序列长度并支持实例信息以进行全景分割,在有限计算资源下实现了具有竞争力的性能。
本文提出了 EmoOmni 框架,通过引入情感思维链(E-CoT)机制解决现有全模态大模型在复杂场景下情感理解浅层化及表达不匹配的问题,并配套构建了数据集与评估基准,实现了在较小参数量下媲美更大规模模型的情感对话性能。
CryoNet.Refine 是一种基于单步扩散模型的深度学习框架,它通过整合密度感知损失函数与立体化学约束,实现了比传统方法更快速、自动化且高质量的冷冻电镜结构模型优化。
本文提出“氛围研究”(vibe researching)概念,通过构建认知任务框架界定 AI 智能体在社会科学研究中的能力边界,论证其虽能大幅加速研究流程并辅助方法实施,但在理论原创性与隐性知识方面仍无法替代人类学者,进而警示了该变革带来的职业分层风险与教学危机。
该研究通过分解 HealthBench 数据集中的医师分歧发现,尽管大部分分歧源于病例本身的结构性特征且难以通过常规元数据消除,但区分“可消除的不确定性”(如信息缺失)与“不可消除的不确定性”(如固有医学模糊性)为优化评估设计提供了关键方向,即通过填补信息缺口可在不增加固有模糊性的情况下降低分歧。
本文提出了无需训练的 WISER 框架,通过“检索 - 验证 - 优化”流程统一文本到图像和图像到图像两种检索范式,利用更广泛的搜索、自适应融合及基于自我反思的深度思考机制,显著提升了零样本组合图像检索的性能。