CASA: Cross-Attention over Self-Attention for Efficient Vision-Language Fusion
该论文通过深入分析并改进交叉注意力机制,证明了其在视觉语言模型中不仅能实现与直接插入图像令牌相当的性能,还能显著降低长序列多图像对话及实时视频处理中的显存与计算开销。
5425 篇论文
该论文通过深入分析并改进交叉注意力机制,证明了其在视觉语言模型中不仅能实现与直接插入图像令牌相当的性能,还能显著降低长序列多图像对话及实时视频处理中的显存与计算开销。
本文提出了 CARE(对比锚定反思)框架,通过结合锚定对比目标与反思引导重采样技术,将多模态推理中的失败案例转化为有效监督信号,从而在无需测试时反思的情况下显著提升模型准确率与训练稳定性。
该论文提出了首个针对动态图时序模式分析的LLM基准LLMTM,并设计了一种结合工具增强智能体与结构感知调度器的框架,在显著降低计算成本的同时实现了高精度的时序模式分析。
该论文提出了一种名为 WBC 的基于滑动窗口的成员推断攻击方法,通过聚合不同尺度局部上下文中的损失比较信号,显著提升了在微调大语言模型中识别训练数据的能力,并揭示了局部证据聚合比全局平均更有效的隐私漏洞。
该论文提出了一种通过集成七种可读性指标和聚类方法微调大语言模型的框架,成功生成了涵盖六个教育阶段的适龄教学内容,在保持事实准确性的同时将年级对齐度相比提示方法提升了 35.64 个百分点,从而有效应对全球师资短缺并促进教育公平。
该论文提出了一种无需显式噪声掩码的端到端音频 - 视觉语音识别框架,通过基于 Conformer 的瓶颈融合模块利用视觉线索隐式增强含噪音频特征,从而在保留语音语义完整性的同时提升了噪声环境下的识别鲁棒性。
本文提出 PepEDiff,一种基于预训练蛋白嵌入模型和扩散机制的零-shot 生成框架,无需依赖中间结构预测即可直接生成具有高度多样性的新型肽结合剂,并在 TIGIT 等挑战性靶点上超越了现有最先进方法。
SpatialMem 提出了一种以记忆为核心的系统,利用度量 3D 空间作为可解释的索引支架,从单目 RGB 视频构建分层记忆以支持长程、语言引导的室内场景检索、问答及离线导航任务。
该论文提出了首个临床脑电到语言的基础模型 CELM,利用包含近万份报告的大规模数据集,实现了从长时程、变长脑电记录到多维度临床报告的端到端自动生成,并在标准生成指标上取得了显著性能提升。
该论文提出了一种名为“局部化上下文学习”(L-ICL)的迭代指令增强方法,通过针对规划轨迹中的首个约束违反步骤注入最小修正示例,显著提升了大语言模型在符号经典规划任务中生成有效计划的准确率。
本文通过展示研究人员利用 Google Gemini 系列模型在理论计算机科学、经济学及物理学等领域成功解决开放问题、证伪猜想及生成新证明的案例,提炼出迭代优化、问题分解等高效人机协作技巧,并探讨了将模型作为对抗性审查者或嵌入神经符号循环等进阶应用,论证了 AI 作为科学发现创造性伙伴的潜力。
本文针对大语言模型智能体在复杂交互场景下不确定性量化研究的不足,提出了首个通用理论框架,系统剖析了四大关键技术挑战,并基于真实基准测试展望了该领域的未来发展方向。
该论文通过对比静态分类任务中的归因解释与智能体基准测试中的轨迹诊断,揭示了传统特征归因方法无法有效诊断智能体执行失败,从而论证了转向轨迹级可解释性对于评估和诊断自主 AI 行为(特别是状态跟踪不一致问题)的必要性。
本文介绍了名为 Aletheia 的自主数学研究智能体,它通过结合先进推理模型、推理时扩展定律及工具使用能力,实现了从奥林匹克竞赛题到生成无人类干预研究论文、证明新定理及解决开放问题等里程碑式的 AI 辅助数学研究突破。
该论文提出了以效用反馈为核心的框架,通过构建涵盖多种复杂场景的 AgoraBench 基准、引入基于人类偏好的经济评估指标,以及利用人类偏好数据集优化提示与微调流程,显著提升了大语言模型在谈判中的策略深度与对手感知能力。
这项基于 737 名参与者的研究通过对比实验发现,在“氛围编程”(vibe coding)协作中,人类主导指令而 AI 负责评估的混合模式表现最佳,且人类提供的高层指令能有效避免 AI 主导指令导致的性能崩溃,凸显了人类指导在构建未来人机协作社会中的关键作用。
该论文提出了名为 DataChef-32B 的强化学习框架,通过端到端自动生成数据食谱来优化大语言模型适应过程,其生成的食谱在多个任务上达到了专家级水平,并成功将 Qwen3-1.7B-Base 在 AIME'25 数学基准上的表现提升至超越官方后训练检查点的 66.7 分。
该论文提出了 SWE-MiniSandbox,一种利用内核级机制和轻量级环境预缓存技术实现的无容器强化学习框架,它在保持隔离性的同时显著降低了磁盘占用和环境准备时间,为软件工程智能体的规模化训练提供了高效且可访问的基础。
该论文针对多轮对话中提示注入攻击难以在代理层进行有效聚合检测的问题,提出了一种结合单轮峰值风险、持久性比率与类别多样性的“峰值 + 累积”评分公式,在无需调用大语言模型的情况下,于大规模数据集上实现了高召回率与低误报率的攻击检测效果。
本文通过系统文献综述批判了机器学习中将人类分歧视为噪声的“共识陷阱”谬误,揭示了数据标注中存在的锚定偏差与西方中心主义霸权,并主张将分歧重新定义为构建文化胜任模型的关键信号,从而推动从追求单一“真理”向映射人类经验多样性的标注范式转型。