Logos: An evolvable reasoning engine for rational molecular design
本文提出了名为 Logos 的紧凑型分子推理模型,它通过分阶段训练将多步逻辑推理与严格的化学一致性相结合,在确保生成结构化学有效性的同时实现了可解释的理性分子设计,其性能在多个基准测试中媲美甚至超越了参数量大得多的通用语言模型。
2284 篇论文
本文提出了名为 Logos 的紧凑型分子推理模型,它通过分阶段训练将多步逻辑推理与严格的化学一致性相结合,在确保生成结构化学有效性的同时实现了可解释的理性分子设计,其性能在多个基准测试中媲美甚至超越了参数量大得多的通用语言模型。
本文提出了受树突计算机制启发的 DendroNN 模型,通过无梯度的重连机制识别时空脉冲序列,并设计了基于时间轮的异步数字硬件架构,从而在事件驱动数据处理中实现了比现有神经形态硬件高 4 倍的能效。
该论文提出了 DenoiseSplat,一种针对含噪多视图图像的自监督前馈 3D 高斯泼溅方法,通过在大规模构建的 RE10K 噪声基准上仅利用干净 2D 渲染进行端到端训练,实现了在噪声环境下优于现有基线的 3D 场景重建与新颖视图合成性能。
该论文指出大语言模型的口头置信度评分存在严重的离散化倾向,并证明将置信度量表从标准的 0-100 调整为 0-20 能显著提升其元认知效率,表明量表设计应被视为评估大模型不确定性时的关键变量。
该论文通过揭示大语言模型激活空间中存在显著的非线性几何扭曲,挑战了传统的线性干预假设,并提出了一种基于多项式核主成分分析的“曲线球(Curveball)”非线性干预方法,从而在控制模型行为方面取得了优于线性方法的性能。
本文提出了 CLoE 框架,通过引入模态专家与区域专家的双重一致性学习目标及可靠性感知特征重校准机制,有效解决了多模态医学图像分割中因模态缺失导致的专家分歧与融合不稳定问题,显著提升了模型在缺失模态场景下的性能及临床关键结构的鲁棒性。
本文提出了名为 SpaceSense-Bench 的大规模多模态基准数据集,该数据集基于虚幻引擎 5 生成,包含 136 种卫星模型的高保真同步 RGB、深度及 LiDAR 数据与精细标注,旨在解决航天器感知与位姿估计中真实数据匮乏的问题,并通过基准测试揭示了小部件感知与零样本泛化等关键挑战及数据规模对性能提升的重要性。
该论文提出了一种将语音情感识别模型推断的情绪标签作为显式上下文注入大语言模型驱动的社会化 VR 代理的交互流程,并通过用户研究证实该方法显著提升了对话质量、自然度及用户参与度,使 93.3% 的参与者更倾向于选择具备情感感知能力的代理。
本文提出了基于 Gram 矩阵的纹理共振检索(TRR)方法,通过利用 Wav2Vec2 激活的投影 Gram 矩阵来弥合用户感知意图与低层音频效果参数之间的语义鸿沟,并在吉他效果基准测试中证明了其在生成可编辑插件配置方面的优越性能。
本文提出了 STAR 基准,这是一个基于多智能体零和博弈的评估框架,旨在揭示大型语言模型在静态推理之外,将战略深度转化为实时决策执行能力时存在的显著差距,并强调在动态对抗环境中平衡推理质量与响应速度的重要性。
本文提出了 TaSR-RAG 框架,通过将查询和文档表示为关系三元组并结合轻量级分类体系进行结构化推理,有效解决了传统检索增强生成(RAG)系统在多跳推理中存在的上下文冗余、信息密度低及推理脆弱等问题,在多个多跳问答基准测试中显著提升了性能。
本文提出了一种名为鲁棒正则化策略迭代(RRPI)的新方法,通过将离线强化学习建模为在转移不确定性下的鲁棒策略优化问题,利用 KL 正则化将不可解的双层优化转化为可处理的单目标问题,从而在 D4RL 基准测试中实现了优于现有基线的性能并有效避免了分布外状态下的不可靠动作。
该论文针对图异常检测中的跨域泛化难题,提出了一种名为 TA-GGAD 的测试时自适应图基础模型,通过定义并建模“异常异配性”(Anomaly Disassortativity)特征失配问题,实现了仅需单次训练即可在多个不同领域图上达到最先进的检测精度。
该论文提出了一种结合差分隐私的零阶优化框架,将数据集压缩技术扩展至决策树和 Cox 回归等非可微临床模型,从而在保护患者隐私的同时实现了模型无关的临床数据共享。
本文提出了 M3GCLR 框架,通过建立无限骨架数据博弈模型、引入多视角旋转增强与时间平均锚点、构建强对抗极小极大博弈及双损失均衡优化器,有效解决了现有自监督骨架动作识别方法在视角差异建模、对抗机制及增强扰动控制方面的局限,并在多个基准数据集上取得了优于或持平最先进水平的性能。
该论文提出了一种名为 MIL-PF 的可扩展框架,通过结合冻结的基础模型编码器与轻量级的注意力机制多示例学习(MIL)聚合模块,在无需重新训练大型骨干网络的情况下,利用预计算特征高效解决了高分辨率乳腺 X 光影像分类中注释稀缺和计算成本高昂的挑战,并实现了临床规模下的最佳分类性能。
本文提出了 SPAARS 框架,通过结合课程学习策略,先在低维潜在空间进行安全高效的探索以规避重建损失带来的性能瓶颈,再无缝过渡到原始动作空间进行精细化利用,从而在离线到在线强化学习中显著提升了样本效率与最终性能。
本文提出了一种名为脉冲串谐振器(PTR)的可微分合成架构,通过直接建模基于物理的排气脉冲序列及其在谐振器中的传播,实现了比传统谐波加噪声基线模型更准确且具备物理可解释性的引擎声音合成。
本文介绍了 ICDAR 2025 端到端文档图像机器翻译竞赛,该竞赛通过 OCR 免提与 OCR 辅助两个赛道及不同规模模型子任务,吸引了 69 支团队参与,旨在推动复杂版本文档翻译研究并展示了大模型在该领域的巨大潜力。
该论文提出了全卷积扩散模型(FCDM),通过采用类似 ConvNeXt 的骨干网络,在显著降低计算成本、训练步数和硬件需求的同时,实现了与主流 Transformer 架构相媲美的生成性能,从而证明了现代卷积设计是高效扩展扩散模型的有效替代方案。