N-gram Injection into Transformers for Dynamic Language Model Adaptation in Handwritten Text Recognition
该论文提出了一种在推理阶段动态注入外部 n-gram 语言模型的方法,使基于 Transformer 的手写文本识别网络能够在不针对目标域图像 - 文本对进行额外训练的情况下,有效适应语言分布偏移并显著提升识别性能。
6554 篇论文
该论文提出了一种在推理阶段动态注入外部 n-gram 语言模型的方法,使基于 Transformer 的手写文本识别网络能够在不针对目标域图像 - 文本对进行额外训练的情况下,有效适应语言分布偏移并显著提升识别性能。
本文提出了 DISC(密集集成语义上下文)框架,通过利用视觉 Transformer 中间层直接提取距离加权的单遍 CLIP 嵌入,并结合全 GPU 加速的体素级在线更新机制,有效解决了现有开放集语义映射方法在上下文缺失和计算效率方面的瓶颈,从而在大规模复杂场景中实现了显著优于现有零样本方法的实时语义精度与检索性能。
本文提出了轻量级无监督框架 CMDR-IAD,通过双向跨模态映射与双分支重建策略,在无需记忆库的情况下实现了 2D-3D 多模态及单模态工业异常检测的鲁棒性与高精度,并在 MVTec 3D-AD 基准及真实工业数据上取得了最先进性能。
该研究利用深度学习(特别是 DenseNet121 模型)在单切片层面上对高 b 值(1500 s/mm²)乳腺扩散加权成像中的高信号和低信号伪影进行了有效的检测与分类,展现了其在辅助诊断中的潜力。
本文提出了旨在挑战模型超越观测进行推理的“空间因果预测”新任务范式,构建了包含 2500 个问答对的 SCP-Bench 基准,并通过评估 23 个先进模型揭示了当前模型在时空外推与因果推理能力上的显著不足,进而提出了相应的改进策略。
本文提出了 RVN-Bench,这是一个基于 Habitat 2.0 和高保真 HM3D 场景构建的碰撞感知基准测试,旨在解决现有室内视觉导航基准缺乏碰撞考量或仅适用于室外场景的问题,通过提供多样化的无地图环境、标准化评估指标及支持在线与离线学习的工具,推动安全且鲁棒的室内移动机器人视觉导航研究。
该论文提出了一种从单张图像合成具有真实偏移量的未对齐多模态图像对的训练数据方法,并设计了一种利用跨尺度信息且解耦颜色特征的神经网络,从而显著提升了多模态单应性估计模型在未见模态上的泛化能力与鲁棒性。
本文提出了结构动作 Transformer(SAT),通过引入以结构为中心的视角,将动作重构为无序的关节轨迹序列并结合具身关节码本,从而有效解决了异构高自由度机械手在 3D 灵巧操作中的跨本体技能迁移难题。
本文提出了 ProFound,一种基于 5000 名患者超 22000 个 3D 多参数 MRI 体积数据自监督预训练的中规模前列腺专用视觉基础模型,其在癌症检测、分级、定位及分割等 11 项下游临床任务上的表现均优于或媲美现有的专用模型及医学视觉基础模型。
本文介绍了开源项目 BLOCK,这是一个利用大语言模型生成 3D 预览图并结合微调 FLUX.2 模型进行解码的双阶段管道,通过创新的 EvolveLoRA 渐进式训练策略,实现了从任意角色概念到像素级 Minecraft 皮肤的高效、稳定生成。
本文提出了 UniRain 统一图像去雨框架,通过基于检索增强生成(RAG)的数据集蒸馏技术筛选高质量训练样本,并结合非对称混合专家架构中的多目标重加权优化策略,实现了在复杂真实场景下对雨纹和雨滴等多种退化类型的高效泛化与鲁棒恢复。
本文提出了一种利用视觉基础模型进行自监督预训练的新方法,通过引入结构感知蒸馏损失来解决图像与事件流之间的语义失配问题,从而在无需大量标注的情况下实现了大规模、高密度的事件流表征学习,并显著提升了下游任务的性能。
本文提出了 Dual-Solver,一种通过可学习参数灵活调整预测类型、积分域及残差项的通用 ODE 求解器,旨在利用分类目标在低函数评估次数(NFE)下显著提升扩散模型的采样质量。
本文介绍了 Phi-4-reasoning-vision-15B 这一紧凑型开源多模态推理模型,通过展示其在架构设计、严格数据筛选与合成增强等方面的创新,证明了高质量数据与高效架构能使小模型在科学推理、数学理解及界面识别等任务上实现媲美大模型的卓越性能。
本文提出了 GeoSeg,这是一个无需训练且基于推理的遥感图像分割框架,它通过偏差感知坐标修正和双路线提示机制,有效解决了遥感领域缺乏通用推理分割方案及监督数据稀缺的难题,并配套发布了 GeoSeg-Bench 基准测试集。
本文提出了名为 RIVER 的实时视频交互基准,通过引入回顾记忆、实时感知和主动预测任务来填补现有视频大模型在实时交互方面的空白,并针对长时记忆与未来感知等缺陷提出了通用改进方案。
本文提出了一种基于面孔错觉(pareidolia)的表征级诊断框架,通过评估六类视觉模型在模糊视觉证据下的检测、定位、不确定性与偏差表现,揭示了不同模型架构(如视觉语言模型、纯视觉分类器及检测器)在歧义情境下截然不同的解释机制,表明模型在模糊条件下的行为主要受表征选择而非阈值控制,且低不确定性既可能源于安全抑制也可能源于过度解读。
本文提出了一种名为 SAFE 的两阶段框架,通过结合弱监督、对比学习和基于特征空间的集成推理,在部分临床监督下自动扩展稀疏的糖尿病视网膜病变病灶标注,从而显著提升了下游分类任务的诊断性能。
该论文提出了 DPAD 方法,通过强制模型生成描述性标题并利用其与上下文的语义对比来引入判别性感知,从而解决现有推理分割中推理链冗长且偏离目标的问题,显著提升了定位精度并缩短了推理长度。
本文提出了一种结合基于诊断多样性的数据采样策略与诊断令牌加权策略优化(DiTPO)的新框架,通过优先优化临床关键信息并提升数据质量,在显著减少训练样本需求的同时实现了放射学报告生成的最先进性能。