Towards Universal Khmer Text Recognition
该论文提出了一种能够处理多种文本模态的通用高棉语文本识别(UKTR)框架,其核心是新颖的模态感知自适应特征选择(MAFS)技术,旨在解决数据稀缺和跨模态迁移困难的问题,并首次发布了相关基准数据集与模型。
9799 篇论文
该论文提出了一种能够处理多种文本模态的通用高棉语文本识别(UKTR)框架,其核心是新颖的模态感知自适应特征选择(MAFS)技术,旨在解决数据稀缺和跨模态迁移困难的问题,并首次发布了相关基准数据集与模型。
本文针对高棉语场景文档布局检测因数据稀缺和脚本结构复杂而面临的挑战,提出了首个综合研究,通过构建专用数据集、开发开源数据增强工具以及引入基于 YOLO 的定向边界框检测框架,填补了该领域的空白并开源了相关资源。
本文提出了一种名为 IU 的新型不可感知通用后门攻击方法,该方法利用图卷积网络建模类间关系并生成特定于类的扰动,在极低投毒率下实现了对 ImageNet-1K 上多目标类别的高成功率攻击,同时保持了视觉隐蔽性并成功规避了现有防御。
本文提出了一种基于全景图像拼接技术的工业管道内壁重建系统,通过结合极坐标变换与关键帧提取,将内窥镜视频高效转换为保留完整细节的平面全景图像,显著提升了管道缺陷检测与状态评估的效率和工程应用价值。
该论文提出了一种反特征坍塌学习框架,通过抑制伪造线索的过度重叠并保留多样化的判断视角,显著提升了生成图像检测模型在未见生成机制下的泛化能力与鲁棒性。
UniHM 是一个首个由自由形式语言指令引导的统一灵巧手操作框架,它通过统一灵巧手标记器、基于人机交互数据训练的视觉语言动作模型以及物理引导的动态优化模块,实现了在未见物体和形态上具有强泛化能力且物理可行的灵巧手操作。
该研究提出了一种基于时空扩散自编码器的自监督方法,利用多中心 CT 影像数据学习脑卒中语义表征,并成功实现了对次日病情严重程度及出院功能预后的最优预测。
本文通过系统分析扩散模型采样设计空间,提出受 Frenet-Serret 公式启发的恒定总旋转调度(TORS)策略,在无需重新训练的情况下显著提升了 Flux.1-Dev 和 Stable Diffusion 3.5 等模型在极少采样步数下的图像生成质量与泛化能力。
本文提出了 DUCX 框架,通过引入阶段式公平性分解方法,系统性地揭示了基于 MedRAX 的胸部 X 光诊断智能体中存在的端到端性能差距及工具暴露、路由转换和推理行为等特定阶段的隐性偏见,强调了针对临床智能系统开展过程级公平性审计与去偏的重要性。
该论文提出了神经功能对齐空间(NFAS),这是一种通过动态模式分解建模网络深度嵌入轨迹并投影至生物锚定坐标系的脑参考表征框架,旨在揭示跨模态人工神经网络在脑功能空间中的结构化组织与模态特异性聚类。
本文提出了 ConVOLT 框架,通过利用模板配准中的形变场特征来校准体积缩放因子,从而在医学图像模板分割任务中实现了比传统输出空间方法更高效且区间更紧致的有限样本有效体积不确定性量化。
NERFIFY 是一个多智能体框架,它通过结合上下文无关文法约束、图式思维代码合成、引用组件自动集成及视觉反馈等六项创新,成功将复杂的 NeRF 论文转化为可训练的 Nerfstudio 插件,在无需公开代码的情况下实现了与专家手写代码相当的视觉质量,并将复现时间从数周缩短至数分钟。
本文提出了 COMBAT,一种基于扩散 Transformer 的实时条件世界模型,它仅通过单玩家数据训练,无需对手策略的显式监督,即可在《铁拳 3》环境中生成具备智能反应能力的动态对手行为。
本文提出了一种名为 MME 的新型混合专家框架,通过结合基于随机游走和注意力机制的门控架构以及动态损失平衡策略,有效整合了不同网格分析方法的互补优势,从而在网格分类、检索和语义分割任务中实现了最先进性能。
本文提出了一种名为 UHDPromer 的神经判别提示 Transformer,通过引入神经判别先验来挖掘高低分辨率特征间的差异,并结合超分辨率引导重建策略,在低光照增强、去雾和去模糊等 UHD 图像恢复任务中实现了兼具最佳计算效率与顶尖性能的效果。
本文提出了名为 PPC-MT 的并行点云补全框架,通过结合主成分分析(PCA)引导的几何结构化并行策略与 Mamba-Transformer 混合架构,在保持计算高效性的同时显著提升了点云重建的均匀性、细节保真度及整体精度。
本文提出了多成员时序注意力(MMTA)模型,通过允许帧在单层内关注多个局部时序窗口并融合竞争上下文,显著提升了细粒度康复动作分割的边界敏感度与评估精度,且能统一处理视频与 IMU 数据。
本文提出了一种名为 SMART 的半监督学习框架,通过结合 SAM3 的提示性概念分割、运动感知一致性以及渐进式置信度正则化,有效解决了 X 射线冠状动脉造影视频中血管边界模糊、运动复杂及标注数据稀缺的难题,实现了在少标注条件下的高精度血管分割。
本文提出了一种结合 MR 物理机制与深度生成先验的非线性盲逆问题框架,首次统一解决了标记 MRI 中的解剖图像恢复、高分辨率电影图像合成及运动估计任务,显著提升了成像质量与运动追踪精度。
本文提出了 VEMamba 框架,通过创新的轴向 - 侧向分块选择性扫描模块和动态权重聚合模块,结合动量对比学习模拟真实退化,实现了体积电子显微镜数据的高效各向同性重建,在保持低计算成本的同时显著提升了重建质量与轴向 - 侧向一致性。