Neural Dynamics-Informed Pre-trained Framework for Personalized Brain Functional Network Construction
该论文提出了一种神经动力学先验的预训练框架,通过提取异质场景下的个性化神经活动表征来指导脑区划分与相关性估计,从而克服了传统方法依赖固定图谱和线性假设的局限,显著提升了个性化脑功能网络构建的准确性与泛化能力。
11718 篇论文
该论文提出了一种神经动力学先验的预训练框架,通过提取异质场景下的个性化神经活动表征来指导脑区划分与相关性估计,从而克服了传统方法依赖固定图谱和线性假设的局限,显著提升了个性化脑功能网络构建的准确性与泛化能力。
该论文提出了一种名为 UniLongGen 的训练-free 推理策略,通过动态筛选并丢弃干扰性视觉信号来主动“遗忘”历史图像,从而解决统一多模态模型在生成长序列图文内容时因视觉信息累积污染而导致的质量崩溃问题。
DreamSAC 提出了一种结合基于哈密顿量的对称性探索策略与自监督对比学习的框架,通过主动收集符合物理守恒律的数据并从中学习不变性,显著提升了世界模型在物理模拟中面对新物理属性时的外推泛化能力。
本文提出了 COOL-MC 工具,通过概率模型检查和可解释性分析,对基于强化学习的多桥梁网络维护策略进行了形式化验证与解释,揭示了其安全违规概率及决策偏差。
该论文提出了一种无需 accented 训练数据的 L2 口音语音生成框架,通过结合多语言 TTS 模型与音系规则,在音素级别实现了对西班牙语和印度口音英语的显式转换,在保持语音质量的同时有效实现了口音迁移。
该论文针对零样本语音克隆的隐私风险,正式提出了“语音生成 speaker poisoning"(SGSP)任务,旨在通过修改模型参数在保留通用语音合成能力的同时有效阻止特定说话人身份的生成,并评估了该方法在不同遗忘规模下的隐私保护与效用权衡。
该论文发布了首个尼泊尔语(Newari)5.39 小时人工转写天城文语音语料库"Nw\=ach\=a Mun\=a",并证明在超低资源自动语音识别任务中,利用地理和语言邻近的尼泊尔语进行迁移学习,能以更少的参数量达到与大规模多语言模型相当的性能。
本文提出了一种名为 GRD-Net 的新型异常检测架构,该架构结合基于残差自编码器的生成对抗网络与区域兴趣(ROI)注意力模块,通过利用正常样本及合成缺陷数据进行训练,实现了无需复杂后处理算法即可精准定位工业表面缺陷(如药瓶铝盖)的异常检测。
该论文在 OpenOOD 标准协议下,系统比较了交叉熵、原型、三元组及平均精度四种训练目标在图像分类中的分布外检测性能,发现交叉熵损失在保持分布内精度的同时,能提供最为稳健的近域与远域分布外检测效果。
该论文提出了一种基于生成对抗网络与残差自编码器的半监督异常检测框架,通过仅使用标称样本训练,成功在制药行业高速吹灌封(BFS)生产线上实现了满足 500 毫秒时序约束的高精度在线缺陷检测与定位。
该论文提出了难度缩放的分段式 GRPO(DSS-GRPO)方法,通过将奖励信号分解为思维与回答两个独立部分并施加难度感知调整,在有效压缩思维链长度的同时避免了模型回答质量的下降。
该论文提出了一种名为 SMAT 的四阶段多智能体训练课程,通过模拟人类自然适应过程来训练髋部外骨骼控制器,使其在无需针对特定用户重新训练的情况下,即可在物理实验中实现一致的辅助效果并显著降低肌肉激活度。
该论文提出了一种基于 NVIDIA Omniverse 构建的阿尔及尔国际机场高保真数字孪生体的合成数据生成管道,用于解决行李推车检测中的隐私与数据多样性难题,实验表明结合少量真实标注数据的混合训练策略在显著降低标注成本的同时,其检测精度(mAP@50 达 0.94)可媲美甚至超越全量真实数据基线。
本文提出了名为 AtomicVLA 的统一规划与执行框架,通过技能引导的混合专家模型(SG-MoE)和灵活路由编码器构建可扩展的原子技能库,有效解决了现有视觉 - 语言 - 动作(VLA)模型在长程任务规划、多步问题解决及持续技能学习方面的局限性,并在仿真与真实世界实验中显著超越了现有基线模型。
本文提出了 Ref-DGS 框架,通过解耦表面重建与镜面反射,利用几何高斯、局部反射高斯及全局环境反射场,在不依赖显式光线追踪的情况下高效实现了包含近场强镜面反射场景的高质量重建与新视图合成。
该研究开发了一种结合高斯混合变分自编码器与皮尔逊相关系数的 AI 驱动方法,成功从稀疏采样的扫描透射 X 射线显微镜数据中实现了钠离子电池正极材料(NaₓV₂(PO₄)₂F₃)在充放电过程中纳米级多相分布与演变的精准识别与映射。
这篇论文系统综述了 2022 年至 2026 年初大语言模型智能体中的记忆机制,通过构建“写入 - 管理 - 读取”循环框架与三维分类体系,深入探讨了五种核心记忆技术、评估范式的演进、关键应用场景及工程挑战,并展望了持续巩固、因果检索等未来前沿方向。
该论文提出了一种利用运动矢量、残差图和帧类型等压缩域信息的 CDA-VSR 网络,通过运动矢量引导的可变形对齐、残差门控融合及帧类型感知重建模块,在 REDS4 数据集上实现了比现有最先进方法 TMP 更高的重建质量(PSNR 提升 0.13 dB)和两倍以上的推理速度,从而解决了带宽受限场景下在线视频超分辨率实时处理的难题。
本文提出了 TDM-R1,一种基于轨迹分布匹配(TDM)的新型强化学习范式,通过解耦奖励学习与生成器训练并引入每步奖励信号,成功解决了少步扩散模型无法利用非可微奖励(如人类偏好)进行优化的难题,在文本渲染、视觉质量及偏好对齐等任务中实现了最先进的性能。
该论文介绍了 VoiceSHIELD-Small,这是一种基于 Whisper-small 的轻量级实时模型,能够同步完成语音转录与恶意内容检测,在保持低延迟的同时实现了 99.16% 的高准确率,旨在解决语音交互中的新兴安全风险。