Cycle-Consistent Multi-Graph Matching for Self-Supervised Annotation of C.Elegans
本文提出了一种基于循环一致性的无监督多图匹配方法,通过贝叶斯优化高斯参数,成功在无需任何人工标注的情况下实现了线虫(C. elegans)3D 显微图像中细胞核的语义标注,并构建了首个无监督线虫细胞图谱,其精度媲美现有监督学习方法。
4010 篇论文
本文提出了一种基于循环一致性的无监督多图匹配方法,通过贝叶斯优化高斯参数,成功在无需任何人工标注的情况下实现了线虫(C. elegans)3D 显微图像中细胞核的语义标注,并构建了首个无监督线虫细胞图谱,其精度媲美现有监督学习方法。
本文提出了一种基于生成对抗网络(GAN)的单阶段防御策略,旨在无需预先了解攻击设计的情况下,高效且通用地抵御针对自动驾驶交通标志分类的对抗补丁攻击,显著提升了系统在真实场景下的鲁棒性与实时性。
本文提出了语言引导的开放世界视频异常检测范式及 LaGoVAD 模型,通过引入动态视频合成与对比学习等弱监督策略,并结合新构建的大规模多模态 PreVAD 数据集,实现了利用自然语言在推理阶段灵活定义并检测动态变化的异常事件。
本文提出了 SwD 框架,通过引入基于最大均值差异(MMD)的补丁级蒸馏目标实现渐进式生成,在显著减少扩散模型采样步数的同时,大幅提升了生成效率与质量。
本文提出了首个结合投影差分隐私(PDP-SGD)与特征差分隐私(FDP)的混合框架,通过向低维子空间投影噪声梯度和选择性隐私化敏感特征,在 MPII 数据集上实现了隐私保护与 2D 人体姿态估计性能的有效平衡。
本文提出了 ANSE 框架,通过量化注意力机制的不确定性来主动选择最佳初始噪声,从而在无需显著增加推理成本的情况下,显著提升视频扩散模型的生成质量与时序一致性。
本文提出了 SABER 框架,通过生成具有多视角和时间一致性的通用 3D 对抗物体,在不修改目标车辆的情况下有效攻击鸟瞰图(BEV)3D 目标检测器,从而揭示了自动驾驶系统对上下文线索的过度依赖并提供了更实用的鲁棒性评估方案。
本文提出了交互场匹配(IFM)方法,通过引入受夸克与反夸克强相互作用启发的通用交互场,克服了静电场匹配(EFM)在建模电容板外复杂场时的局限性,并在多种数据生成与迁移任务中验证了其有效性。
本文提出了 HSSBench,这是一个专为评估多模态大语言模型在人文社科领域跨学科推理能力而设计的多语言基准,通过专家与智能体协作生成的 1.3 万多个样本填补了现有评测体系的空白,并揭示了当前顶尖模型在此类任务上仍面临显著挑战。
本文提出了无需训练的"Frame Guidance"方法,通过创新的潜在空间处理与优化策略,实现了基于关键帧、风格参考图、草图或深度图等帧级信号对任意视频扩散模型的高效可控生成。
该论文提出了 Perception-R1 方法,通过引入基于视觉感知一致性的新型奖励机制,有效解决了现有强化学习范式难以提升多模态大模型感知能力的问题,从而显著增强了其多模态推理性能。
本文提出了 StreamSplat,一种完全前馈的在线框架,能够通过三项关键技术革新,将未校准的视频流即时转化为动态 3D 高斯泼溅(3DGS)表示,在实现任意长度视频实时重建的同时,将重建速度相比传统优化方法提升了 1200 倍并达到了最先进的重建质量。
该论文提出了名为 ECAD 的进化缓存方法,利用遗传算法为扩散模型自动学习高效的缓存调度策略,在无需修改模型参数或参考图像的情况下,显著提升了推理速度并实现了质量与延迟的灵活权衡,且在多种模型、分辨率及未见过的变体上展现出卓越的泛化能力。
该论文通过系统评估发现,利用文生图模型实时生成图像作为“合成感知”机制,能够有效弥合文本与视觉模态间的差距,从而在特定条件下显著提升纯文本大语言模型的推理能力。
该论文提出了 SceneStreamer,一种基于 Transformer 的自回归统一框架,通过将交通场景表示为包含信号灯、智能体状态及运动矢量的令牌序列进行连续生成,从而克服了现有数据驱动方法的局限,实现了能够动态引入和移除智能体的高保真、长视野自动驾驶仿真环境。
本文提出了一种基于条件噪声信号动态调整引导尺度的退火调度策略,旨在解决无分类器引导(CFG)的稳定性问题,从而在不增加额外计算开销的前提下显著提升文本到图像生成的质量与提示词对齐度。
本文提出了一种名为 MC-INR 的新型框架,通过结合元学习、基于残差的动态重聚类机制以及多变量分支层,有效解决了现有隐式神经表示方法在处理复杂非结构化网格多变量科学模拟数据时存在的灵活性不足、单变量局限及网格依赖等问题。
本文提出了 CoBELa 框架,通过利用冻结生成器的潜在空间中的可加性概念能量函数来替代传统瓶颈表示,实现了无需重新训练生成器即可进行高效、透明且支持组合干预的生成控制。
本文提出了 InstructVLA,一种通过新颖的“视觉 - 语言 - 动作指令微调”(VLA-IT)范式,在保留大语言模型灵活推理能力的同时显著提升机器人操作性能,并在模拟与真实场景中展现出卓越泛化能力和推理时扩展性的端到端模型。
本文提出了名为 DMTrack 的新型双适配器架构,通过时空模态适配器(STMA)和渐进式模态互补适配器(PMCA)模块,在仅引入 0.93M 可训练参数的情况下,实现了多模态时空跟踪的跨模态特征融合与状态最先进(SOTA)性能。