Efficient Flow Matching for Sparse-View CT Reconstruction
该论文提出了一种基于流匹配的稀疏视图 CT 重建框架(FMCT)及其高效变体(EFMCT),通过利用确定性轨迹和复用速度场来减少神经网络函数调用次数,在显著降低计算成本的同时实现了与扩散模型相当的重建质量。
7851 篇论文
该论文提出了一种基于流匹配的稀疏视图 CT 重建框架(FMCT)及其高效变体(EFMCT),通过利用确定性轨迹和复用速度场来减少神经网络函数调用次数,在显著降低计算成本的同时实现了与扩散模型相当的重建质量。
本文介绍了 TACIT 基准,这是一个包含 10 个任务、覆盖 6 个推理领域的程序化视觉推理基准,通过生成式(确定性验证)和判别式(含结构化近邻干扰项的五选一)双轨评估机制,旨在克服现有基准依赖自然语言提示、推理模态狭窄及评分主观性等局限。
针对多模态大模型在推理过程中因过度依赖文本先验而忽视视觉信息的问题,本文提出了无需强化学习微调的 VisRef 框架,通过动态重注入语义相关且具代表性的视觉 Token 核心集,在固定计算预算下显著提升了视觉推理任务的性能。
该论文提出了一种基于定制数据集 CompGTSRB 训练 YOLOv5 模型并利用 GAN 生成自然主义对抗补丁的方法,通过 Quanser QCar 实车实验验证了这些补丁在不同距离、尺寸和位置下能有效降低交通标志检测器的 STOP 类别置信度,从而为评估物理世界对抗攻击及推动嵌入式感知防御研究提供了系统性的方法论。
本文提出了一种基于“最优测量”(PGM)的量子启发式多类分类器,将其应用于非小细胞肺癌亚型分类和前列腺癌风险分层,结果表明该方法在保持竞争力的同时,在部分任务中优于传统基线模型。
本文提出了一种无需降维或分块等技巧的端到端量子生成对抗网络,通过引入归纳偏置和增强噪声输入技术,在 MNIST、Fashion-MNIST 及 SVHN 等数据集上成功实现了全分辨率、多样化的图像生成,并确立了新的性能标杆。
本文针对视觉 - 红外密集预测任务中多模态对抗攻击面临的挑战,提出了一种无需内部模型信息的联合位置 - 颜色优化框架(AP-PCO),通过同步优化补丁位置与颜色并引入跨模态颜色适应策略,实现了在可见光与红外双模态下的高效隐蔽攻击。
该论文提出了利用臭氧吸收特征来估算并修正长波红外被动测距中反射下行辐射影响的新方法,通过四光谱和超光谱两种技术显著降低了测距误差。
该论文提出了一种将多模态医学数据分解为模态不变和模态特定组件的方法,通过推导可计算的“必要性与充分性概率”(PNS)目标函数,有效解决了多模态场景下 PNS 估计的难题,从而提升了模型的预测性能及对缺失模态的鲁棒性。
本文提出了 Proof-of-Perception (PoP) 框架,通过将多模态推理构建为具有组合保形保证的可执行图,利用带校准不确定性的工具调用来实现可验证的证据 grounding、减少幻觉,并在文档、图表及多图像问答任务中实现了比现有基线更优的性能与计算效率。
该论文提出了一种结合结构化控制嵌入模块(SCEM)的扩散模型,通过将低光照图像分解为光照、阴影及颜色不变性等物理先验分量来引导增强过程,从而在无需微调的情况下实现了跨数据集的卓越低光照图像增强效果。
本文提出了一种感知感知导向的皮层视觉假体手术规划框架,通过将电极放置建模为解剖空间中的约束优化问题,并利用可微分的前向视觉模型进行端到端优化,在确保血管安全的前提下显著提升了阅读和自然图像等任务的重建保真度。
本研究提出了一种结合 U-Net 分割与多骨干网络分类的深度学习框架,用于从 RGB 图像中检测包装及非包装肉类的新鲜度,该框架在实现高精度分类(最佳模型 EfficientNet-B0 达 98.10%)的同时,通过 OOD 感知机制有效处理异常样本,并验证了其在移动设备上的实时部署潜力。
本文提出了一种无需人工标注的无监督语义分割框架,通过聚类生成伪标签并结合“无偏教师”(Unbiased Teacher)方法进行自校正,有效解决了同步辐射计算机断层扫描(SR-CT)大数据集分析中的标注瓶颈,显著提升了分割精度。
本文提出了 DiffSOS,一种基于声学条件扩散模型的超声计算机断层成像速度重建框架,它通过结合物理约束的 ControlNet、混合损失函数及随机采样策略,在实现近实时高精度重建的同时,能够生成具有像素级不确定性评估的速度图,从而显著优于现有方法。
本文提出了名为 SSR 的框架,通过轻量级跨模态对齐机制将 3D 几何特征与 2D 视觉语义无缝融合,并借助创新的场景图生成与增量构建算法,使 7B 参数模型在无需大规模预训练对齐的情况下实现了超越更大模型的卓越空间推理与 3D 定位性能。
针对 3D 视觉语言模型因配对数据稀缺导致的几何信息退化问题,本文提出了 PointAlign 方法,通过引入特征级对齐正则化,在仅微调轻量级投影器和 LoRA 适配器的情况下,有效监督中间点云令牌以保留细粒度 3D 几何语义信息,从而显著提升了分类与描述任务的性能。
本文提出了名为 DiffTrans 的可微渲染框架,通过结合 FlexiCubes 几何表示、环境光辐射场以及基于 CUDA 的高效递归可微光线追踪器,实现了在复杂场景中透明物体几何与材质的端到端高精度分解与重建。
本文提出了 Query-Conditioned Gaussian Splatting (QCGS) 框架,通过融合自动气象站观测与卫星影像,利用雷达点提案网络与隐式神经表示实现了对降水区域的选择性渲染,从而在实时生成高分辨率降水场方面显著优于传统格网产品。
本文提出了名为 InstructX2X 的可解释局部编辑模型,通过区域特异性编辑和引导图技术,在防止非预期属性改变的同时生成高质量的可解释反事实医学图像,并构建了专家验证的 MIMIC-EDIT-INSTRUCTION 数据集以推动该领域发展。