Gist.Science
今日搜索里程碑关于TestimonialsSign inDigest
  • EN
  • NL
  • DE
  • FR
  • ES
  • 中文
  • 日本語
  • 한국어
  • PT
  • IT
👁️ Category

cs.CV

8784 篇论文

Neural Discrimination-Prompted Transformers for Efficient UHD Image Restoration and Enhancement

本文提出了一种名为 UHDPromer 的神经判别提示 Transformer,通过引入神经判别先验来挖掘高低分辨率特征间的差异,并结合超分辨率引导重建策略,在低光照增强、去雾和去模糊等 UHD 图像恢复任务中实现了兼具最佳计算效率与顶尖性能的效果。

Cong Wang, Jinshan Pan, Liyan Wang + 2 more2026-03-03💻 cs

PPC-MT: Parallel Point Cloud Completion with Mamba-Transformer Hybrid Architecture

本文提出了名为 PPC-MT 的并行点云补全框架,通过结合主成分分析(PCA)引导的几何结构化并行策略与 Mamba-Transformer 混合架构,在保持计算高效性的同时显著提升了点云重建的均匀性、细节保真度及整体精度。

Jie Li, Shengwei Tian, Long Yu + 1 more2026-03-03🤖 cs.AI

MMTA: Multi Membership Temporal Attention for Fine-Grained Stroke Rehabilitation Assessment

本文提出了多成员时序注意力(MMTA)模型,通过允许帧在单层内关注多个局部时序窗口并融合竞争上下文,显著提升了细粒度康复动作分割的边界敏感度与评估精度,且能统一处理视频与 IMU 数据。

Halil Ismail Helvaci, Justin Huber, Jihye Bae + 1 more2026-03-03💻 cs

Uncertainty-Aware Concept and Motion Segmentation for Semi-Supervised Angiography Videos

本文提出了一种名为 SMART 的半监督学习框架,通过结合 SAM3 的提示性概念分割、运动感知一致性以及渐进式置信度正则化,有效解决了 X 射线冠状动脉造影视频中血管边界模糊、运动复杂及标注数据稀缺的难题,实现了在少标注条件下的高精度血管分割。

Yu Luo, Guangyu Wei, Yangfan Li + 2 more2026-03-03💻 cs

Solving a Nonlinear Blind Inverse Problem for Tagged MRI with Physics and Deep Generative Priors

本文提出了一种结合 MR 物理机制与深度生成先验的非线性盲逆问题框架,首次统一解决了标记 MRI 中的解剖图像恢复、高分辨率电影图像合成及运动估计任务,显著提升了成像质量与运动追踪精度。

Zhangxing Bian, Shuwen Wei, Samuel W. Remedios + 4 more2026-03-03⚡ eess

VEMamba: Efficient Isotropic Reconstruction of Volume Electron Microscopy with Axial-Lateral Consistent Mamba

本文提出了 VEMamba 框架,通过创新的轴向 - 侧向分块选择性扫描模块和动态权重聚合模块,结合动量对比学习模拟真实退化,实现了体积电子显微镜数据的高效各向同性重建,在保持低计算成本的同时显著提升了重建质量与轴向 - 侧向一致性。

Longmi Gao, Pan Gao2026-03-03💻 cs

pySpatial: Generating 3D Visual Programs for Zero-Shot Spatial Reasoning

本文提出了无需微调的零样本视觉编程框架 pySpatial,通过让多模态大模型生成 Python 代码调用 3D 空间工具,将 2D 图像转化为可探索的 3D 场景,从而显著提升了模型在复杂空间推理及机器人导航任务中的表现。

Zhanpeng Luo, Ce Zhang, Silong Yong + 6 more2026-03-03💻 cs

UD-SfPNet: An Underwater Descattering Shape-from-Polarization Network for 3D Normal Reconstruction

本文提出了一种名为 UD-SfPNet 的水下去散射偏振网络,通过统一建模去散射与形状恢复任务并引入色彩嵌入及细节增强模块,显著提升了复杂水下环境中的 3D 表面法线重建精度。

Puyun Wang, Kaimin Yu, Huayang He + 3 more2026-03-03💻 cs

On the Exact Algorithmic Extraction of Finite Tesselations Through Prime Extraction of Minimal Representative Forms

本文提出了一种利用分层算法、复合发现机制及素数提取技术,在有限平面网格中精确识别轴对齐矩形平铺模式的确定性方法,填补了符号网格分析领域的空白,并适用于谜题求解等离散符号域任务。

Sushish Baral, Paulo Garcia, Warisa Sritriratanarak2026-03-03💻 cs

VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection

本文提出了首个无需传感器几何信息的 VGGT-Det 框架,通过引入注意力引导查询生成和查询驱动特征聚合机制,有效挖掘 VGGT 内部语义与几何先验,显著提升了多视角室内 3D 目标检测的性能。

Yang Cao, Feize Wu, Dave Zhenyu Chen + 3 more2026-03-03💻 cs

DriveCode: Domain Specific Numerical Encoding for LLM-Based Autonomous Driving

本文提出了 DriveCode,一种将数值映射为专用嵌入而非离散文本令牌的新型编码方法,旨在解决大语言模型在自动驾驶中数值推理精度不足的问题,并在多个数据集上验证了其在轨迹预测和控制信号生成方面的优越性能。

Zhiye Wang, Yanbo Jiang, Rui Zhou + 5 more2026-03-03💻 cs

The Aftermath of DrawEduMath: Vision Language Models Underperform with Struggling Students and Misdiagnose Errors

该研究通过一年期的评估发现,尽管视觉语言模型在数学解题方面表现尚可,但在识别和诊断学生(尤其是学习困难者)的手写错误方面存在严重不足,表明其当前发展路径尚不足以有效支持教育应用场景。

Li Lucy, Albert Zhang, Nathan Anderson + 2 more2026-03-03💬 cs.CL

Seeing Beyond 8bits: Subjective and Objective Quality Assessment of HDR-UGC Videos

本文针对高动态范围(HDR)用户生成内容视频的质量评估挑战,构建了包含 4.4 万条视频的大规模主观数据集 Beyond8Bits,并提出了首个基于多模态大语言模型的 HDR-Q 评估框架,通过引入 HDR 感知视觉编码器和强化学习微调策略 HAPO,实现了在该领域的最先进性能。

Shreshth Saini, Bowen Chen, Neil Birkbeck + 3 more2026-03-03🤖 cs.AI

StegoNGP: 3D Cryptographic Steganography using Instant-NGP

本文提出了 StegoNGP,一种基于 Instant-NGP 哈希编码的无参数 3D 隐写术方法,它通过密钥控制将完整的高容量 3D 场景隐藏于单一模型权重中,在保持架构不可区分性的同时实现了高鲁棒性与强安全性。

Wenxiang Jiang, Yujun Lan, Shuo Zhao + 3 more2026-03-03💻 cs

When Does Margin Clamping Affect Training Variance? Dataset-Dependent Effects in Contrastive Forward-Forward Learning

该论文发现对比前向前向(CFF)学习中正样本对的边际钳位(clamping)操作会导致 CIFAR-10 等特定数据集上的训练方差显著增加,其根源在于饱和效应引起的梯度截断,而改用梯度中性的减法形式可消除此方差膨胀且不影响平均精度。

Joshua Steier2026-03-03🤖 cs.LG

Decoupling Motion and Geometry in 4D Gaussian Splatting

本文提出了名为 VeGaS 的新型 4D 高斯泼溅框架,通过引入伽利略剪切矩阵将运动与几何属性解耦,并辅以几何变形网络,从而在动态场景重建中实现了更复杂的非线性运动建模并显著减少了视觉伪影,达到了最先进的性能。

Yi Zhang, Yulei Kang, Jian-Fang Hu2026-03-03💻 cs

EraseAnything++: Enabling Concept Erasure in Rectified Flow Transformers Leveraging Multi-Object Optimization

本文提出了 EraseAnything++,一种针对基于流匹配和 Transformer 架构的图像及视频生成模型的概念擦除统一框架,通过多目标优化、隐式梯度手术及注意力正则化等策略,在有效移除不良概念的同时显著提升了生成质量与时序一致性。

Zhaoxin Fan, Nanxiang Jiang, Daiheng Gao + 2 more2026-03-03🤖 cs.AI

Fake It Right: Injecting Anatomical Logic into Synthetic Supervised Pre-training for Medical Segmentation

本文提出了一种解剖学感知的合成监督预训练框架,通过引入去标识化的真实分割掩码库和结构感知的器官布局策略,有效弥补了传统公式驱动合成数据在形态与拓扑上的缺陷,从而在无需真实患者数据的前提下显著提升了医学图像分割的性能。

Jiaqi Tang, Mengyan Zheng, Shu Zhang + 2 more2026-03-03💻 cs

Event-Anchored Frame Selection for Effective Long-Video Understanding

本文提出了一种名为事件锚定帧选择(EFS)的训练无关模块,通过利用自监督 DINO 嵌入将视频划分为语义事件并选取查询相关锚点,结合自适应最大边际相关性(MMR)策略优化关键帧选取,从而在不增加训练成本的情况下显著提升了大视觉语言模型在长视频理解任务中的性能。

Wang Chen, Yongdong Luo, Yuhui Zeng + 5 more2026-03-03💻 cs

The Texture-Shape Dilemma: Boundary-Safe Synthetic Generation for 3D Medical Transformers

本文针对公式驱动合成学习在医学图像中因纹理与形状冲突导致的边界混叠问题,提出了一种物理启发的空间解耦合成框架,通过构建梯度屏蔽缓冲区与注入物理驱动频谱纹理,在无需真实数据的情况下显著提升了 3D 医学 Transformer 的解剖结构分割性能。

Jiaqi Tang, Weixuan Xu, Shu Zhang + 2 more2026-03-03💻 cs
← 上一页下一页 →

喜欢这篇解读?每周收到精选推荐。

请查收邮箱确认订阅。

出了点问题,再试一次?

无垃圾邮件,随时退订。

Gist.Science
关于Testimonials隐私DisclaimerContact

感谢 arXiv、bioRxiv 和 medRxiv 提供的开放获取互操作性。

Gist.Science is a product of Bition B.V.
Verdunplein 17, 5627SZ Eindhoven
KvK: 95743731 | BTW-ID: NL867271966B01
mail@gist.science

荷兰制造 🇳🇱