cs.CV 篇论文 | Gist.Science

MixerCSeg: An Efficient Mixer Architecture for Crack Segmentation via Decoupled Mamba Attention

本文提出了 MixerCSeg，一种通过 TransMixer 架构融合 CNN 局部纹理、Transformer 全局依赖与 Mamba 序列上下文能力，并结合方向引导边缘门控卷积与空间细化多尺度融合模块，从而在极低计算成本下实现裂缝分割最先进性能的混合架构。

Zilong Zhao, Zhengming Ding, Pei Niu + 2 more2026-03-03🤖 cs.AI

TIMI: Training-Free Image-to-3D Multi-Instance Generation with Spatial Fidelity

本文提出了 TIMI，一种无需训练即可实现高空间保真度的图像到 3D 多实例生成框架，通过实例感知分离引导（ISG）和空间稳定几何自适应更新（SGU）模块，在无需额外训练开销的情况下有效解决了实例纠缠问题并提升了全局布局与局部实例的生成质量。

Xiao Cai, Lianli Gao, Pengpeng Zeng + 3 more2026-03-03💻 cs

Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

本文提出了一种名为 AOT 的免训练方法，通过利用局部和全局上下文优化，在帧内和帧间建立锚点并借助最优传输技术聚合信息，从而在显著降低视频大语言模型计算成本的同时保持时空保真度。

Jinlong Li, Liyuan Jiang, Haonan Zhang + 1 more2026-03-03💻 cs

UniTalking: A Unified Audio-Video Framework for Talking Portrait Generation

本文提出了 UniTalking，一种基于多模态 Transformer 块和预训练视频先验的统一端到端扩散框架，旨在生成高保真、唇形同步且支持个性化语音克隆的说话人像视频，其性能在多项指标上超越了现有开源方法。

Hebeizi Li, Zihao Liang, Benyuan Sun + 4 more2026-03-03💻 cs

SeaVIS: Sound-Enhanced Association for Online Audio-Visual Instance Segmentation

本文提出了首个用于在线音视频实例分割的 SeaVIS 框架，通过因果交叉注意力融合模块实现高效流式处理，并利用音频引导对比学习策略有效区分发声与静默状态，从而在 AVISeg 数据集上超越了现有最先进模型。

Yingjian Zhu, Ying Wang, Yuyang Hong + 5 more2026-03-03💻 cs

Unifying Language-Action Understanding and Generation for Autonomous Driving

本文提出了名为 LinkVLA 的新架构，通过统一语言与动作的离散码本、引入动作理解辅助任务以及采用高效的两阶段粗到细生成策略，有效解决了现有视觉 - 语言 - 动作模型中指令与动作对齐不佳及推理效率低下的问题，从而显著提升了自动驾驶的指令遵循能力与整体性能。

Xinyang Wang, Qian Liu, Wenjie Ding + 7 more2026-03-03💻 cs

Revisiting Global Token Mixing in Task-Dependent MRI Restoration: Insights from Minimal Gated CNN Baselines

该论文通过构建受控基准测试，揭示了全局 Token 混合机制在 MRI 恢复任务中的效用具有任务依赖性：在物理约束较强的重建和超分辨率任务中，轻量级局部门控 CNN 已具备竞争力，而仅在存在显著空间异方差噪声的去噪任务中，全局 Token 混合模型才展现出显著优势。

Xiangjian Hou, Chao Qin, Chang Ni + 3 more2026-03-03⚡ eess

Deepfake Forensics Adapter: A Dual-Stream Network for Generalizable Deepfake Detection

本文提出了名为 Deepfake Forensics Adapter (DFA) 的新型双流网络框架，该框架通过冻结预训练 CLIP 模型参数并集成全局特征适配器、局部异常流及交互融合分类器，在无需微调基础模型的情况下显著提升了深度伪造检测的泛化能力，并在 DFDC 等基准测试中取得了最先进的性能表现。

Jianfeng Liao, Yichen Wei, Raymond Chan Ching Bon + 3 more2026-03-03💻 cs

VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models

本文提出了 VidDoS，这是首个针对视频大语言模型的通用拒绝服务攻击框架，它通过掩码教师强制和拒绝惩罚等机制生成与实例无关的触发器，导致模型推理延迟增加 15 倍以上并引发严重的安全隐患。

Duoxun Tang, Dasen Dai, Jiyao Wang + 3 more2026-03-03🤖 cs.AI

From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents

该论文提出了受人类模糊痕迹理论启发的 MM-Mem 架构，通过构建分层多模态记忆并结合语义信息瓶颈优化策略，实现了从精细感知痕迹到高层语义图式的渐进式蒸馏，从而有效解决了长时程视频理解中的上下文限制与记忆效率难题。

Niu Lian, Yuting Wang, Hanshu Yao + 5 more2026-03-03💬 cs.CL

UltraStar: Semantic-Aware Star Graph Modeling for Echocardiography Navigation

本文提出了 UltraStar 模型，通过将超声心动图探头导航从路径回归重构为基于锚点的全局定位，利用语义感知的星形图结构有效建模历史关键帧，从而在含噪探索轨迹中实现更鲁棒且可扩展的精准导航。

Teng Wang, Haojun Jiang, Chenxi Li + 6 more2026-03-03💻 cs

WildCross: A Cross-Modal Large Scale Benchmark for Place Recognition and Metric Depth Estimation in Natural Environments

本文提出了 WildCross，这是一个包含超过 47.6 万帧序列 RGB 图像、半稠密深度与法线标注及精确 6DoF 位姿的大规模跨模态基准数据集，旨在解决现有数据集在结构化城市环境中占主导而缺乏非结构化自然环境数据的问题，从而推动机器人跨模态场景定位与度量深度估计技术的发展。

Joshua Knights, Joseph Reid, Kaushik Roy + 3 more2026-03-03💻 cs

SCATR: Mitigating New Instance Suppression in LiDAR-based Tracking-by-Attention via Second Chance Assignment and Track Query Dropout

本文提出了 SCATR 模型，通过引入“二次分配”和“轨迹查询丢弃”两种架构无关的训练策略，有效缓解了基于 LiDAR 的跟踪 - 注意力框架中的新实例抑制问题，从而在 nuScenes 基准上实现了最先进的性能并显著缩小了其与检测 - 跟踪方法的差距。

Brian Cheong, Letian Wang, Sandro Papais + 1 more2026-03-03💻 cs

ATA: Bridging Implicit Reasoning with Attention-Guided and Action-Guided Inference for Vision-Language Action Models

本文提出了一种名为 ATA 的训练免框架，通过互补的注意力引导与动作引导策略，在不依赖额外数据标注或重新训练的情况下，将隐式推理引入视觉 - 语言 - 动作（VLA）模型，从而在提升任务成功率与鲁棒性的同时保持了高效的推理性能。

Cheng Yang, Jianhao Jiao, Lingyi Huang + 8 more2026-03-03🤖 cs.AI

Radiometrically Consistent Gaussian Surfels for Inverse Rendering

该论文提出了 Radiometrically Consistent Gaussian Surfels (RadioGS) 框架，通过引入辐射度一致性约束解决高斯泼溅在反渲染中难以分离材质与复杂全局光照（特别是间接光照）的问题，实现了在保持高效渲染的同时显著提升重光照能力和反渲染精度。

Kyu Beom Han, Jaeyoon Kim, Woo Jae Kim + 2 more2026-03-03💻 cs

PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval

本文提出了首个基于真实个人相册的基准测试 PhotoBench，旨在推动照片检索从单纯的视觉匹配转向基于多源信息融合的个性化意图驱动推理，并揭示了现有统一嵌入模型与智能体系统在应对此类复杂任务时的关键局限。

Tianyi Xu, Rong Shan, Junjie Wu + 11 more2026-03-03🤖 cs.AI

Rate-Distortion Signatures of Generalization and Information Trade-offs

该论文提出了一种基于率失真理论的框架，通过提取表征准确性与鲁棒性权衡的几何特征（斜率与曲率），揭示了人类视觉系统比现代深度网络具有更平滑灵活的泛化特性，并表明该几何视角能有效超越传统精度指标来评估不同系统的泛化行为。

Leyla Roksan Caglar, Pedro A. M. Mediano, Baihan Lin2026-03-03🧬 q-bio

Downstream Task Inspired Underwater Image Enhancement: A Perception-Aware Study from Dataset Construction to Network Design

该论文提出了一种受下游任务启发的水下图像增强（DTI-UIE）框架，通过构建任务驱动的数据集、设计双分支网络及任务感知损失函数，有效解决了现有方法忽视高频细节的问题，显著提升了水下图像在语义分割、目标检测等下游任务中的识别性能。

Bosen Lin, Feng Gao, Yanwei Yu + 2 more2026-03-03⚡ eess

Neural Operator-Grounded Continuous Tensor Function Representation and Its Applications

该论文提出了一种基于神经算子的连续张量函数表示（NO-CTR），通过引入连续非线性模-n 算子替代传统离散线性运算，实现了对复杂真实世界数据更精确的连续表征，并在多维数据补全任务中展现出优越性能。

Ruoyang Su, Xi-Le Zhao, Sheng Liu + 3 more2026-03-03🔢 math

FireRed-OCR Technical Report

本文提出了 FireRed-OCR 框架，通过构建“几何 + 语义”数据工厂和采用包含多任务预对齐、专用微调及格式约束 GRPO 的三阶段渐进式训练策略，将通用视觉语言模型（基于 Qwen3-VL）转化为具备像素级精度的结构化文档解析专家，在 OmniDocBench v1.5 上取得了超越现有强基线的 SOTA 性能。

Hao Wu, Haoran Lou, Xinyue Li + 19 more2026-03-03⚡ eess