cs.CV 篇论文 | Gist.Science

CHAMMI-75: Pre-training multi-channel models with heterogeneous microscopy images

本文介绍了 CHAMMI-75 数据集，该数据集汇集了来自 75 项不同研究的异质多通道显微图像，旨在通过训练通道自适应模型来解决现有细胞形态量化模型因成像通道不匹配而无法跨研究复用的问题。

Vidit Agrawal, John Peters, Tyler N. Thompson + 13 more2026-03-04🤖 cs.LG

UniDrive-WM: Unified Understanding, Planning and Generation World Model For Autonomous Driving

本文提出了 UniDrive-WM，一种基于统一视觉语言模型的世界模型，通过在一个架构中联合执行驾驶场景理解、轨迹规划及轨迹条件未来图像生成，利用生成预测作为监督信号来相互增强各模块性能，从而在 Bench2Drive 基准测试中显著提升了自动驾驶的规划精度并降低了碰撞率。

Zhexiao Xiong, Xin Ye, Burhan Yaman + 5 more2026-03-04💻 cs

Hot-Start from Pixels: Low-Resolution Visual Tokens for Chinese Language Modeling

该论文提出了一种利用极低分辨率（如 8x8 像素）的汉字灰度图像替代传统索引令牌进行中文语言建模的方法，实验表明其不仅达到了与基线相当的预测准确率，还展现出显著的训练初期“热启动”优势。

Shuyang Xiang, Hao Guan2026-03-04🤖 cs.AI

Unsupervised Deformable Image Registration with Local-Global Attention and Image Decomposition

本文提出了一种名为 LGANet++ 的无监督可变形图像配准框架，通过结合新颖的局部 - 全局注意力机制与特征交互融合技术，在跨患者、跨时间及跨模态 CT-MR 等多种临床场景下显著提升了配准精度与泛化能力，并优于现有最先进方法。

Zhengyong Huang, Xingwen Sun, Xuting Chang + 5 more2026-03-04⚡ eess

Graph Recognition via Subgraph Prediction

本文提出了一种名为 GraSP（基于子图预测的图识别）的通用方法，旨在解决视觉图识别任务缺乏统一框架的问题，该方法无需针对特定任务进行修改即可在多种合成基准和真实世界应用中实现跨场景的图识别。

André Eberhard, Gerhard Neumann, Pascal Friederich2026-03-04🤖 cs.LG

MLV-Edit: Towards Consistent and Highly Efficient Editing for Minute-Level Videos

MLV-Edit 提出了一种无需训练的基于光流的框架，通过分块编辑策略结合速度融合与注意力汇聚模块，有效解决了长视频编辑中的计算开销大及全局时序一致性难以维持的挑战。

Yangyi Cao, Yuanhang Li, Lan Chen + 1 more2026-03-04💻 cs

VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

本文提出了 VideoTemp-o3，一种统一了视频定位与问答的代理思考框架，通过联合建模、统一掩码机制及专用奖励策略，有效解决了长视频理解中均匀采样导致的性能下降与幻觉问题，并实现了精准的按需剪辑与定位修正。

Wenqi Liu, Yunxiao Wang, Shijie Ma + 14 more2026-03-04🤖 cs.AI

WristMIR: Coarse-to-Fine Region-Aware Retrieval of Pediatric Wrist Radiographs with Radiology Report-Driven Learning

本文提出了 WristMIR 框架，通过利用结构化放射学报告驱动的区域感知学习及两阶段检索策略，实现了无需手动图像标注的儿科腕部 X 光片细粒度检索，显著提升了骨折诊断的准确性与临床相关性。

Mert Sonmezer, Serge Vasylechko, Duygu Atasoy + 2 more2026-03-04💻 cs

The Garbage Dataset (GD): A Multi-Class Image Benchmark for Automated Waste Segregation

本文介绍了名为“垃圾数据集（GD）”的公开多类别图像基准，该数据集包含 12,259 张涵盖 10 类常见废弃物的标注图像，并通过严格的验证与多种深度学习模型的性能及碳排放评估，证明了 EfficientNetV2S 在 95.13% 准确率下的优越性，同时揭示了类别不平衡和背景复杂性等挑战，旨在推动自动化垃圾分类研究及环境可持续性应用。

Suman Kunwar2026-03-04💻 cs

EO-VAE: Towards A Multi-sensor Tokenizer for Earth Observation Data

该论文提出了 EO-VAE，这是一种基于动态超网络的单模型多传感器变分自编码器，能够灵活编码不同通道组合的地球观测数据，并在 TerraMesh 数据集上实现了优于现有方法的重建保真度，从而为遥感领域的潜在生成建模奠定了坚实基础。

Nils Lehmann, Yi Wang, Zhitong Xiong + 1 more2026-03-04💻 cs

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

本文介绍了 MedXIAOHE，一种通过实体感知持续预训练、强化学习与工具增强智能体训练，以及证据导向的低幻觉报告生成等综合策略构建的医疗多模态大模型，其在多项基准测试中超越了领先的闭源系统，显著提升了医疗理解、推理及临床应用的可靠性。

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

UniTAF: A Modular Framework for Joint Text-to-Speech and Audio-to-Face Modeling

本文提出了一种名为 UniTAF 的模块化框架，通过将文本转语音（TTS）与音频到面部（A2F）模型统一，实现了内部特征迁移以增强音画一致性，并从系统设计角度验证了复用 TTS 中间表示进行语音与表情协同建模的可行性。

Qiangong Zhou, Nagasaka Tomohiro2026-03-04⚡ eess

CRAFT-LoRA: Content-Style Personalization via Rank-Constrained Adaptation and Training-Free Fusion

CRAFT-LoRA 通过秩约束微调、提示引导的专家编码器聚合以及免训练的自适应引导方案，有效解决了现有 LoRA 组合中内容与风格纠缠及融合不稳定的问题，实现了无需额外重训练即可兼顾高保真内容与风格一致性的个性化图像生成。

Yu Li, Yujun Cai, Chi Zhang2026-03-04💻 cs

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

本文提出了名为 CFE-Bench 的多模态基准测试，该测试基于 20 多个 STEM 领域的真实大学考题与教师参考答案，旨在评估大语言模型的推理能力，研究发现尽管前沿模型表现尚可，但在多步推理中仍难以维持中间状态的正确性且步骤效率较低。

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

From Pairs to Sequences: Track-Aware Policy Gradients for Keypoint Detection

本文提出了名为 TraqPoint 的端到端强化学习框架，通过将关键点检测重构为序列决策问题并引入轨迹感知奖励机制，直接优化关键点在图像序列中的长期可跟踪性，从而在稀疏匹配基准测试中显著超越了现有最先进方法。

Yepeng Liu, Hao Li, Liwen Yang + 8 more2026-03-04💻 cs

Training-Free Multi-Concept Image Editing

本文提出了无需训练的概念蒸馏采样（CDS）框架，通过结合稳定的蒸馏骨干与动态加权机制，首次实现了在无需参考样本的情况下对多概念图像进行保持实例保真度的编辑，并在多个基准测试中超越了现有方法。

Niki Foteinopoulou, Ignas Budvytis, Stephan Liwicki2026-03-04💻 cs

Uni-Animator: Towards Unified Visual Colorization

本文提出了基于扩散变换器（DiT）的 Uni-Animator 框架，通过实例块嵌入增强视觉参考、物理特征强化细节保留以及基于草图的动态 RoPE 编码提升时序一致性，成功实现了图像与视频草图着色任务的统一，在保持高保真细节和鲁棒时序连贯性的同时达到了与专用方法相当的性能。

Xinyuan Chen, Yao Xu, Shaowen Wang + 2 more2026-03-04💻 cs

3D Modality-Aware Pre-training for Vision-Language Model in MRI Multi-organ Abnormality Detection

本文提出了名为 MedMAP 的医学模态感知预训练框架，通过引入模态感知对齐机制并基于新构建的包含 7392 对 3D MRI 体积与报告数据的 MedMoM-MRI3D 数据集进行微调，显著提升了视觉语言模型在 3D MRI 多器官异常检测任务中的性能。

Haowen Zhu, Ning Yin, Xiaogen Zhou2026-03-04🤖 cs.AI

APPO: Attention-guided Perception Policy Optimization for Video Reasoning

本文提出了注意力引导的感知策略优化（APPO）算法，通过利用令牌级密集奖励优化聚焦关键视频帧的感知令牌，在无需昂贵细粒度标注的情况下，以低成本显著提升了视频推理模型的细粒度感知能力。

Henghui Du, Chang Zhou, Xi Chen + 1 more2026-03-04💻 cs

Leveraging GenAI for Segmenting and Labeling Centuries-old Technical Documents

本文介绍了利用 SAM2、Florence2、ChatGPT 结合专用本体与术语表，对 16 至 17 世纪造船文献进行图像分割与标注的研究，旨在通过生成式人工智能技术解决历史文档数据稀缺与领域专业化难题，从而提升珍贵文献的策展、编目及检索效率。

Carlos Monroy, Benjamin Navarro2026-03-04⚡ eess