cs.CV 篇论文 | Gist.Science

MFP3D: Monocular Food Portion Estimation Leveraging 3D Point Clouds

本文提出了 MFP3D 框架，通过单目图像重建 3D 点云并结合 RGB 特征进行回归分析，实现了无需参考物或多视角输入的高精度食物份量估算。

Jinge Ma, Xiaoyan Zhang, Gautham Vinod + 3 more2026-03-03⚡ eess

Grounding-IQA: Grounding Multimodal Language Model for Image Quality Assessment

本文针对现有基于多模态大语言模型的图像质量评估方法缺乏细粒度感知的问题，提出了结合定位与指代的“Grounding-IQA"新范式，构建了包含 16 万条数据的 GIQA-160K 数据集及 GIQA-Bench 基准，实现了具备精确区域定位能力的细粒度图像质量描述与问答评估。

Zheng Chen, Xun Zhang, Wenbo Li + 7 more2026-03-03💻 cs

DAWN-FM: Data-Aware and Noise-Informed Flow Matching for Solving Inverse Problems

本文提出了一种名为 DAWN-FM 的数据感知与噪声感知流匹配方法，通过显式嵌入数据与噪声信息并针对特定逆问题训练，有效解决了图像去模糊和断层扫描等任务中数据不完整或噪声干扰导致的病态问题，同时实现了精确重建与不确定性量化。

Shadab Ahamed, Eldad Haber2026-03-03⚡ eess

FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization

本文提出了 FiLo++ 方法，通过融合大语言模型生成的细粒度描述与可变形定位模块，有效解决了现有零样本和少样本异常检测中描述泛化性不足及定位精度低的问题，显著提升了模型在目标类别无标签或少量样本场景下的检测与定位性能。

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 3 more2026-03-03💻 cs

Polynomial, trigonometric, and tropical activations

本文提出了一种基于正交基（包括埃尔米特多项式、傅里叶三角函数及热带化多项式）的激活函数族，通过简单的方差保持初始化成功解决了深度模型中的激活与梯度爆炸/消失问题，实现了在 GPT-2 和 ConvNeXt 等大规模任务上的有效训练，并揭示了多项式激活网络的代数结构及其在微调任务中通过埃尔米特插值逼近经典激活函数的潜力。

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

Deep generative computed perfusion-deficit mapping of ischaemic stroke

该研究利用深度生成推理技术，仅基于超急性期 CT 血管造影（CTA）数据构建计算灌注缺损图，在无需已知病灶信息的情况下成功定位了缺血性卒中 NIHSS 亚评分的神经基质，揭示了新的神经依赖关系并验证了该方法在急性卒中临床表型分析中的巨大价值。

Chayanin Tangwiriyasakul, Pedro Borges, Guilherme Pombo + 8 more2026-03-03🧬 q-bio

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

该研究指出 CLIP 模型并非缺乏属性与对象的绑定信息，而是跨模态对齐未能有效保留这些信息，因此仅需通过简单的线性变换即可在无需重新训练编码器的情况下显著提升其跨模态绑定能力。

Darina Koishigarina, Arnas Uselis, Seong Joon Oh2026-03-03🤖 cs.LG

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

本文提出了首个涵盖视觉、音频和文本的“世界感知”（WorldSense）基准，通过 1,662 个高质量音视频同步视频及 3,172 个多轮问答对，系统评估了多模态大模型在真实场景下对多模态协同理解的现有能力与局限。

Jack Hong, Shilin Yan, Jiayin Cai + 3 more2026-03-03🤖 cs.AI

Precise Parameter Localization for Textual Generation in Diffusion Models

该论文通过注意力激活修补技术发现扩散模型中不到 1% 的参数（集中于注意力层）主导图像文本生成，并据此提出了一种仅微调这些局部参数即可提升文本生成能力、实现文本编辑及低成本抑制有毒文本生成的通用高效方法。

Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch + 2 more2026-03-03💻 cs

Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection

该论文提出了一种针对仇恨模因检测的鲁棒大模型自适应框架，通过增强领域内准确性与跨领域泛化能力，在六个数据集上实现了超越现有代理系统的性能，同时提升了模型的抗攻击能力与可解释性。

Jingbiao Mei, Jinghong Chen, Guangyu Yang + 2 more2026-03-03💬 cs.CL

Thicker and Quicker: A Jumbo Token for Fast Plain Vision Transformers

该论文提出了一种名为“Jumbo"的新型大令牌机制，通过减少普通令牌宽度并增加一个共享参数的全局大令牌，在保持纯 Vision Transformer 架构通用性与灵活性的同时，显著提升了模型在速度、精度及多种下游任务中的表现。

Anthony Fuller, Yousef Yassin, Daniel G. Kyrollos + 2 more2026-03-03💻 cs

MemeIntel: Explainable Detection of Propagandistic and Hateful Memes

该论文提出了名为 MemeIntel 的框架，通过构建首个大规模双语解释性数据集 MemeXplain 并采用多阶段优化策略训练视觉语言模型，显著提升了阿拉伯语宣传类及英语仇恨类模因的检测准确率与解释生成质量。

Mohamed Bayan Kmainasi, Abul Hasnat, Md Arid Hasan + 2 more2026-03-03💬 cs.CL

Openfly: A comprehensive platform for aerial vision-language navigation

本文提出了 OpenFly 平台，该平台集成了多种渲染引擎与自动化工具链，构建了包含 10 万条轨迹的大规模户外空中视觉语言导航基准数据集，并提出了关键帧感知的 OpenFly-Agent 模型，有效解决了该领域数据匮乏与仿真挑战。

Yunpeng Gao, Chenhui Li, Zhongrui You + 20 more2026-03-03💻 cs

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

本文提出了名为 LLaVE 的大语言与视觉嵌入模型框架，通过引入基于难度的加权对比学习有效解决了正负样本相似度分布重叠问题，在 MMEB 基准测试中实现了超越更大规模模型的最先进性能，并展现出优异的零样本泛化能力。

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

本文提出 Vision-R1，通过构建无需人工标注的高质量多模态思维链冷启动数据集，并结合渐进式思维抑制训练与 GRPO 强化学习策略，成功在大规模多模态数学数据上激发了模型的复杂推理能力，使其在 MathVista 等基准测试中达到接近 OpenAI O1 的顶尖水平。

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

本文提出了 SemHiTok，一种通过语义引导的层次化码本实现解耦训练的统一图像分词器，成功在多模态理解与生成任务中取得了像素重建与高层语义表征的最佳平衡。

Zisheng Chen, Chunwei Wang, Runhui Huang + 6 more2026-03-03🤖 cs.AI

cs.CV