cs.CV papers | Gist.Science

GIFT: Global Irreplaceability Frame Targeting for Efficient Video Understanding

Het paper introduceert GIFT, een trainingsvrij raamwerk dat de rekenkosten voor video-interpretatie verlaagt door via een nieuwe 'irreplaceability'-score en een adaptieve strategie de meest cruciale frames te selecteren, wat leidt tot aanzienlijk betere prestaties dan uniforme steekproeven.

Junpeng Ma, Sashuai Zhou, Guanghao Li, Xin Gao, Yue Cao, Hengyu Zeng, Yuxiang Yan, Zhibin Wang, Jun Song, Bo Zheng, Shanghang Zhang, Jian Pu2026-03-27💻 cs

Z-Erase: Enabling Concept Erasure in Single-Stream Diffusion Transformers

Z-Erase is de eerste methode die conceptverwijdering mogelijk maakt in single-stream diffusion transformers door een gestroomde ontkoppelingsframework en Lagrangiaans-gestuurde adaptieve modulatie te introduceren, waardoor het probleem van generatie-inzakking wordt opgelost en de prestaties op het state-of-the-art niveau worden gebracht.

Nanxiang Jiang, Zhaoxin Fan, Baisen Wang, Daiheng Gao, Junhang Cheng, Jifeng Guo, Yalan Qin, Yeying Jin, Hongwei Zheng, Faguo Wu, Wenjun Wu2026-03-27💻 cs

Bridging Perception and Reasoning: Token Reweighting for RLVR in Multimodal LLMs

Dit artikel introduceert Token-Reweighting (ToR), een strategie die de onderlinge afhankelijkheid van waarnemings- en redeneertokens in multimodale taalmodellen expliciet modelleert om de prestaties van Reinforcement Learning with Verifiable Rewards (RLVR) te verbeteren en zo state-of-the-art resultaten te behalen op multimodale redeneerbenchmarks.

Jinda Lu, Junkang Wu, Jinghan Li, Kexin Huang, Shuo Yang, Guoyin Wang, Jiancan Wu, Xiang Wang, Xiangnan He2026-03-27💻 cs

Learning domain-invariant features through channel-level sparsification for Out-Of Distribution Generalization

Dit paper introduceert Hierarchical Causal Dropout (HCD), een methode die kanaalniveau-sparsificatie en een Matrix-gebaseerde wederzijdse informatie-objectief combineert om causale kenmerken te scheiden van spurious features en zo de generalisatie buiten de verdeling (OOD) te verbeteren.

Haoran Pei, Yuguang Yang, Kexin Liu, Juan Zhang, Baochang Zhang2026-03-27🤖 cs.AI

Visual Attention Drifts,but Anchors Hold:Mitigating Hallucination in Multimodal Large Language Models via Cross-Layer Visual Anchors

Deze paper introduceert CLVA, een trainingsvrije methode die hallucinaties in multimodale grote taalmodellen aanpakt door de regressie van aandacht naar vroege visuele ruis te corrigeren via het versterken van visuele ankers in tussenliggende lagen.

Chengxu Yang, Jingling Yuan, Chuang Hu, Jiawei Jiang2026-03-27💻 cs

THEMIS: Towards Holistic Evaluation of MLLMs for Scientific Paper Fraud Forensics

Dit paper introduceert THEMIS, een nieuw multimodaal benchmark voor het grondig evalueren van grote taalmodellen op hun vermogen tot visuele fraudeherkenning in complexe, realistische academische scenario's, waarbij experimenten aantonen dat zelfs de beste modellen nog aanzienlijke beperkingen hebben.

Tzu-Yen Ma, Bo Zhang, Zichen Tang, Junpeng Ding, Haolin Tian, Yuanze Li, Zhuodi Hao, Zixin Ding, Zirui Wang, Xinyu Yu, Shiyao Peng, Yizhuo Zhao, Ruomeng Jiang, Yiling Huang, Peizhi Zhao, Jiayuan Chen (…)2026-03-27💻 cs

Pixelis: Reasoning in Pixels, from Seeing to Acting

Het artikel introduceert Pixelis, een pixel-gebaseerd agentensysteem dat visuele intelligentie verbetert door direct te handelen op afbeeldingen en video's via uitvoerbare bewerkingen en te leren uit de gevolgen daarvan, wat leidt tot betere prestaties op benchmarks en veilig aanpassingsvermogen zonder externe feedback.

Yunpeng Zhou2026-03-27🤖 cs.AI

Label What Matters: Modality-Balanced and Difficulty-Aware Multimodal Active Learning

Dit paper introduceert RL-MBA, een reinforcement learning-framework dat multimodaal actief leren verbetert door dynamisch modale bijdragen te balanceren en steekproefmoeilijkheid te schatten, waardoor de classificatie-accuraatheid en modaliteitsfairness onder beperkte labelbudgetten aanzienlijk stijgen.

Yuqiao Zeng, Xu Wang, Tengfei Liang, Yiqing Hao, Yi Jin, Hui Yu2026-03-27💻 cs

MSRL: Scaling Generative Multimodal Reward Modeling via Multi-Stage Reinforcement Learning

Dit paper introduceert MSRL, een multi-stadia versterkingsleerbenadering die schaalbare training van generatieve multimodale beloningsmodellen mogelijk maakt door eerst op tekstuele data te leren en deze vaardigheden vervolgens over te dragen naar multimodale taken, waardoor prestaties aanzienlijk verbeteren zonder extra multimodale voorkeurannotaties.

Chenglong Wang, Yifu Huo, Yang Gan, Qiaozhi He, Qi Meng, Bei Li, Yan Wang, Junfu Liu, Tianhua Zhou, Jingbo Zhu, Tong Xiao2026-03-27💻 cs

MoireMix: A Formula-Based Data Augmentation for Improving Image Classification Robustness

Dit paper introduceert MoireMix, een lichtgewicht, formulegebaseerde data-augmentatiemethode die analytische Moiré-interferentiepatronen gebruikt om de robuustheid van beeldclassificatiemodellen te verbeteren zonder externe datasets of significante rekentijd.

Yuto Matsuo, Yoshihiro Fukuhara, Yuki M. Asano, Rintaro Yanagi, Hirokatsu Kataoka, Akio Nakamura2026-03-27🤖 cs.AI

← Vorige Volgende →