cs.CV papers | Gist.Science

Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

Dit paper introduceert TFM, een aanvalsmethode die gebruikmaakt van een kwetsbaarheid in tekst-naar-video-modellen waarbij het specificeren van slechts begin- en eindframes leidt tot het genereren van schadelijke tussentijdse beelden, waardoor bestaande inhoudsfilters worden omzeild.

Moyang Chen, Zonghao Ying, Wenzhuo Xu, Quancheng Zou, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang2026-03-10💻 cs

Fine-Grained 3D Facial Reconstruction for Micro-Expressions

In dit paper wordt een nieuwe methode voor fijnkorrelige 3D-herconstructie van micro-expressies voorgesteld die, door globale dynamische kenmerken te combineren met lokaal verrijkte informatie, de uitdagingen van deze subtiele en vluchtige gezichtsbewegingen overwint en superieure resultaten behaalt ten opzichte van bestaande methoden.

Che Sun, Xinjie Zhang, Rui Gao, Xu Chen, Yuwei Wu, Yunde Jia2026-03-10💻 cs

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

Dit paper introduceert CAPL, een framework dat hallucinaties in multi-image taken van grote vision-language modellen aanpakt door cross-image attentie te kalibreren en voorkeurslering toe te passen om de interactie tussen afbeeldingen te verbeteren en de afhankelijkheid van tekstuele priors te verminderen.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

SODA: Sensitivity-Oriented Dynamic Acceleration for Diffusion Transformer

Dit paper introduceert SODA, een methode die de inferentie-efficiëntie van Diffusion Transformers verbetert door adaptieve caching en pruning te combineren op basis van een fijnmazig gevoeligheidsmodel, waardoor een betere balans wordt bereikt tussen versnelling en generatiekwaliteit dan met bestaande statische methoden.

Tong Shao, Yusen Fu, Guoying Sun, Jingde Kong, Zhuotao Tian, Jingyong Su2026-03-10💻 cs

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

MedSteer is een trainingsvrij framework dat actiesturing toepast op endoscopische diffusiemodellen om perfecte contrafactuele beeldparen te genereren waarbij alleen het pathologische concept verandert terwijl de anatomische structuur volledig behouden blijft, wat leidt tot superieure resultaten in data-augmentatie en polypdetectie.

Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le2026-03-10💻 cs

VirtueBench: Evaluating Trustworthiness under Uncertainty in Long Video Understanding

Dit paper introduceert VirtueBench, een benchmark die de betrouwbaarheid van Vision-Language-modellen onder onzekerheid evalueert door te testen of ze eerlijk kunnen weigeren te antwoorden wanneer essentiële frames ontbreken, in plaats van onbetrouwbare gokkern te maken die de huidige evaluatiemethoden vertekenen.

Xueqing Yu, Bohan Li, Yan Li, Zhenheng Yang2026-03-10💻 cs

Physics-Guided VLM Priors for All-Cloud Removal

Deze paper introduceert PhyVLM-CR, een nieuwe methode die semantische priors van een Vision-Language Model combineert met fysische restauratie om een uniforme en nauwkeurige verwijdering van zowel dunne als dikke wolken op te leveren zonder expliciete cloudtype-classificatie.

Liying Xu, Huifang Li, Huanfeng Shen2026-03-10💻 cs

Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network

Deze paper introduceert PSG-UIENet, een netwerk dat Retinex-fysica en taalkundige richtlijnen combineert om onderwaterbeelden te verbeteren, en introduceert hiervoor een nieuw multimodaal dataset en een semantische consistentieloss.

Shixuan Xu, Yabo Liu, Junyu Dong, Xinghui Dong2026-03-10💻 cs

Aligning What EEG Can See: Structural Representations for Brain-Vision Matching

Deze paper introduceert een nieuwe aanpak voor het decoderen van visuele informatie uit EEG-signalen door het concept van 'Neural Visibility' te gebruiken voor het selecteren van de juiste lagen in visuele modellen en een hiërarchisch fusieframework, wat leidt tot een aanzienlijke verbetering van de prestaties tot 84,6% op de THINGS-EEG-dataset.

Jingyi Tang, Shuai Jiang, Fei Su, Zhicheng Zhao2026-03-10💻 cs

mAVE: A Watermark for Joint Audio-Visual Generation Models

Dit paper introduceert mAVE, het eerste watermerksysteem dat audio en video cryptografisch aan elkaar koppelt in gezamenlijke generatieve modellen om de kwetsbaarheid voor 'swap-aanvallen' te elimineren en zo de reputatie van leveranciers te beschermen.

Luyang Si, Leyi Pan, Lijie Wen2026-03-10💻 cs

Facial Expression Generation Aligned with Human Preference for Natural Dyadic Interaction

Deze paper introduceert een methode voor het genereren van gezichtsuitdrukkingen die zijn afgestemd op menselijke voorkeuren voor natuurlijke interactie, door menselijke feedback te integreren in een gesloten feedbacklus die een visueel-taal-actie model combineert met versterkende leerstrategieën.

Xu Chen, Rui Gao, Xinjie Zhang, Haoyu Zhang, Che Sun, Zhi Gao, Yuwei Wu, Yunde Jia2026-03-10💻 cs

NuNext: Reframing Nucleus Detection as Next-Point Detection

Het artikel NuNext introduceert een nieuwe methode voor nucleaire detectie in histopathologie die het probleem herschrijft als next-point detectie met een multimodaal groot taalmodel, gebruikmakend van twee trainingsfasen met ruimtelijke zachte supervisie en versterkingsleer om de prestaties op negen benchmarks aanzienlijk te verbeteren.

Zhongyi Shui, Honglin Li, Xiaozhong Ji, Ye Zhang, Zijiang Yang, Chenglu Zhu, Yuxuan Sun, Kai Yao, Conghui He, Cheng Tan2026-03-10💻 cs

Efficient Chest X-ray Representation Learning via Semantic-Partitioned Contrastive Learning

Dit paper introduceert S-PCL, een efficiënt zelftoezichtend leerframework voor borstfoto's dat door semantische partitie van patch-tokens zonder handmatige augmentaties of decoders een gestroomlijnde architectuur biedt met superieure prestaties en het laagste rekenverbruik.

Wangyu Feng, Shawn Young, Lijian Xu2026-03-10💻 cs

TIQA: Human-Aligned Text Quality Assessment in Generated Images

Dit paper introduceert TIQA, een nieuwe taak en dataset voor menselijk afgestemde tekstkwaliteitsbeoordeling in gegenereerde afbeeldingen, en presenteert ANTIQA, een lichtgewicht methode die de correlatie met menselijke beoordelingen significant verbetert ten opzichte van bestaande OCR- en VLM-basismethoden.

Kirill Koltsov, Aleksandr Gushchin, Dmitriy Vatolin, Anastasia Antsiferova2026-03-10💻 cs

Inter-Image Pixel Shuffling for Multi-focus Image Fusion

Dit artikel introduceert Inter-image Pixel Shuffling (IPS), een innovatieve methode die multi-focus beeldfusie mogelijk maakt zonder echte trainingsdata door het probleem te herformuleren als pixel-classificatie tussen scherpe en onscherpe versies van dezelfde afbeelding, wat resulteert in superieure fusieprestaties.

Huangxing Lin, Rongrong Ma, Cheng Wang2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

Dit paper introduceert EyExIn, een data-efficiënt raamwerk dat retinale Vision Language Models versterkt met diepe expertinjectie en een dubbelstroom-architectuur om de kloof tussen algemene visuele waarneming en medisch redeneren te overbruggen en zo hallucinaties te voorkomen.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating

Dit paper introduceert AutoSelect, een methode die visuele tokens in vision-language modellen automatisch selecteert via een ruisgebaseerde poortmechanisme om de inferentiekosten aanzienlijk te verlagen terwijl de nauwkeurigheid behouden blijft.

Landi He, Xiaoyu Yang, Lijian Xu2026-03-10💻 cs

PDD: Manifold-Prior Diverse Distillation for Medical Anomaly Detection

Dit paper introduceert PDD, een nieuw raamwerk voor de detectie van afwijkingen in medische beelden dat gebruikmaakt van een manifold-prior met dual-teacher priors en diverse distillatiestrategieën om significante verbeteringen in prestaties te bereiken ten opzichte van bestaande state-of-the-art methoden.

Xijun Lu, Hongying Liu, Fanhua Shang, Yanming Hui, Liang Wan2026-03-10💻 cs

CanoVerse: 3D Object Scalable Canonicalization and Dataset for Generation and Pose

Dit paper introduceert CanoVerse, een schaalbaar 3D-dataset en raamwerk dat door het standaardiseren van objectoriëntatie de stabiliteit van 3D-generatie en de precisie van vormretrieval aanzienlijk verbetert.

Li Jin, Yuchen Yang, Weikai Chen, Yujie Wang, Dehao Hao, Tanghui Jia, Yingda Yin, Zeyu Hu, Runze Zhang, Keyang Luo, Li Yuan, Long Quan, Xin Wang, Xueying Qin2026-03-10💻 cs

LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

Dit paper introduceert LiveWorld, een nieuw framework dat bestaande generatieve videowereldmodellen verbetert door een persistent globale staat te modelleren die dynamiek blijft simuleren zelfs wanneer objecten buiten het gezichtsveld van de waarnemer zijn, waardoor een echt continu evoluerende wereld mogelijk wordt.

Zicheng Duan, Jiatong Xia, Zeyu Zhang, Wenbo Zhang, Gengze Zhou, Chenhui Gou, Yefei He, Feng Chen, Xinyu Zhang, Lingqiao Liu2026-03-10💻 cs

← Vorige Volgende →