cs.CV papers | Gist.Science

SPARK: Jailbreaking T2V Models by Synergistically Prompting Auditory and Recontextualized Knowledge

Het artikel introduceert SPARK, een jailbreak-framework dat T2V-modellen omzeilt door veilige prompts te combineren met neutrale scènes, sluwe auditieve triggers en cinematografische richtlijnen om verborgen onveilige video's te genereren.

Zonghao Ying, Moyang Chen, Nizhang Li, Zhiqiang Wang, Wenxin Zhang, Quanchen Zou, Zonglei Jing, Aishan Liu, Xianglong Liu2026-03-09💻 cs

MRIQT: Physics-Aware Diffusion Model for Image Quality Transfer in Neonatal Ultra-Low-Field MRI

Deze paper introduceert MRIQT, een fysica-bewust 3D-diffusiemodel dat de beeldkwaliteit van draagbare ultra-lage-veld MRI-scans bij neonaten significant verbetert door deze te vertalen naar hoogwaardige beelden met behoud van anatomische details en pathologie.

Malek Al Abed, Sebiha Demir, Anne Groteklaes, Elodie Germani, Shahrooz Faghihroohi, Hemmen Sabir, Shadi Albarqouni2026-03-09💻 cs

FunnyNodules: A Customizable Medical Dataset Tailored for Evaluating Explainable AI

Dit paper introduceert FunnyNodules, een volledig aanpasbaar synthetisch dataset met gedetailleerde annotaties van visuele kenmerken en diagnoseredenering, dat is ontworpen om de betrouwbaarheid en verklaringen van medische AI-modellen systematisch te evalueren.

Luisa Gallée, Yiheng Xiong, Meinrad Beer, Michael Götz2026-03-09💻 cs

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

Dit paper introduceert FireScope, een VLM-gebaseerd raamwerk dat chain-of-thought redenering combineert met visuele supervisie om op Sentinel-2-beelden en klimaatdata gebaseerde, interpreteerbare en cross-continentaal generaliserende wildvuurrisicokaarten te genereren.

Mario Markov (INSAIT, Sofia University "St. Kliment Ohridski"), Stefan Maria Ailuro (INSAIT, Sofia University "St. Kliment Ohridski"), Luc Van Gool (INSAIT, Sofia University "St. Kliment Ohridski"), Konrad Schindler (ETH Zurich), Danda Pani Paudel (INSAIT, Sofia University "St. Kliment Ohridski")2026-03-09🤖 cs.LG

Learning Latent Transmission and Glare Maps for Lens Veiling Glare Removal

Dit paper introduceert VeilGen, een generatief model dat ongesuperviseerd latent transmissie- en glanskaarten leert om realistische veilingglans te simuleren, en DeVeiler, een restauratienetwerk dat deze kaarten gebruikt om beeldkwaliteit in vereenvoudigde optische systemen te herstellen.

Xiaolong Qian, Qi Jiang, Lei Sun, Zongxi Yu, Kailun Yang, Peixuan Wu, Jiacheng Zhou, Yao Gao, Yaoguang Ma, Ming-Hsuan Yang, Kaiwei Wang2026-03-09🔬 physics.optics

UAM: A Unified Attention-Mamba Backbone of Multimodal Framework for Tumor Cell Classification

Dit paper introduceert UAM, een unificerend Attention-Mamba-achterframe voor multimodale frameworks dat door flexibele integratie van deze technologieën zonder handmatige afstemming state-of-the-art resultaten behaalt voor tumorcelclassificatie en -segmentatie.

Taixi Chen, Jingyun Chen, Nancy Guo2026-03-09💻 cs

EgoCogNav: Cognition-aware Human Egocentric Navigation

Deze paper introduceert EgoCogNav, een multimodaal raamwerk voor egocentrische navigatie dat cognitieve factoren zoals waargenomen onzekerheid integreert om menselijk gedrag beter te voorspellen, vergezeld van een nieuw dataset genaamd CEN.

Zhiwen Qiu, Ziang Liu, Wenqian Niu, Tapomayukh Bhattacharjee, Saleh Kalantari2026-03-09🤖 cs.LG

SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis

Het artikel introduceert SyncMV4D, een baanbrekend model dat voor het eerst gesynchroniseerde multi-view video's en 4D-bewegingen van hand-object-interacties genereert door een gesloten lus te creëren tussen visuele priors, bewegingsdynamica en multi-view geometrie, waardoor zowel realisme als consistentie aanzienlijk worden verbeterd.

Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu2026-03-09💻 cs

Reversible Inversion for Training-Free Exemplar-guided Image Editing

Deze paper introduceert ReInversion, een trainingsvrije methode voor exemplaar-gestuurde beeldbewerking die via een omkeerbaar twee-staps proces en een maskergestuurde selectieve denoising-strategie state-of-the-art resultaten bereikt met minimale rekenkosten.

Yuke Li, Lianli Gao, Ji Zhang, Pengpeng Zeng, Lichuan Xiang, Hongkai Wen, Heng Tao Shen, Jingkuan Song2026-03-09💻 cs

A method for tissue-mask supported whole-body image registration in the UK Biobank

Deze studie presenteert een methode voor weefselmasker-ondersteunde registratie van volledige lichaams-MRI-beelden in de UK Biobank die, door gebruik te maken van subcutane vet- en spiermaskers, significant betere registratieprestaties en anatomische uitlijning bereikt dan bestaande intensiteitsgebaseerde methoden.

Yasemin Utkueri, Elin Lundström, Håkan Ahlström, Johan Öfverstedt, Joel Kullberg2026-03-09💻 cs

UniTS: Unified Spatio-Temporal Generative Model for Remote Sensing

In dit artikel wordt UniTS voorgesteld, een unificerend spatiotemporale generatief model op basis van flow matching dat diverse aardobservatietaken zoals reconstructie, wolkverwijdering, veranderingdetectie en voorspelling integreert in één raamwerk, waardoor het bestaande gespecialiseerde modellen overtreft, vooral onder uitdagende omstandigheden.

Yuxiang Zhang, Shunlin Liang, Wenyuan Li, Han Ma, Jianglei Xu, Yichuan Ma, Jiangwei Xie, Wei Li, Mengmeng Zhang, Ran Tao, Xiang-Gen Xia2026-03-09💻 cs

Exploiting Spatiotemporal Properties for Efficient Event-Driven Human Pose Estimation

Dit artikel introduceert een puntwolkgebaseerd raamwerk voor menselijke houdingsschatting dat de spatiotemporale eigenschappen van event-camerastromen benut via nieuwe modules voor tijdelijke slicing en sequentiële modellering, waardoor de prestaties aanzienlijk worden verbeterd zonder de hoge tijdsresolutie van het signaal te verliezen.

Haoxian Zhou, Chuanzhi Xu, Langyi Chen, Pengfei Ye, Haodong Chen, Yuk Ying Chung, Qiang Qu2026-03-09🤖 cs.AI

DFIR-DETR: Frequency-Domain Iterative Refinement and Dynamic Feature Aggregation for Small Object Detection

Het artikel introduceert DFIR-DETR, een transformer-gebaseerde detector die de prestaties bij het detecteren van kleine objecten in complexe scènes verbetert door dynamische content-aggregatie, normbehoudende feature-pyramides en frequentiedomein-iteratieve verfijning te combineren om hoge-frequentie randinformatie te behouden.

Bo Gao, Jingcheng Tong, Xingsheng Chen, Han Yu, Zichen Li2026-03-09🤖 cs.LG

Fast-BEV++: Fast by Algorithm, Deployable by Design

Fast-BEV++ is een nieuw visueel Bird's-Eye-View-perceptieframework dat door middel van een hardware-geoptimaliseerde architectuur de traditionele afweging tussen detectienauwkeurigheid en verwerkingssnelheid oplost, waardoor het een nieuwe state-of-the-art prestatie op de nuScenes-benchmark bereikt met real-time inferentie van meer dan 134 FPS.

Yuanpeng Chen, Hui Song, Sheng Yang, Wei Tao, Shanhui Mo, Shuang Zhang, Xiao Hua, Tiankun Zhao2026-03-09💻 cs

Uncertainty-Aware Subset Selection for Robust Visual Explainability under Distribution Shifts

Dit artikel introduceert een nieuw raamwerk dat submodulaire subsetselectie combineert met onzekerheidsschatting om de robuustheid en betrouwbaarheid van visuele uitlegbare methoden te verbeteren onder distributieveranderingen zonder extra training.

Madhav Gupta, Vishak Prasad C, Ganesh Ramakrishnan2026-03-09🤖 cs.LG

Photo3D: Advancing Photorealistic 3D Generation through Structure-Aligned Detail Enhancement

Dit paper introduceert Photo3D, een framework dat de fotorealistische 3D-generatie verbetert door een structuur-gealigneerde meerzichtsynthese te gebruiken om een gedetailleerde dataset te creëren die de beperkingen van bestaande 3D-generatoren in het realisme van texturen oplost.

Xinyue Liang, Zhinyuan Ma, Lingchen Sun, Yanjun Guo, Lei Zhang2026-03-09💻 cs

Modular Neural Image Signal Processing

Dit artikel introduceert een modulair, volledig op leren gebaseerd framework voor neurale beeldsignaalverwerking dat ruwe invoer omzet in hoogwaardige afbeeldingen met volledige controle over tussenstappen, waardoor schaalbaarheid, generalisatie en interactieve nabewerking worden verbeterd.

Mahmoud Afifi, Zhongling Wang, Ran Zhang, Michael S. Brown2026-03-09💻 cs

A Novel Patch-Based TDA Approach for Computed Tomography Imaging

Dit artikel introduceert een nieuwe patch-gebaseerde topologische data-analyse-methode voor CT-beelden die, vergeleken met bestaande cubische complex-algoritmen en radiomische kenmerken, zowel de classificatieprestaties aanzienlijk verbetert als de rekentijd verlaagt.

Dashti A. Ali, Aras T. Asaad, Jacob J. Peoples, Mohammad Hamghalam, Natalie Gangai, Richard K. G. Do, Alice C. Wei, Amber L. Simpson2026-03-09🤖 cs.LG

Towards Scalable Pre-training of Visual Tokenizers for Generation

Dit paper introduceert VTP, een uniek voortrainingsframework voor visuele tokenizers dat door het gezamenlijk optimaliseren van contrastieve, zelftoezicht- en reconstructieverliezen de schaalbaarheid van generatieve modellen verbetert door een latente ruimte te creëren die hoogwaardige semantiek effectief vastlegt in plaats van alleen lage-niveau pixelinformatie.

Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang2026-03-09💻 cs

CASA: Cross-Attention over Self-Attention for Efficient Vision-Language Fusion

Dit paper introduceert CASA, een efficiëntere visueel-taalmodel-architectuur die cross-attention gebruikt in plaats van token-invoeging om de rekenkosten en het geheugengebruik bij lange video- en meervoudige beeldconversaties aanzienlijk te verminderen zonder in te leveren op prestaties.

Moritz Böhle, Amélie Royer, Juliette Marrie, Edouard Grave, Patrick Pérez2026-03-09🤖 cs.AI

← Vorige Volgende →