cs.CV papers | Gist.Science

FontUse: A Data-Centric Approach to Style- and Use-Case-Conditioned In-Image Typography

Dit paper introduceert FontUse, een data-gedreven aanpak die een groot, geannoteerd typografiedataset gebruikt om bestaande tekst-naar-beeldmodellen te finetunen, waardoor ze teksten in afbeeldingen consistent kunnen genereren op basis van specifieke lettertypestijlen en gebruiksscenario's.

Xia Xin, Yuki Endo, Yoshihiro Kanamori2026-03-09💻 cs

Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

Dit paper introduceert GvU, een zelftoezichtend versterkingsleerframework dat de generatiekwaliteit van uniforme multimodale modellen verbetert door gebruik te maken van hun eigen visuele begrijpingscapaciteit als intrinsieke beloning, waardoor de kloof tussen visueel begrijpen en genereren wordt overbrugd.

Jiadong Pan, Liang Li, Yuxin Peng, Yu-Ming Tang, Shuohuan Wang, Yu Sun, Hua Wu, Qingming Huang, Haifeng Wang2026-03-09💻 cs

GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

GenHOI is een lichtgewicht uitbreiding voor bestaande videomodellen die door middel van tijdelijk gebalanceerde en ruimtelijk selectieve objectinjectie fysiek plausibele en object-consistente hand-object-interacties genereert, zelfs in complexe, onbekende scènes.

Xuan Huang, Mochu Xiang, Zhelun Shen, Jinbo Wu, Chenming Wu, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Shanshan Liu, Haocheng Feng, Wei He, Jingdong Wang2026-03-09💻 cs

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

Dit paper introduceert Curious-VLA, een tweestapsframework dat de beperkende 'smalle beleid'-problematiek in autonome VLA-modellen aanpakt door middel van Feasible Trajectory Expansion en Adaptive Diversity-Aware Sampling, wat leidt tot state-of-the-art prestaties op de Navsim-benchmark door de exploratiecapaciteit te maximaliseren.

Canyu Chen, Yuguang Yang, Zhewen Tan, Yizhi Wang, Ruiyi Zhan, Haiyan Liu, Xuanyao Mao, Jason Bao, Xinyue Tang, Linlin Yang, Bingchuan Sun, Yan Wang, Baochang Zhang2026-03-09💻 cs

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Deze studie analyseert de interne activaties van Vision-Language Models voor autonoom rijden en identificeert twee faalmodi—perceptueel en cognitief—waarbij blijkt dat hoewel objectaanwezigheid lineair gecodeerd is, ruimtelijke concepten zoals oriëntatie slechts impliciet worden vertegenwoordigd en dat prestaties snel verslechteren naarmate objecten verder weg zijn.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Dit paper introduceert TempoSyncDiff, een lichtgewicht latent diffusion-framework dat via kennisdistillatie en tijdsregulatie realistische, stabiele en spraakgestuurde praatkop-generatie mogelijk maakt met een zeer lage latentie, zelfs op randapparatuur.

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Transforming Omnidirectional RGB-LiDAR data into 3D Gaussian Splatting

Dit artikel presenteert een robuust verwerkingskader dat bestaande omnidirectionele RGB-LiDAR-logbestanden omzet in hoogwaardige initialisatiebestanden voor 3D Gaussian Splatting, waardoor kostenefficiënte en nauwkeurige digitale tweelingen kunnen worden gegenereerd zonder de noodzaak van dure, doelgerichte datacollectie.

Semin Bae, Hansol Lim, Jongseong Brad Choi2026-03-09💻 cs

Text-Driven Emotionally Continuous Talking Face Generation

Dit paper introduceert de nieuwe taak Emotionally Continuous Talking Face Generation (EC-TFG) en het bijbehorende TIE-TFG-model, dat realistische praatende gezichten genereert met vloeiende, tekstgedreven emotionele overgangen in plaats van statische emoties.

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

Lyapunov Probes for Hallucination Detection in Large Foundation Models

Dit artikel introduceert Lyapunov-probes, een methode die hallucinaties in grote taal- en multimodelmodellen detecteert door het probleem te benaderen via stabiliteitstheorie van dynamische systemen, waarbij hallucinaties worden geïdentificeerd als onstabiele gebieden in de representatieruimte.

Bozhi Luan, Gen Li, Yalan Qin, Jifeng Guo, Yun Zhou, Faguo Wu, Hongwei Zheng, Wenjun Wu, Zhaoxin Fan2026-03-09💻 cs

DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model

In dit paper presenteren de auteurs DeepSight, het eerste multimodale taalmodel dat specifiek is ontworpen om driedimensionale scene-interpretatie te verbeteren door dieptekaarten direct te koppelen aan taal, ondersteund door een nieuw dataset en een aangepaste ViT-encoder.

Hao Yang, Hongbo Zhang, Yanyan Zhao, Bing Qin2026-03-09💬 cs.CL

Enhancing Neural Video Compression of Static Scenes with Positive-Incentive Noise

Dit paper introduceert een methode voor neurale video-compressie van statische scènes die positieve-incentive ruis gebruikt om tijdelijke variaties te ontkoppelen van de achtergrond, waardoor de bandbreedte met 73% wordt gereduceerd terwijl de pixel-accuraatheid behouden blijft.

Cheng Yuan, Zhenyu Jia, Jiawei Shao, Xuelong Li2026-03-09💻 cs

FedARKS: Federated Aggregation via Robust and Discriminative Knowledge Selection and Integration for Person Re-identification

FedARKS is een nieuw federatief leerframework voor personenheridentificatie dat de generalisatie in onbekende domeinen verbetert door lokale, domein-invariante details te benutten en via robuuste kennisselectie en -integratie bijdragen van hoogwaardige clients te maximaliseren in plaats van te vertrouwen op simpele globale middeling.

Xin Xu, Binchang Ma, Zhixi Yu, Wei Liu2026-03-09💻 cs

Cross-Resolution Distribution Matching for Diffusion Distillation

Het artikel introduceert RMD, een nieuw distillatiekader dat de distributiekloof tussen verschillende resoluties overbrugt via logSNR-gebaseerde mapping en ruisre-injectie, waardoor beeld- en videogeneratie aanzienlijk sneller wordt (tot 33,4x) zonder in te leveren op visuele kwaliteit.

Feiyang Chen, Hongpeng Pan, Haonan Xu, Xinyu Duan, Yang Yang, Zhefeng Wang2026-03-09💻 cs

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

Dit paper introduceert Place-it-R1, een end-to-end framework dat Multimodale Groot Taalmodellen (MLLMs) gebruikt om via chain-of-thought-redenering en een gesloten feedbacklus fysiek consistente en omgevingsbewuste objectinserties in video's te genereren.

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

Spatial Colour Mixing Illusions as a Perception Stress Test for Vision-Language Models

Dit onderzoek toont aan dat visueel-taalmiddelen (VLMs) kwetsbaar zijn voor ruimtelijke kleurmenging, waarbij menselijke waarneming aanzienlijk robuuster is en mensgeïnspireerde voorverwerking de prestaties van deze modellen kan verbeteren.

Nicoleta-Nina Basoc, Adrian Cosma, Emilian Radoi2026-03-09💻 cs

Longitudinal NSCLC Treatment Progression via Multimodal Generative Models

Deze studie introduceert een Virtual Treatment-framework dat gebruikmaakt van multimodale generatieve modellen, waarbij diffusiemodellen superieur blijken aan GAN's, om realistische CT-scans van NSCLC-tumoren te synthetiseren die de anatomische veranderingen door radiotherapie en dosis toewijzing nauwkeurig voorspellen.

Massimiliano Mantegna, Elena Mulero Ayllón, Alice Natalina Caragliano, Francesco Di Feola, Claudia Tacconi, Michele Fiore, Edy Ippolito, Carlo Greco, Sara Ramella, Philippe C. Cattin, Paolo Soda, Matteo Tortora, Valerio Guarrasi2026-03-09💻 cs

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

Dit paper introduceert VLM-RobustBench, een uitgebreid benchmark voor visueel-taalmodellen dat aantoont dat deze modellen semantisch sterk maar ruimtelijk kwetsbaar zijn, waarbij zelfs lichte geometrische vervormingen hun prestaties aanzienlijk meer beïnvloeden dan zware visuele corrupties.

Rohit Saxena, Alessandro Suglia, Pasquale Minervini2026-03-09🤖 cs.AI

Reflective Flow Sampling Enhancement

Deze paper introduceert Reflective Flow Sampling, een trainingsvrije en theoretisch onderbouwde methode die de generatiekwaliteit en prompt-uitlijning van flow-matching modellen zoals FLUX verbetert door tijdens de inferentie gradienten op te voeren voor een betere tekst-beeld coherentie.

Zikai Zhou, Muyao Wang, Shitong Shao, Lichen Bai, Haoyi Xiong, Bo Han, Zeke Xie2026-03-09🤖 cs.AI

FreeOcc: Training-free Panoptic Occupancy Prediction via Foundation Models

FreeOcc is een trainingsvrije pipeline die voorgeprende foundation-modellen gebruikt om vanuit meervoudige beelden zowel semantiek als geometrie te herwinnen voor panoptische 3D-beeldruimtevulling, waarmee het state-of-the-art resultaten bereikt zonder dat er specifieke 3D-modellen getraind hoeven te worden.

Andrew Caunes, Thierry Chateau, Vincent Fremont2026-03-09💻 cs

A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement

Deze paper presenteert een semi-supervised framework voor borst-echografie-segmentatie dat gebruikmaakt van training-vrije pseudolabels gegenereerd door vision-language modellen en verfijnde leerstrategieën om prestaties te bereiken die vergelijkbaar zijn met volledig gesuperviseerde modellen, zelfs met slechts 2,5% gelabelde data.

Ruili Li, Jiayi Ding, Ruiyu Li, Yilun Jin, Shiwen Ge, Yuwen Zeng, Xiaoyong Zhang, Eichi Takaya, Jan Vrba, Noriyasu Homma2026-03-09💻 cs

← Vorige Volgende →