cs.CV papers | Gist.Science

Lyapunov Probes for Hallucination Detection in Large Foundation Models

Dit artikel introduceert Lyapunov-probes, een methode die hallucinaties in grote taal- en multimodelmodellen detecteert door het probleem te benaderen via stabiliteitstheorie van dynamische systemen, waarbij hallucinaties worden geïdentificeerd als onstabiele gebieden in de representatieruimte.

Bozhi Luan, Gen Li, Yalan Qin, Jifeng Guo, Yun Zhou, Faguo Wu, Hongwei Zheng, Wenjun Wu, Zhaoxin Fan2026-03-09💻 cs

DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model

In dit paper presenteren de auteurs DeepSight, het eerste multimodale taalmodel dat specifiek is ontworpen om driedimensionale scene-interpretatie te verbeteren door dieptekaarten direct te koppelen aan taal, ondersteund door een nieuw dataset en een aangepaste ViT-encoder.

Hao Yang, Hongbo Zhang, Yanyan Zhao, Bing Qin2026-03-09💬 cs.CL

Enhancing Neural Video Compression of Static Scenes with Positive-Incentive Noise

Dit paper introduceert een methode voor neurale video-compressie van statische scènes die positieve-incentive ruis gebruikt om tijdelijke variaties te ontkoppelen van de achtergrond, waardoor de bandbreedte met 73% wordt gereduceerd terwijl de pixel-accuraatheid behouden blijft.

Cheng Yuan, Zhenyu Jia, Jiawei Shao, Xuelong Li2026-03-09💻 cs

FedARKS: Federated Aggregation via Robust and Discriminative Knowledge Selection and Integration for Person Re-identification

FedARKS is een nieuw federatief leerframework voor personenheridentificatie dat de generalisatie in onbekende domeinen verbetert door lokale, domein-invariante details te benutten en via robuuste kennisselectie en -integratie bijdragen van hoogwaardige clients te maximaliseren in plaats van te vertrouwen op simpele globale middeling.

Xin Xu, Binchang Ma, Zhixi Yu, Wei Liu2026-03-09💻 cs

Cross-Resolution Distribution Matching for Diffusion Distillation

Het artikel introduceert RMD, een nieuw distillatiekader dat de distributiekloof tussen verschillende resoluties overbrugt via logSNR-gebaseerde mapping en ruisre-injectie, waardoor beeld- en videogeneratie aanzienlijk sneller wordt (tot 33,4x) zonder in te leveren op visuele kwaliteit.

Feiyang Chen, Hongpeng Pan, Haonan Xu, Xinyu Duan, Yang Yang, Zhefeng Wang2026-03-09💻 cs

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

Dit paper introduceert Place-it-R1, een end-to-end framework dat Multimodale Groot Taalmodellen (MLLMs) gebruikt om via chain-of-thought-redenering en een gesloten feedbacklus fysiek consistente en omgevingsbewuste objectinserties in video's te genereren.

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

Spatial Colour Mixing Illusions as a Perception Stress Test for Vision-Language Models

Dit onderzoek toont aan dat visueel-taalmiddelen (VLMs) kwetsbaar zijn voor ruimtelijke kleurmenging, waarbij menselijke waarneming aanzienlijk robuuster is en mensgeïnspireerde voorverwerking de prestaties van deze modellen kan verbeteren.

Nicoleta-Nina Basoc, Adrian Cosma, Emilian Radoi2026-03-09💻 cs

Longitudinal NSCLC Treatment Progression via Multimodal Generative Models

Deze studie introduceert een Virtual Treatment-framework dat gebruikmaakt van multimodale generatieve modellen, waarbij diffusiemodellen superieur blijken aan GAN's, om realistische CT-scans van NSCLC-tumoren te synthetiseren die de anatomische veranderingen door radiotherapie en dosis toewijzing nauwkeurig voorspellen.

Massimiliano Mantegna, Elena Mulero Ayllón, Alice Natalina Caragliano, Francesco Di Feola, Claudia Tacconi, Michele Fiore, Edy Ippolito, Carlo Greco, Sara Ramella, Philippe C. Cattin, Paolo Soda, Matteo Tortora, Valerio Guarrasi2026-03-09💻 cs

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

Dit paper introduceert VLM-RobustBench, een uitgebreid benchmark voor visueel-taalmodellen dat aantoont dat deze modellen semantisch sterk maar ruimtelijk kwetsbaar zijn, waarbij zelfs lichte geometrische vervormingen hun prestaties aanzienlijk meer beïnvloeden dan zware visuele corrupties.

Rohit Saxena, Alessandro Suglia, Pasquale Minervini2026-03-09🤖 cs.AI

Reflective Flow Sampling Enhancement

Deze paper introduceert Reflective Flow Sampling, een trainingsvrije en theoretisch onderbouwde methode die de generatiekwaliteit en prompt-uitlijning van flow-matching modellen zoals FLUX verbetert door tijdens de inferentie gradienten op te voeren voor een betere tekst-beeld coherentie.

Zikai Zhou, Muyao Wang, Shitong Shao, Lichen Bai, Haoyi Xiong, Bo Han, Zeke Xie2026-03-09🤖 cs.AI

FreeOcc: Training-free Panoptic Occupancy Prediction via Foundation Models

FreeOcc is een trainingsvrije pipeline die voorgeprende foundation-modellen gebruikt om vanuit meervoudige beelden zowel semantiek als geometrie te herwinnen voor panoptische 3D-beeldruimtevulling, waarmee het state-of-the-art resultaten bereikt zonder dat er specifieke 3D-modellen getraind hoeven te worden.

Andrew Caunes, Thierry Chateau, Vincent Fremont2026-03-09💻 cs

A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement

Deze paper presenteert een semi-supervised framework voor borst-echografie-segmentatie dat gebruikmaakt van training-vrije pseudolabels gegenereerd door vision-language modellen en verfijnde leerstrategieën om prestaties te bereiken die vergelijkbaar zijn met volledig gesuperviseerde modellen, zelfs met slechts 2,5% gelabelde data.

Ruili Li, Jiayi Ding, Ruiyu Li, Yilun Jin, Shiwen Ge, Yuwen Zeng, Xiaoyong Zhang, Eichi Takaya, Jan Vrba, Noriyasu Homma2026-03-09💻 cs

JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas

Dit paper introduceert JOPP-3D, een raamwerk voor open-vocabulaire semantische segmentatie dat panoramische beelden en 3D-puntenwolkdata combineert om taalgestuurde, coherente segmentaties te genereren met aanzienlijk betere prestaties dan de huidige stand van de techniek.

Sandeep Inuganti, Hideaki Kanayama, Kanta Shimizu, Mahdi Chamseddine, Soichiro Yokota, Didier Stricker, Jason Rambach2026-03-09💻 cs

Optimizing 3D Diffusion Models for Medical Imaging via Multi-Scale Reward Learning

Dit artikel presenteert een methode om 3D-diffusiemodellen voor medische beeldvorming te optimaliseren via versterkingslering met multi-schaalbeloningen, wat leidt tot een verbeterde beeldkwaliteit en een grotere bruikbaarheid voor downstream-taak zoals tumor- en ziekteclassificatie.

Yueying Tian, Xudong Han, Meng Zhou, Rodrigo Aviles-Espinosa, Rupert Young, Philip Birch2026-03-09💻 cs

Making Training-Free Diffusion Segmentors Scale with the Generative Power

Deze paper introduceert auto-aggregatie en per-pixel rescaling als nieuwe technieken om training-vrije diffusion-segmentatoren beter te laten schalen met de generatieve kracht van moderne modellen door bestaande kloven in cross-attention-kaarten te overbruggen.

Benyuan Meng, Qianqian Xu, Zitai Wang, Xiaochun Cao, Longtao Huang, Qingming Huang2026-03-09💻 cs

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Dit paper introduceert een tweestapskader dat contrastief leren op gelabelde alfabetten combineert met zelftoezicht via leraar-leerling distillatie om robuuste, vervormingsinvariante embeddings te leren voor het vaststellen van scriptgelijkenis zonder betrouwbare grondwaarheid over historische relaties.

Claire Roman, Philippe Meyer2026-03-09🤖 cs.AI

Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots

Deze paper introduceert de Motion Turing Test en het HHMotion-dataset om de menselijke gelijkenis van humanoid robotbewegingen te evalueren, waarbij wordt vastgesteld dat huidige robots nog afwijkingen vertonen en dat een eenvoudige basismodel de menselijke gelijkenis beter voorspelt dan multimodale grote taalmodellen.

Mingzhe Li, Mengyin Liu, Zekai Wu, Xincheng Lin, Junsheng Zhang, Ming Yan, Zengye Xie, Changwang Zhang, Chenglu Wen, Lan Xu, Siqi Shen, Cheng Wang2026-03-09💻 cs

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

Dit paper introduceert CRIMSON, een klinisch onderbouwde evaluatiemethode voor het genereren van radiologieverslagen die fouten weegt op basis van klinische relevantie en patiëntveiligheid, en die sterk correleert met de beoordelingen van gespecialiseerde radiologen.

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

SpaCRD: Multimodal Deep Fusion of Histology and Spatial Transcriptomics for Cancer Region Detection

Dit paper introduceert SpaCRD, een transfer learning-methode die histologie en ruimtelijke transcriptomics via een geavanceerd fusie-netwerk combineert om kankergebieden nauwkeuriger te detecteren dan bestaande methoden, zelfs bij variatie in monsters en platforms.

Shuailin Xue, Jun Wan, Lihua Zhang, Wenwen Min2026-03-09💻 cs

Adaptive Language-Aware Image Reflection Removal Network

Deze paper introduceert ALANet, een adaptief taalbewust netwerk dat reflecties in afbeeldingen effectief verwijdert door onnauwkeurige taalinvoer te filteren en te optimaliseren, en presenteert het CRLAV-dataset voor evaluatie onder complexe omstandigheden.

Siyan Fang, Yuntao Wang, Jinpu Zhang, Ziwen Li, Yuehuan Wang2026-03-09💻 cs

← Vorige Volgende →