cs.CV papers | Gist.Science

Can Vision-Language Models Solve the Shell Game?

Dit paper introduceert VET-Bench, een diagnostische test om het tekort aan objecttracking in Vision-Language Models bloot te leggen, en presenteert SGCoT, een methode die door het genereren van expliciete objecttrajecto's de prestaties op deze taak tot boven de 90% brengt.

Tiedong Liu, Wee Sun Lee2026-03-10💬 cs.CL

Alfa: Attentive Low-Rank Filter Adaptation for Structure-Aware Cross-Domain Personalized Gaze Estimation

Het artikel introduceert Alfa, een methode voor testtijd-personalisatie die bestaande pre-getrainde filters in oogvolgingsmodellen herweegt via een op aandacht gebaseerde laag-rang aanpassing, waardoor deze modellen met slechts enkele ongelabelde steekproeven effectief kunnen worden aangepast aan gebruikersspecifieke kenmerken en nieuwe state-of-the-art resultaten behalen.

He-Yen Hsieh, Wei-Te Mark Ting, H. T. Kung2026-03-10💻 cs

X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection

Dit paper introduceert X-AVDT, een robuuste deepfake-detectormethode die gebruikmaakt van audio-visuele kruisattentie-cues uit generatieve modellen via DDIM-inversie, en introduceert het nieuwe MMDF-dataset om de prestaties en generalisatievermogen van detectoren te verbeteren.

Youngseo Kim, Kwan Yun, Seokhyeon Hong, Sihun Cha, Colette Suhjung Koo, Junyong Noh2026-03-10🤖 cs.LG

Visual Self-Fulfilling Alignment: Shaping Safety-Oriented Personas via Threat-Related Images

Dit paper introduceert Visual Self-Fulfilling Alignment (VSFA), een labelvrije methode die multimodale modellen veiliger maakt door ze te finetunen op neutrale vragen over dreigingsgerelateerde afbeeldingen, waardoor ze een inherente waakzaamheid ontwikkelen zonder expliciete veiligheidslabels.

Qishun Yang, Shu Yang, Lijie Hu, Di Wang2026-03-10💻 cs

Spherical-GOF: Geometry-Aware Panoramic Gaussian Opacity Fields for 3D Scene Reconstruction

Dit paper introduceert Spherical-GOF, een geometrie-bewust framework dat Gaussian Opacity Fields direct op de eenheidsbol toepast voor robuuste en nauwkeurige 3D-scèneherconstructie uit panoramische beelden, waarbij het aanzienlijk betere geometrische consistentie bereikt dan bestaande perspectiefgebaseerde methoden.

Zhe Yang, Guoqiang Zhao, Sheng Wu, Kai Luo, Kailun Yang2026-03-10💻 cs

OccTrack360: 4D Panoptic Occupancy Tracking from Surround-View Fisheye Cameras

Dit paper introduceert OccTrack360, een nieuw benchmark voor 4D panoptische bezettingsvolging vanuit surround-view vis-oogcamera's, en stelt een sterke baseline voor met het FoSOcc-framework om vervorming en lokale onnauwkeurigheid aan te pakken.

Yongzhi Lin, Kai Luo, Yuanfan Zheng, Hao Shi, Mengfei Duan, Yang Liu, Kailun Yang2026-03-10💻 cs

SecAgent: Efficient Mobile GUI Agent with Semantic Context

Dit paper introduceert SecAgent, een efficiënte mobiele GUI-agent van 3B parameters die een nieuw Chinees dataset en een semantische context-mechanisme gebruikt om de beperkingen van bestaande methoden op te lossen en prestaties te bereiken die vergelijkbaar zijn met grotere 7B-8B modellen.

Yiping Xie, Song Chen, Jingxuan Xing, Wei Jiang, Zekun Zhu, Yingyao Wang, Pi Bu, Jun Song, Yuning Jiang, Bo Zheng2026-03-10💻 cs

SWIFT: Sliding Window Reconstruction for Few-Shot Training-Free Generated Video Attribution

SWIFT introduceert een nieuwe trainingsvrije methode voor de attributie van gegenereerde video's met weinig steekproeven, die gebruikmaakt van een schuivende vensterreconstructie om de oorsprong van video's van verschillende state-of-the-art generatiemodellen met hoge nauwkeurigheid te identificeren zonder extra training of kwaliteitsverlies.

Chao Wang, Zijin Yang, Yaofei Wang, Yuang Qi, Weiming Zhang, Nenghai Yu, Kejiang Chen2026-03-10💻 cs

Interactive World Simulator for Robot Policy Training and Evaluation

Dit artikel introduceert de Interactive World Simulator, een framework dat consistentiemodellen gebruikt om snelle en fysiek consistente wereldmodellen te bouwen die dienen als betrouwbaar surrogaat voor het schaalbaar trainen en evalueren van robotbeleidsstrategieën.

Yixuan Wang, Rhythm Syed, Fangyu Wu, Mengchao Zhang, Aykut Onol, Jose Barreiros, Hooshang Nayyeri, Tony Dear, Huan Zhang, Yunzhu Li2026-03-10🤖 cs.LG

Online Sparse Synthetic Aperture Radar Imaging

Dit artikel introduceert Online FISTA, een geheugen- en rekenefficiënt algoritme dat online beelden van Synthetic Aperture Radar (SAR) reconstrueert via sparse coding, waardoor het mogelijk wordt om complexe taken zoals automatische doelherkenning direct op autonome drones uit te voeren zonder alle ruwe data op te slaan.

Conor Flynn, Radoslav Ivanov, Birsen Yazici2026-03-10💻 cs

DualFlexKAN: Dual-stage Kolmogorov-Arnold Networks with Independent Function Control

Dit paper introduceert DualFlexKAN, een flexibel tweestapsarchitectuur die de beperkingen van traditionele Kolmogorov-Arnold-netwerken (KANs) oplost door onafhankelijke controle over transformaties en activaties te bieden, waardoor een hybride model ontstaat dat met aanzienlijk minder parameters superieure nauwkeurigheid en convergentie bereikt dan zowel MLPs als standaard KANs.

Andrés Ortiz, Nicolás J. Gallego-Molina, Carmen Jiménez-Mesa, Juan M. Górriz, Javier Ramírez2026-03-10🤖 cs.LG

PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition

PRISM introduceert een fundamenteel nieuw model voor het genereren van menselijke bewegingen dat door middel van een per-gewricht gefactoriseerde latente ruimte en ruisvrije conditie-injectie de bestaande beperkingen oplost en een enkel, state-of-the-art systeem biedt voor tekst-naar-beweging, pose-gestuurde generatie en langdurige sequentiële synthese.

Zeyu Ling, Qing Shuai, Teng Zhang, Shiyang Li, Bo Han, Changqing Zou2026-03-10💻 cs

Weakly Supervised Teacher-Student Framework with Progressive Pseudo-mask Refinement for Gland Segmentation

Deze paper presenteert een zwak gesuperviseerd teacher-student raamwerk met progressieve pseudomaskerverfijning dat, gebruikmakend van schaarse patholoogannotaties en een gestabiliseerde teacher-network, nauwkeurige kliersegmentatie in colorectale histopathologie mogelijk maakt zonder de noodzaak voor uitgebreide pixel-voor-pixel labels.

Hikmat Khan, Wei Chen, Muhammad Khalid Khan Niazi2026-03-10💻 cs

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

Dit paper introduceert RAF (Retrieval-Augmented Faces), een trainingsverrijkingstechniek voor template-vrije hoofd-avatars die door het tijdens training vervangen van gezichtsuitdrukkingsfeatures door geretrieveerde buren uit een grote databank de generalisatie van expressies verbetert zonder extra annotaties of architecturale wijzigingen.

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani Lischinski2026-03-10🤖 cs.LG

RBF Weighted Hyper-Involution for RGB-D Object Detection

Deze paper introduceert een real-time twee-stroom RGB-D objectdetectiemodel dat dynamische RBF-gewogen hyper-involutie en een trainbare fuselaag gebruikt om de uitdagingen bij het simultaan verwerken van diepte- en kleurbeelden op te lossen en zo state-of-the-art prestaties te behalen op de NYU Depth V2-benchmarks.

Mehfuz A Rahman, Khushal Das, Jiju Poovvancheri, Neil London, Dong Chen2026-03-09💻 cs

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

Deze paper introduceert een pose-bewust in-context visueel leersysteem (PA-ICVL) voor Vision-Language Models dat de detectie van semantische structurele hallucinaties in cartoon-afbeeldingen aanzienlijk verbetert door naast RGB-beelden ook pose-informatie te gebruiken.

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun Seo2026-03-09🤖 cs.AI

Fuse4Seg: Image Fusion for Multi-Modal Medical Segmentation via Bi-level Optimization

Dit paper introduceert Fuse4Seg, een nieuw raamwerk dat multi-modale medische beeldfusie herformuleert als een bi-niveau optimalisatieprobleem dat wordt geleid door semantische gradiënten van downstream segmentatie, waardoor kritieke tumorgrenzen behouden blijven en de prestaties van bestaande methoden worden overtroffen terwijl de klinische interpreteerbaarheid wordt gewaarborgd.

Yuchen Guo, Junli Gong, Hongmin Cai, Yiu-ming Cheung, Weifeng Su2026-03-09💻 cs

PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization

Het artikel introduceert PACE, een methode die parameter-efficiënt fine-tuning combineert met consistentieregulering om de generalisatie van modellen te verbeteren door gradiëntnormen te verkleinen en kennis uit vooraf getrainde modellen te behouden.

Yao Ni, Shan Zhang, Piotr Koniusz2026-03-09🤖 cs.LG

FALCON: Future-Aware Learning with Contextual Object-Centric Pretraining for UAV Action Recognition

FALCON is een zelftoezichtend voortrainingsmodel dat objectgerichte maskering en toekomstige reconstructie combineert om de prestaties van UAV-actieherkenning op ruwe RGB-beelden te verbeteren door de aandacht te richten op relevante objecten in plaats van rommelige achtergronden.

Ruiqi Xian, Xiyang Wu, Tianrui Guan, Xijun Wang, Boqing Gong, Dinesh Manocha2026-03-09🤖 cs.AI

AuthFace: Towards Authentic Blind Face Restoration with Face-oriented Generative Diffusion Prior

AuthFace is een nieuw raamwerk dat authentieke blind gezichtsherstel bereikt door een op gezichten gerichte generatieve diffusielaag te ontwikkelen via een met fotografen begeleid fijnstelfase op een dataset van 8K-beelden, waardoor onjuiste generaties worden voorkomen en de details van gezichten aanzienlijk worden verbeterd.

Guoqiang Liang, Qingnan Fan, Bingtao Fu, Jinwei Chen, Hong Gu, Lin Wang2026-03-09💻 cs

← Vorige Volgende →