cs.CV papers | Gist.Science

X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection

Dit paper introduceert X-AVDT, een robuuste deepfake-detectormethode die gebruikmaakt van audio-visuele kruisattentie-cues uit generatieve modellen via DDIM-inversie, en introduceert het nieuwe MMDF-dataset om de prestaties en generalisatievermogen van detectoren te verbeteren.

Youngseo Kim, Kwan Yun, Seokhyeon Hong, Sihun Cha, Colette Suhjung Koo, Junyong Noh2026-03-10🤖 cs.LG

Visual Self-Fulfilling Alignment: Shaping Safety-Oriented Personas via Threat-Related Images

Dit paper introduceert Visual Self-Fulfilling Alignment (VSFA), een labelvrije methode die multimodale modellen veiliger maakt door ze te finetunen op neutrale vragen over dreigingsgerelateerde afbeeldingen, waardoor ze een inherente waakzaamheid ontwikkelen zonder expliciete veiligheidslabels.

Qishun Yang, Shu Yang, Lijie Hu, Di Wang2026-03-10💻 cs

Spherical-GOF: Geometry-Aware Panoramic Gaussian Opacity Fields for 3D Scene Reconstruction

Dit paper introduceert Spherical-GOF, een geometrie-bewust framework dat Gaussian Opacity Fields direct op de eenheidsbol toepast voor robuuste en nauwkeurige 3D-scèneherconstructie uit panoramische beelden, waarbij het aanzienlijk betere geometrische consistentie bereikt dan bestaande perspectiefgebaseerde methoden.

Zhe Yang, Guoqiang Zhao, Sheng Wu, Kai Luo, Kailun Yang2026-03-10💻 cs

OccTrack360: 4D Panoptic Occupancy Tracking from Surround-View Fisheye Cameras

Dit paper introduceert OccTrack360, een nieuw benchmark voor 4D panoptische bezettingsvolging vanuit surround-view vis-oogcamera's, en stelt een sterke baseline voor met het FoSOcc-framework om vervorming en lokale onnauwkeurigheid aan te pakken.

Yongzhi Lin, Kai Luo, Yuanfan Zheng, Hao Shi, Mengfei Duan, Yang Liu, Kailun Yang2026-03-10💻 cs

Interactive World Simulator for Robot Policy Training and Evaluation

Dit artikel introduceert de Interactive World Simulator, een framework dat consistentiemodellen gebruikt om snelle en fysiek consistente wereldmodellen te bouwen die dienen als betrouwbaar surrogaat voor het schaalbaar trainen en evalueren van robotbeleidsstrategieën.

Yixuan Wang, Rhythm Syed, Fangyu Wu, Mengchao Zhang, Aykut Onol, Jose Barreiros, Hooshang Nayyeri, Tony Dear, Huan Zhang, Yunzhu Li2026-03-10🤖 cs.LG

Online Sparse Synthetic Aperture Radar Imaging

Dit artikel introduceert Online FISTA, een geheugen- en rekenefficiënt algoritme dat online beelden van Synthetic Aperture Radar (SAR) reconstrueert via sparse coding, waardoor het mogelijk wordt om complexe taken zoals automatische doelherkenning direct op autonome drones uit te voeren zonder alle ruwe data op te slaan.

Conor Flynn, Radoslav Ivanov, Birsen Yazici2026-03-10💻 cs

DualFlexKAN: Dual-stage Kolmogorov-Arnold Networks with Independent Function Control

Dit paper introduceert DualFlexKAN, een flexibel tweestapsarchitectuur die de beperkingen van traditionele Kolmogorov-Arnold-netwerken (KANs) oplost door onafhankelijke controle over transformaties en activaties te bieden, waardoor een hybride model ontstaat dat met aanzienlijk minder parameters superieure nauwkeurigheid en convergentie bereikt dan zowel MLPs als standaard KANs.

Andrés Ortiz, Nicolás J. Gallego-Molina, Carmen Jiménez-Mesa, Juan M. Górriz, Javier Ramírez2026-03-10🤖 cs.LG

PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition

PRISM introduceert een fundamenteel nieuw model voor het genereren van menselijke bewegingen dat door middel van een per-gewricht gefactoriseerde latente ruimte en ruisvrije conditie-injectie de bestaande beperkingen oplost en een enkel, state-of-the-art systeem biedt voor tekst-naar-beweging, pose-gestuurde generatie en langdurige sequentiële synthese.

Zeyu Ling, Qing Shuai, Teng Zhang, Shiyang Li, Bo Han, Changqing Zou2026-03-10💻 cs

Weakly Supervised Teacher-Student Framework with Progressive Pseudo-mask Refinement for Gland Segmentation

Deze paper presenteert een zwak gesuperviseerd teacher-student raamwerk met progressieve pseudomaskerverfijning dat, gebruikmakend van schaarse patholoogannotaties en een gestabiliseerde teacher-network, nauwkeurige kliersegmentatie in colorectale histopathologie mogelijk maakt zonder de noodzaak voor uitgebreide pixel-voor-pixel labels.

Hikmat Khan, Wei Chen, Muhammad Khalid Khan Niazi2026-03-10💻 cs

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

Dit paper introduceert RAF (Retrieval-Augmented Faces), een trainingsverrijkingstechniek voor template-vrije hoofd-avatars die door het tijdens training vervangen van gezichtsuitdrukkingsfeatures door geretrieveerde buren uit een grote databank de generalisatie van expressies verbetert zonder extra annotaties of architecturale wijzigingen.

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani Lischinski2026-03-10🤖 cs.LG

RBF Weighted Hyper-Involution for RGB-D Object Detection

Deze paper introduceert een real-time twee-stroom RGB-D objectdetectiemodel dat dynamische RBF-gewogen hyper-involutie en een trainbare fuselaag gebruikt om de uitdagingen bij het simultaan verwerken van diepte- en kleurbeelden op te lossen en zo state-of-the-art prestaties te behalen op de NYU Depth V2-benchmarks.

Mehfuz A Rahman, Khushal Das, Jiju Poovvancheri, Neil London, Dong Chen2026-03-09💻 cs

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

Deze paper introduceert een pose-bewust in-context visueel leersysteem (PA-ICVL) voor Vision-Language Models dat de detectie van semantische structurele hallucinaties in cartoon-afbeeldingen aanzienlijk verbetert door naast RGB-beelden ook pose-informatie te gebruiken.

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun Seo2026-03-09🤖 cs.AI

Fuse4Seg: Image Fusion for Multi-Modal Medical Segmentation via Bi-level Optimization

Dit paper introduceert Fuse4Seg, een nieuw raamwerk dat multi-modale medische beeldfusie herformuleert als een bi-niveau optimalisatieprobleem dat wordt geleid door semantische gradiënten van downstream segmentatie, waardoor kritieke tumorgrenzen behouden blijven en de prestaties van bestaande methoden worden overtroffen terwijl de klinische interpreteerbaarheid wordt gewaarborgd.

Yuchen Guo, Junli Gong, Hongmin Cai, Yiu-ming Cheung, Weifeng Su2026-03-09💻 cs

PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization

Het artikel introduceert PACE, een methode die parameter-efficiënt fine-tuning combineert met consistentieregulering om de generalisatie van modellen te verbeteren door gradiëntnormen te verkleinen en kennis uit vooraf getrainde modellen te behouden.

Yao Ni, Shan Zhang, Piotr Koniusz2026-03-09🤖 cs.LG

FALCON: Future-Aware Learning with Contextual Object-Centric Pretraining for UAV Action Recognition

FALCON is een zelftoezichtend voortrainingsmodel dat objectgerichte maskering en toekomstige reconstructie combineert om de prestaties van UAV-actieherkenning op ruwe RGB-beelden te verbeteren door de aandacht te richten op relevante objecten in plaats van rommelige achtergronden.

Ruiqi Xian, Xiyang Wu, Tianrui Guan, Xijun Wang, Boqing Gong, Dinesh Manocha2026-03-09🤖 cs.AI

AuthFace: Towards Authentic Blind Face Restoration with Face-oriented Generative Diffusion Prior

AuthFace is een nieuw raamwerk dat authentieke blind gezichtsherstel bereikt door een op gezichten gerichte generatieve diffusielaag te ontwikkelen via een met fotografen begeleid fijnstelfase op een dataset van 8K-beelden, waardoor onjuiste generaties worden voorkomen en de details van gezichten aanzienlijk worden verbeterd.

Guoqiang Liang, Qingnan Fan, Bingtao Fu, Jinwei Chen, Hong Gu, Lin Wang2026-03-09💻 cs

An Efficient Self-supervised Seismic Data Reconstruction Method Based on Self-Consistency Learning

Deze studie presenteert een efficiënte zelftoezichtsmethode voor het reconstrueren van onregelmatige seismische data, die gebruikmaakt van een lichtgewicht netwerk en zelfconsistentieleren zonder extra datasets, waardoor stabiele en hoogwaardige resultaten worden bereikt voor complexe aardkundige exploratie.

Mingwei Wang, Junheng Peng, Yingtian Liu, Yong Li2026-03-09🤖 cs.LG

PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance

PPLLaVA is een nieuw model dat de rekenkundige inefficiëntie van video-LLM's oplost door middel van prompt-gestuurde tokencompressie, waardoor het zowel de doorvoersnelheid aanzienlijk verbetert als state-of-the-art prestaties behaalt op diverse video-vaardigheden.

Shangkun Sun, Ruyang Liu, Haoran Tang, Yixiao Ge, Haibo Lu, Jiankun Yang, Chen Li2026-03-09💻 cs

Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis

Dit artikel introduceert Ditto, een diffusion-gebaseerd framework voor het real-time genereren van controleerbare praatkoppen met fijne expressies en lage vertraging, door middel van een geoptimaliseerde motion-space diffusiemodel en diverse conditionele signalen.

Tianqi Li, Ruobing Zheng, Minghui Yang + 2 more2026-03-09⚡ eess

Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

Dit paper introduceert LEO, een efficiënt architectuurontwerp dat een gestructureerde mix van visuele encoders combineert met een lichtgewicht fusiestrategie om multimodale taalmodellen te verbeteren voor diverse visuele taken en domeinen zoals autonoom rijden.

Mozhgan Nasr Azadani, James Riddell, Sean Sedwards, Krzysztof Czarnecki2026-03-09💬 cs.CL

← Vorige Volgende →