cs.CV papers | Gist.Science

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

Dit paper introduceert SFDA-PFT, een lichtgewicht methode voor bronvrije domeinaanpassing die een voorgetraind model aanpast aan ongelabelde neutrale doelgegevens door gebruik te maken van gepersonaliseerde feature-translatie in de latentruimte, waardoor privacybehoud wordt gewaarborgd en de prestaties voor gezichtsuitdrukkingsherkenning worden verbeterd zonder brondata of beeldsynthese.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric GrangerWed, 11 Ma🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

Deze paper introduceert EgoCross, een nieuw benchmark voor het beoordelen van de cross-domein generalisatie van multimodale grote taalmodellen in egocentrische video-vraag-antwoordtaken, waarbij wordt aangetoond dat bestaande modellen moeite hebben met domeinen die afwijken van het dagelijkse leven, zoals chirurgie en extreme sporten.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling WangWed, 11 Ma🤖 cs.AI

You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation

Het paper introduceert YOPO, een minimalistisch, single-stage transformer-model dat monokulaire RGB-afbeeldingen gebruikt om de 9-DoF-pose van onbekende objecten op categorieniveau direct en nauwkeurig te schatten zonder extra data of pseudo-diepte.

Hakjin Lee, Junghoon Seo, Jaehoon SimWed, 11 Ma💻 cs

CoRe-GS: Coarse-to-Refined Gaussian Splatting with Semantic Object Focus

Het artikel introduceert CoRe-GS, een coarse-to-refine raamwerk voor semantische Gaussian Splatting dat de reconstructietijd en -kwaliteit voor robottoepassingen verbetert door zich te focussen op specifieke objecten van belang in plaats van de volledige scène uniform te optimaliseren.

Hannah Schieber, Dominik Frischmann, Victor Schaack, Simon Boche, Angela Schoellig, Stefan Leutenegger, Daniel RothWed, 11 Ma💻 cs

VocSegMRI: Multimodal Learning for Precise Vocal Tract Segmentation in Real-time MRI

Dit paper introduceert VocSegMRI, een multimodaal kader dat video, audio en fonologische signalen integreert via cross-attention en contrastief leren om de segmentatie van de spraaktractus in real-time MRI aanzienlijk te verbeteren.

Daiqi Liu, Tomás Arias-Vergara, Johannes Enk, Fangxu Xing, Maureen Stone, Jerry L. Prince, Jana Hutter, Andreas Maier, Jonghye Woo, Paula Andrea Pérez-ToroWed, 11 Ma💻 cs

Kuramoto Orientation Diffusion Models

Deze paper introduceert een score-based generatief model dat biologisch geïnspireerde Kuramoto-dynamica gebruikt om de coherentie van richtingspatronen in oriëntatie-rijke afbeeldingen, zoals vingerafdrukken en texturen, effectiever te modelleren dan traditionele isotrope diffusie-methoden.

Yue Song, T. Anderson Keller, Sevan Brodjian, Takeru Miyato, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

Dit artikel introduceert CSLICS, een geautomatiseerd camerasysteem dat gebruikmaakt van computerzicht en menselijke feedback om koraalspawning nauwkeurig te tellen, waardoor de arbeidsintensiteit drastisch wordt verminderd en de schaalbaarheid van koraalherstelprojecten op het Groot Barrièrerif wordt vergroot.

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett RaineWed, 11 Ma💻 cs

Learning Encoding-Decoding Direction Pairs to Unveil Concepts of Influence in Deep Vision Networks

Deze paper introduceert een onbewaakte methode om de latente coderings- en decoderingsrichtingen in diepe visuele netwerken te herstellen, waardoor concepten van invloed onthuld kunnen worden voor betere interpretatie, foutopsporing en ingrepen in het model.

Alexandros Doumanoglou, Kurt Driessens, Dimitrios ZarpalasWed, 11 Ma💻 cs

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Dit artikel introduceert VSSFlow, een verenigd flow-matching framework dat video-geconditioneerde geluids- en spraakgeneratie succesvol combineert door middel van een ontward condition-aggregatiemechanisme binnen een Diffusion Transformer-architectuur.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

Dit paper introduceert v-HUB, een nieuw benchmark voor het begrijpen van videohumor dat de beperkingen van multimodale modellen blootlegt en aantoont dat het integreren van geluid de prestaties verbetert.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong ZhengWed, 11 Ma🤖 cs.AI

LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models

Dit paper introduceert LLaVAShield, een veiligheidsframework dat multimodale multi-turn dialogen in Vision-Language Models beschermt door een nieuw dataset en een geautomatiseerd red-teaming-framework te ontwikkelen, waarmee het aanzienlijk beter presteert dan bestaande modulatietools.

Guolei Huang, Qinzhi Peng, Gan Xu, Yao Huang, Yuxuan Lu, Yongjun ShenWed, 11 Ma💻 cs

Mapping Historic Urban Footprints in France: Balancing Quality, Scalability and AI Techniques

Deze studie presenteert een schaalbaar deep learning-pipeline die voor het eerst een landelijk digitaal dataset van stedelijke oppervlakken in Frankrijk uit de periode 1925-1950 genereert door middel van een innovatieve tweestaps U-Net-methode die historische kaarten analyseert om de uitbreiding van steden voor de jaren 70 kwantitatief te onderzoeken.

Walid Rabehi, Marion Le Texier, Rémi LemoyWed, 11 Ma💻 cs

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Dit paper introduceert NavSpace, een benchmark voor het evalueren van ruimtelijke intelligentie in navigatieagenten, en presenteert SNav, een nieuw model dat op deze benchmark en met echte robots superieure prestaties levert.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Deze paper introduceert het nieuwe taakgebied DGLSS-NL voor LiDAR-segmentatie met onvolmaakte labels, presenteert een eerste benchmark en stelt DuNe voor, een dubbelzicht-architectuur die de prestaties aanzienlijk verbetert door consistentie tussen sterke en zwakke weergaven te forceren en vertrouwen-gebaseerde filtering toe te passen.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG

RECODE: Reasoning Through Code Generation for Visual Question Answering

Het paper introduceert RECODE, een agentisch framework dat multimodale redenering verbetert door visuele elementen zoals grafieken en diagrammen om te zetten in verifieerbare uitvoerbare code via een proces van afbeelding naar code en terug.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza FathiWed, 11 Ma🤖 cs.AI

Real-Time Neural Video Compression with Unified Intra and Inter Coding

Deze paper introduceert een real-time neurale videocompressieframework dat intra- en intercodering verenigt binnen één model en een simultane tweeframe-compressie toepast om de compressie-efficiëntie aanzienlijk te verbeteren ten opzichte van bestaande methoden zoals DCVC-RT, terwijl het bovendien problemen met disocclusie en foutpropagatie oplost.

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong LiuWed, 11 Ma💻 cs

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Dit paper introduceert FALCON, een nieuw paradigma dat rijke 3D-ruimtelijke tokens afgeleid van RGB-beelden injecteert in de actiehead van Vision-Language-Action-modellen om de ruimtelijke redenering te verbeteren en state-of-the-art prestaties te bereiken in zowel simulatie als real-world taken.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan ZhouWed, 11 Ma🤖 cs.AI

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

Dit artikel toont aan dat een zorgvuldig geselecteerd subset van lichaamslandmarken, gecombineerd met spline-gebaseerde imputatie, de herkenning van geïsoleerde LIBRAS-gebaren niet alleen even accuraat maakt als geavanceerde methoden, maar ook meer dan vijf keer sneller verwerkt.

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. PaixãoWed, 11 Ma💻 cs

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

Dit paper introduceert SynHLMA, een nieuw raamwerk dat natuurlijke taalinstructies omzet in realistische handbewegingen voor het manipuleren van gearticuleerde objecten door middel van een discrete interactierepresentatie en een taalmodel, wat leidt tot superieure prestaties in het genereren, voorspellen en interpoleren van grijpsequenties voor toepassingen in robotica en virtuele realiteit.

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan GuoWed, 11 Ma🤖 cs.AI

Who Made This? Fake Detection and Source Attribution with Diffusion Features

Dit paper introduceert FRIDA, een lichtgewicht raamwerk dat vooraf getrainde Stable Diffusion-features gebruikt om AI-genereren afbeeldingen zowel te detecteren als de bronmodel te attribueren, zelfs bij onbekende generatoren en met beperkte data.

Simone Bonechi, Paolo Andreini, Barbara Toniella CorradiniWed, 11 Ma💻 cs

← Vorige Volgende →