Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

Dit paper introduceert SFDA-PFT, een lichtgewicht methode voor bronvrije domeinaanpassing die een voorgetraind model aanpast aan ongelabelde neutrale doelgegevens door gebruik te maken van gepersonaliseerde feature-translatie in de latentruimte, waardoor privacybehoud wordt gewaarborgd en de prestaties voor gezichtsuitdrukkingsherkenning worden verbeterd zonder brondata of beeldsynthese.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric GrangerWed, 11 Ma🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

Deze paper introduceert EgoCross, een nieuw benchmark voor het beoordelen van de cross-domein generalisatie van multimodale grote taalmodellen in egocentrische video-vraag-antwoordtaken, waarbij wordt aangetoond dat bestaande modellen moeite hebben met domeinen die afwijken van het dagelijkse leven, zoals chirurgie en extreme sporten.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling WangWed, 11 Ma🤖 cs.AI

Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

Dit artikel introduceert CSLICS, een geautomatiseerd camerasysteem dat gebruikmaakt van computerzicht en menselijke feedback om koraalspawning nauwkeurig te tellen, waardoor de arbeidsintensiteit drastisch wordt verminderd en de schaalbaarheid van koraalherstelprojecten op het Groot Barrièrerif wordt vergroot.

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett RaineWed, 11 Ma💻 cs

Mapping Historic Urban Footprints in France: Balancing Quality, Scalability and AI Techniques

Deze studie presenteert een schaalbaar deep learning-pipeline die voor het eerst een landelijk digitaal dataset van stedelijke oppervlakken in Frankrijk uit de periode 1925-1950 genereert door middel van een innovatieve tweestaps U-Net-methode die historische kaarten analyseert om de uitbreiding van steden voor de jaren 70 kwantitatief te onderzoeken.

Walid Rabehi, Marion Le Texier, Rémi LemoyWed, 11 Ma💻 cs

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Deze paper introduceert het nieuwe taakgebied DGLSS-NL voor LiDAR-segmentatie met onvolmaakte labels, presenteert een eerste benchmark en stelt DuNe voor, een dubbelzicht-architectuur die de prestaties aanzienlijk verbetert door consistentie tussen sterke en zwakke weergaven te forceren en vertrouwen-gebaseerde filtering toe te passen.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG

Real-Time Neural Video Compression with Unified Intra and Inter Coding

Deze paper introduceert een real-time neurale videocompressieframework dat intra- en intercodering verenigt binnen één model en een simultane tweeframe-compressie toepast om de compressie-efficiëntie aanzienlijk te verbeteren ten opzichte van bestaande methoden zoals DCVC-RT, terwijl het bovendien problemen met disocclusie en foutpropagatie oplost.

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong LiuWed, 11 Ma💻 cs

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Dit paper introduceert FALCON, een nieuw paradigma dat rijke 3D-ruimtelijke tokens afgeleid van RGB-beelden injecteert in de actiehead van Vision-Language-Action-modellen om de ruimtelijke redenering te verbeteren en state-of-the-art prestaties te bereiken in zowel simulatie als real-world taken.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan ZhouWed, 11 Ma🤖 cs.AI

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

Dit artikel toont aan dat een zorgvuldig geselecteerd subset van lichaamslandmarken, gecombineerd met spline-gebaseerde imputatie, de herkenning van geïsoleerde LIBRAS-gebaren niet alleen even accuraat maakt als geavanceerde methoden, maar ook meer dan vijf keer sneller verwerkt.

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. PaixãoWed, 11 Ma💻 cs

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

Dit paper introduceert SynHLMA, een nieuw raamwerk dat natuurlijke taalinstructies omzet in realistische handbewegingen voor het manipuleren van gearticuleerde objecten door middel van een discrete interactierepresentatie en een taalmodel, wat leidt tot superieure prestaties in het genereren, voorspellen en interpoleren van grijpsequenties voor toepassingen in robotica en virtuele realiteit.

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan GuoWed, 11 Ma🤖 cs.AI