Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

Die Arbeit stellt SFDA-PFT vor, eine effiziente, quellenfreie Domänenanpassungsmethode, die durch personalisierte Feature-Translation im latenten Raum die Gesichtsausdruckserkennung in Privatsphären-sensitiven Szenarien verbessert, indem sie sich ausschließlich auf ungelabelte neutrale Zieldaten verlässt und dabei auf die Verfügbarkeit von Quelldaten oder die Synthese von Bildern verzichtet.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric GrangerWed, 11 Ma🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

Das Paper stellt EgoCross vor, ein umfassendes Benchmark-Tool, das die Generalisierungsfähigkeit multimodaler großer Sprachmodelle (MLLMs) bei der egozentrischen Video-Fragebeantwortung über vier herausfordernde Domänen hinaus des alltäglichen Lebens hinweg bewertet und dabei erhebliche Defizite der aktuellen Modelle aufzeigt.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling WangWed, 11 Ma🤖 cs.AI

CoRe-GS: Coarse-to-Refined Gaussian Splatting with Semantic Object Focus

Die Arbeit stellt CoRe-GS vor, ein grob-zu-fein Framework für semantisches Gaussian Splatting, das durch eine aufgabenspezifische, selektive Optimierung nur relevanter Punkte von Interesse die Trainingszeit drastisch verkürzt und gleichzeitig die Rekonstruktionsqualität für robotische Anwendungen verbessert.

Hannah Schieber, Dominik Frischmann, Victor Schaack, Simon Boche, Angela Schoellig, Stefan Leutenegger, Daniel RothWed, 11 Ma💻 cs

VocSegMRI: Multimodal Learning for Precise Vocal Tract Segmentation in Real-time MRI

Die Arbeit stellt VocSegMRI vor, ein multimodales Framework, das durch die Integration von Video-, Audio- und phonologischen Daten mittels Cross-Attention-Fusion und kontrastivem Lernen eine präzise Echtzeit-Segmentierung des Stimmtrakts in MRT-Bildern ermöglicht und dabei neue State-of-the-Art-Ergebnisse erzielt.

Daiqi Liu, Tomás Arias-Vergara, Johannes Enk, Fangxu Xing, Maureen Stone, Jerry L. Prince, Jana Hutter, Andreas Maier, Jonghye Woo, Paula Andrea Pérez-ToroWed, 11 Ma💻 cs

Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

Die Studie stellt das kostengünstige, modulare Kamerasystem CSLICS vor, das mithilfe von Computer-Vision-Techniken und menschlicher Rückkopplung die automatisierte Zählung von Korallenlaich ermöglicht und damit den manuellen Aufwand bei der Riffrestaurierung drastisch reduziert sowie die Überwachung der Larvengesundheit verbessert.

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett RaineWed, 11 Ma💻 cs

Learning Encoding-Decoding Direction Pairs to Unveil Concepts of Influence in Deep Vision Networks

Diese Arbeit stellt eine unüberwachte Methode vor, die durch die Identifizierung von Entschlüsselungsrichtungen mittels Aktivierungs-Clustering und die Schätzung von Verschlüsselungsrichtungen über Signalvektoren sowie Uncertainty Region Alignment die latenten Mechanismen zur Kodierung und Dekodierung von Konzepten in Deep-Vision-Netzwerken aufdeckt, um deren Black-Box-Charakter zu durchdringen und interpretierbare Eingriffe zu ermöglichen.

Alexandros Doumanoglou, Kurt Driessens, Dimitrios ZarpalasWed, 11 Ma💻 cs

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Das Papier stellt VSSFlow vor, ein einheitliches Flow-Matching-Framework auf Basis von Diffusion Transformern, das Video-zu-Sound- und Visuelles Text-zu-Sprache-Generierung durch eine neuartige, entkoppelte Bedingungsaggregation erfolgreich vereint und dabei durch gemeinsames Lernen sogar die Leistung spezialisierter State-of-the-Art-Modelle übertrifft.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

Mapping Historic Urban Footprints in France: Balancing Quality, Scalability and AI Techniques

Diese Studie überwindet die Datenlücke für den französischen Stadtflächenwandel vor den 1970er-Jahren, indem sie eine skalierbare Deep-Learning-Pipeline mit einem zweistufigen U-Net-Ansatz entwickelt, um aus historischen Karten (1925–1950) erstmals einen flächendeckenden, offenen Datensatz urbaner Strukturen für ganz Frankreich zu erstellen.

Walid Rabehi, Marion Le Texier, Rémi LemoyWed, 11 Ma💻 cs

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Die Arbeit stellt das neue Forschungsgebiet der Domänengeneralisierung für LiDAR-basierte semantische Segmentierung unter verrauschten Labels vor, führt einen Benchmark ein und schlägt mit DuNe ein dual-sichtiges Framework vor, das durch konsistente Feature-Lernung und konfidenzbasiertes Filtern robuste Ergebnisse unter Domänenverschiebungen und Labelrauschen erzielt.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG

Real-Time Neural Video Compression with Unified Intra and Inter Coding

Die vorgestellte Arbeit stellt ein Echtzeit-Neurales-Videokompressions-Framework mit vereinheitlichter Intra- und Inter-Codierung vor, das durch die adaptive Verarbeitung jedes Einzelbildes in einem einzigen Modell sowie eine simultane Zwei-Bild-Kompression Probleme wie Disokklusion und Fehlerfortpflanzung löst und dabei eine signifikant bessere Kompressionseffizienz als DCVC-RT bei gleichzeitiger Wahrung der Echtzeitfähigkeit erreicht.

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong LiuWed, 11 Ma💻 cs

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Die Arbeit stellt FALCON vor, ein neues Paradigma für Vision-Language-Action-Modelle, das durch die Integration von räumlichen Grundwissen aus 3D-Spatial-Foundation-Modellen in den Aktionskopf die Lücke zwischen 2D-Vision und 3D-Aktion schließt und damit in Simulationen sowie realen Umgebungen neue Maßstäbe in Bezug auf Generalisierung und Robustheit setzt.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan ZhouWed, 11 Ma🤖 cs.AI

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

Diese Studie zeigt, dass die Auswahl eines geeigneten Teilsets von Körpermarkierungen in Kombination mit einer Spline-basierten Imputation die Genauigkeit der Erkennung isolierter Gebärden der brasilianischen Gebärdensprache (LIBRAS) auf das Niveau modernster Methoden hebt und gleichzeitig die Verarbeitungszeit im Vergleich zu früheren Ansätzen um das Fünffache reduziert.

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. PaixãoWed, 11 Ma💻 cs