cs.CV Arbeiten | Gist.Science

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

Die Arbeit stellt SFDA-PFT vor, eine effiziente, quellenfreie Domänenanpassungsmethode, die durch personalisierte Feature-Translation im latenten Raum die Gesichtsausdruckserkennung in Privatsphären-sensitiven Szenarien verbessert, indem sie sich ausschließlich auf ungelabelte neutrale Zieldaten verlässt und dabei auf die Verfügbarkeit von Quelldaten oder die Synthese von Bildern verzichtet.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric GrangerWed, 11 Ma🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

Das Paper stellt EgoCross vor, ein umfassendes Benchmark-Tool, das die Generalisierungsfähigkeit multimodaler großer Sprachmodelle (MLLMs) bei der egozentrischen Video-Fragebeantwortung über vier herausfordernde Domänen hinaus des alltäglichen Lebens hinweg bewertet und dabei erhebliche Defizite der aktuellen Modelle aufzeigt.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling WangWed, 11 Ma🤖 cs.AI

You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation

Der Artikel stellt YOPO vor, einen minimalistischen, einstufigen Transformer-basierten Ansatz, der die 9-DoF-Pose-Schätzung von Objekten in einer Kategorie aus einzelnen RGB-Bildern direkt mit der Objekterkennung vereint und dabei ohne zusätzliche Tiefendaten oder CAD-Modelle neue State-of-the-Art-Ergebnisse erzielt.

Hakjin Lee, Junghoon Seo, Jaehoon SimWed, 11 Ma💻 cs

CoRe-GS: Coarse-to-Refined Gaussian Splatting with Semantic Object Focus

Die Arbeit stellt CoRe-GS vor, ein grob-zu-fein Framework für semantisches Gaussian Splatting, das durch eine aufgabenspezifische, selektive Optimierung nur relevanter Punkte von Interesse die Trainingszeit drastisch verkürzt und gleichzeitig die Rekonstruktionsqualität für robotische Anwendungen verbessert.

Hannah Schieber, Dominik Frischmann, Victor Schaack, Simon Boche, Angela Schoellig, Stefan Leutenegger, Daniel RothWed, 11 Ma💻 cs

VocSegMRI: Multimodal Learning for Precise Vocal Tract Segmentation in Real-time MRI

Die Arbeit stellt VocSegMRI vor, ein multimodales Framework, das durch die Integration von Video-, Audio- und phonologischen Daten mittels Cross-Attention-Fusion und kontrastivem Lernen eine präzise Echtzeit-Segmentierung des Stimmtrakts in MRT-Bildern ermöglicht und dabei neue State-of-the-Art-Ergebnisse erzielt.

Daiqi Liu, Tomás Arias-Vergara, Johannes Enk, Fangxu Xing, Maureen Stone, Jerry L. Prince, Jana Hutter, Andreas Maier, Jonghye Woo, Paula Andrea Pérez-ToroWed, 11 Ma💻 cs

Kuramoto Orientation Diffusion Models

Diese Arbeit stellt ein score-basiertes generatives Modell vor, das stochastische Kuramoto-Dynamiken nutzt, um die Erzeugung von orientierungsreichen Bildern wie Fingerabdrücken und Texturen durch die Modellierung von Phasensynchronisation auf periodischen Domänen zu verbessern.

Yue Song, T. Anderson Keller, Sevan Brodjian, Takeru Miyato, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

Die Studie stellt das kostengünstige, modulare Kamerasystem CSLICS vor, das mithilfe von Computer-Vision-Techniken und menschlicher Rückkopplung die automatisierte Zählung von Korallenlaich ermöglicht und damit den manuellen Aufwand bei der Riffrestaurierung drastisch reduziert sowie die Überwachung der Larvengesundheit verbessert.

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett RaineWed, 11 Ma💻 cs

Learning Encoding-Decoding Direction Pairs to Unveil Concepts of Influence in Deep Vision Networks

Diese Arbeit stellt eine unüberwachte Methode vor, die durch die Identifizierung von Entschlüsselungsrichtungen mittels Aktivierungs-Clustering und die Schätzung von Verschlüsselungsrichtungen über Signalvektoren sowie Uncertainty Region Alignment die latenten Mechanismen zur Kodierung und Dekodierung von Konzepten in Deep-Vision-Netzwerken aufdeckt, um deren Black-Box-Charakter zu durchdringen und interpretierbare Eingriffe zu ermöglichen.

Alexandros Doumanoglou, Kurt Driessens, Dimitrios ZarpalasWed, 11 Ma💻 cs

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Das Papier stellt VSSFlow vor, ein einheitliches Flow-Matching-Framework auf Basis von Diffusion Transformern, das Video-zu-Sound- und Visuelles Text-zu-Sprache-Generierung durch eine neuartige, entkoppelte Bedingungsaggregation erfolgreich vereint und dabei durch gemeinsames Lernen sogar die Leistung spezialisierter State-of-the-Art-Modelle übertrifft.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

Die Studie stellt v-HUB vor, ein neues Benchmark für das Verständnis von Videohumor, das zeigt, dass multimodale Sprachmodelle durch die Einbeziehung von Umgebungsgeräuschen ihre Fähigkeit verbessern können, Humor in visuellen Szenarien zu erfassen.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong ZhengWed, 11 Ma🤖 cs.AI

LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models

Das Paper stellt LLaVAShield vor, ein Sicherheitsframework für multimodale Mehrdialoge, das zusammen mit dem MMDS-Datensatz und dem MMRT-Red-Teaming-Ansatz entwickelt wurde, um die Grenzen bestehender Inhaltsmoderation zu überwinden und VLMs effektiver vor komplexen, kontextabhängigen Risiken zu schützen.

Guolei Huang, Qinzhi Peng, Gan Xu, Yao Huang, Yuxuan Lu, Yongjun ShenWed, 11 Ma💻 cs

Mapping Historic Urban Footprints in France: Balancing Quality, Scalability and AI Techniques

Diese Studie überwindet die Datenlücke für den französischen Stadtflächenwandel vor den 1970er-Jahren, indem sie eine skalierbare Deep-Learning-Pipeline mit einem zweistufigen U-Net-Ansatz entwickelt, um aus historischen Karten (1925–1950) erstmals einen flächendeckenden, offenen Datensatz urbaner Strukturen für ganz Frankreich zu erstellen.

Walid Rabehi, Marion Le Texier, Rémi LemoyWed, 11 Ma💻 cs

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Die Arbeit stellt mit NavSpace ein neues Benchmark-System zur systematischen Evaluierung der räumlichen Intelligenz von Navigationsagenten vor und führt das überlegene Modell SNav ein, das sowohl auf diesem Benchmark als auch in realen Robotertests neue Maßstäbe setzt.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Die Arbeit stellt das neue Forschungsgebiet der Domänengeneralisierung für LiDAR-basierte semantische Segmentierung unter verrauschten Labels vor, führt einen Benchmark ein und schlägt mit DuNe ein dual-sichtiges Framework vor, das durch konsistente Feature-Lernung und konfidenzbasiertes Filtern robuste Ergebnisse unter Domänenverschiebungen und Labelrauschen erzielt.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG

RECODE: Reasoning Through Code Generation for Visual Question Answering

Das Paper stellt RECODE vor, einen agentenbasierten Rahmen, der durch das Reverse-Engineering von visuellen Eingaben in ausführbaren Code (Derendering) eine verifizierbare und präzise multimodale Reasoning-Fähigkeit für strukturierte Grafiken wie Diagramme und Schaubilder ermöglicht.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza FathiWed, 11 Ma🤖 cs.AI

Real-Time Neural Video Compression with Unified Intra and Inter Coding

Die vorgestellte Arbeit stellt ein Echtzeit-Neurales-Videokompressions-Framework mit vereinheitlichter Intra- und Inter-Codierung vor, das durch die adaptive Verarbeitung jedes Einzelbildes in einem einzigen Modell sowie eine simultane Zwei-Bild-Kompression Probleme wie Disokklusion und Fehlerfortpflanzung löst und dabei eine signifikant bessere Kompressionseffizienz als DCVC-RT bei gleichzeitiger Wahrung der Echtzeitfähigkeit erreicht.

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong LiuWed, 11 Ma💻 cs

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Die Arbeit stellt FALCON vor, ein neues Paradigma für Vision-Language-Action-Modelle, das durch die Integration von räumlichen Grundwissen aus 3D-Spatial-Foundation-Modellen in den Aktionskopf die Lücke zwischen 2D-Vision und 3D-Aktion schließt und damit in Simulationen sowie realen Umgebungen neue Maßstäbe in Bezug auf Generalisierung und Robustheit setzt.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan ZhouWed, 11 Ma🤖 cs.AI

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

Diese Studie zeigt, dass die Auswahl eines geeigneten Teilsets von Körpermarkierungen in Kombination mit einer Spline-basierten Imputation die Genauigkeit der Erkennung isolierter Gebärden der brasilianischen Gebärdensprache (LIBRAS) auf das Niveau modernster Methoden hebt und gleichzeitig die Verarbeitungszeit im Vergleich zu früheren Ansätzen um das Fünffache reduziert.

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. PaixãoWed, 11 Ma💻 cs

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

Die Arbeit stellt SynHLMA vor, ein neuartiges Framework, das mithilfe einer diskreten Darstellung und eines sprachbasierten Modells Hand-Manipulationssequenzen für artikulierte Objekte generiert, um natürliche Sprachanweisungen in realistische Greifbewegungen zu übersetzen.

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan GuoWed, 11 Ma🤖 cs.AI

Who Made This? Fake Detection and Source Attribution with Diffusion Features

Die Arbeit stellt FRIDA vor, ein leichtgewichtiges Framework, das Merkmale eines vortrainierten Stable-Diffusion-Modells nutzt, um KI-generierte Bilder ohne Training zu erkennen und deren Ursprungsmodell zuzuordnen.

Simone Bonechi, Paolo Andreini, Barbara Toniella CorradiniWed, 11 Ma💻 cs

← Zurück Weiter →