Soundscapes in Spectrograms: Pioneering Multilabel Classification for South Asian Sounds

Diese Studie stellt eine neuartige, auf Spektrogrammen basierende Methode mit einem Convolutional Neural Network (CNN) vor, die bei der multilabel-Klassifizierung von südasiatischen Umgebungsgeräuschen im Vergleich zu herkömmlichen MFCC-Techniken eine deutlich höhere Genauigkeit erzielt.

Sudip Chakrabarty, Pappu Bishwas, Rajdeep Chatterjee, Tathagata Bandyopadhyay, Digonto Biswas, Bibek HowladerTue, 10 Ma💻 cs

Data relativistic uncertainty framework for low-illumination anime scenery image enhancement

Diese Studie stellt ein datenbasiertes relativistisches Unsicherheitsframework (DRU) vor, das speziell für die Verbesserung von schlecht beleuchteten Anime-Hintergrundbildern entwickelt wurde, indem es ein neues Datenset erstellt und Unsicherheitsinformationen nutzt, um die Lernziele dynamisch anzupassen und so die Bildqualität über den aktuellen Stand der Technik hinaus zu verbessern.

Yiquan Gao, John SeeThu, 12 Ma🤖 cs.LG

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

Die Arbeit stellt GOT-JEPA vor, ein Framework zur Vorhersage von Tracking-Modellen mittels Joint-Embedding Predictive Architecture, das in Kombination mit dem OccuSolver-Modul die Generalisierungsfähigkeit und die Verarbeitungsleistung bei Verdeckungen in der generischen Objektverfolgung signifikant verbessert.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu LinThu, 12 Ma🤖 cs.AI

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

Diese Arbeit stellt einen neuen Testrahmen vor, der anhand psychophysischer Messungen der niederen visuellen Wahrnehmung (wie Kontrastsensitivität und -maskierung) die Leistungsfähigkeit von 34 etablierten Bild- und Videoqualitätsmetriken bewertet und dabei deren spezifische Stärken sowie systematische Schwächen im Vergleich zu menschlichen Sehprinzipien aufdeckt.

Dounia Hammou, Yancheng Cai, Pavan Madhusudanarao, Christos G. Bampis, Rafał K. MantiukMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Diese Arbeit stellt einen end-to-end Ansatz für die audio-visuelle Spracherkennung vor, der durch eine Conformer-basierte Fusionsarchitektur und integrierte Sprachverbesserung auf explizite Masken verzichtet, um semantisch relevante Informationen zu bewahren und die Rauschrobustheit zu steigern.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Der Paper stellt Omni-C vor, einen einzigen dichten Transformer-Encoder, der durch unimodales kontrastives Vor-Training auf großen unalignierten Daten heterogene Modalitäten wie Bilder, Audio und Text effizient in gemeinsamen Repräsentationen vereint und dabei den Bedarf an Mixture-of-Expert-Architekturen, gepaarter Überwachung oder Routing-Overhead eliminiert.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

Human-Data Interaction, Exploration, and Visualization in the AI Era: Challenges and Opportunities

Diese Arbeit untersucht die durch KI-Entwicklungen ausgelösten Herausforderungen und Chancen für die Mensch-Daten-Interaktion, indem sie bestehende Grenzen in Bezug auf Unsicherheit, Skalierbarkeit und Interpretierbarkeit aufzeigt und einen Paradigmenwechsel hin zu kognitiv und wahrnehmungsorientierten, menschzentrierten Systemen für die Datenanalyse fordert.

Jean-Daniel Fekete, Yifan Hu, Dominik Moritz, Arnab Nandi, Senjuti Basu Roy, Eugene Wu, Nikos Bikakis, George Papastefanatos, Panos K. Chrysanthis, Guoliang Li, Lingyun YuMon, 09 Ma🤖 cs.AI