cs.MM Arbeiten | Gist.Science

Soundscapes in Spectrograms: Pioneering Multilabel Classification for South Asian Sounds

Diese Studie stellt eine neuartige, auf Spektrogrammen basierende Methode mit einem Convolutional Neural Network (CNN) vor, die bei der multilabel-Klassifizierung von südasiatischen Umgebungsgeräuschen im Vergleich zu herkömmlichen MFCC-Techniken eine deutlich höhere Genauigkeit erzielt.

Sudip Chakrabarty, Pappu Bishwas, Rajdeep Chatterjee, Tathagata Bandyopadhyay, Digonto Biswas, Bibek HowladerTue, 10 Ma💻 cs

Scalable On-the-fly Transcoding for Adaptive Streaming of Dynamic Point Clouds

Diese Arbeit stellt ein skalierbares System für das adaptive Streaming dynamischer Punktwolken vor, das durch den Einsatz von Caching und spekulativer Transkodierung die Last reduziert und so eine höhere Anzahl gleichzeitiger Clients bei guter Nutzerqualität ermöglicht.

Michael Rudolph, Matthias De Fré, Finn Schnier, Tim Wauter, Amr RizkTue, 10 Ma💻 cs

Data relativistic uncertainty framework for low-illumination anime scenery image enhancement

Diese Studie stellt ein datenbasiertes relativistisches Unsicherheitsframework (DRU) vor, das speziell für die Verbesserung von schlecht beleuchteten Anime-Hintergrundbildern entwickelt wurde, indem es ein neues Datenset erstellt und Unsicherheitsinformationen nutzt, um die Lernziele dynamisch anzupassen und so die Bildqualität über den aktuellen Stand der Technik hinaus zu verbessern.

Yiquan Gao, John SeeThu, 12 Ma🤖 cs.LG

Chain-of-Thought Compression Should Not Be Blind: V-Skip for Efficient Multimodal Reasoning via Dual-Path Anchoring

Die Arbeit stellt V-Skip vor, einen effizienten Dual-Path-Ansatz zur Reduzierung der Latenz bei multimodalen Sprachmodellen, der durch visuelle Anker die „visuelle Amnesie" verhindert und gleichzeitig die Genauigkeit bei einer bis zu 2,9-fachen Beschleunigung erhält.

Dongxu Zhang, Yiding Sun, Cheng Tan, Wenbiao Yan, Ning Yang, Jihua Zhu, Haijun ZhangThu, 12 Ma💬 cs.CL

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

Die Arbeit stellt GOT-JEPA vor, ein Framework zur Vorhersage von Tracking-Modellen mittels Joint-Embedding Predictive Architecture, das in Kombination mit dem OccuSolver-Modul die Generalisierungsfähigkeit und die Verarbeitungsleistung bei Verdeckungen in der generischen Objektverfolgung signifikant verbessert.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu LinThu, 12 Ma🤖 cs.AI

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

Die Arbeit stellt das AMB-DSGDN-Modell vor, das durch adaptive Modality-Balancing-Mechanismen und einen differentiellen Graph-Attention-Ansatz redundante Signale filtert und dominante Modalitäten ausgleicht, um die multimodale Emotionserkennung in Dialogen zu verbessern.

Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin LiThu, 12 Ma🤖 cs.AI

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

Das Papier stellt PRoADS vor, ein provisorisch sicheres und robustes Audio-Steganographie-Framework auf Basis von Diffusionsmodellen, das durch latente Optimierung und eine Rückwärts-Euler-Inversion eine außergewöhnlich niedrige Bitfehlerrate von 0,15 % unter MP3-Kompression erreicht.

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen RenThu, 12 Ma💻 cs

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

Das Papier stellt G-STAR vor, ein End-to-End-System, das ein zeitbewusstes Sprecher-Tracking-Modul mit einem Speech-LLM kombiniert, um für lange, überlappende Mehrpersonengespräche konsistente, zeitgestempelte und sprecherattribuierte Transkripte zu erzeugen.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

P-GSVC: Layered Progressive 2D Gaussian Splatting for Scalable Image and Video

Die Arbeit stellt P-GSVC vor, ein neuartiges, geschichtetes progressives Framework für 2D-Gaussian-Splatting, das durch eine gemeinsame Trainingsstrategie skalierbare und qualitativ hochwertige Bild- und Video-Rekonstruktionen ermöglicht.

Longan Wang, Yuang Shi, Wei Tsang OoiThu, 12 Ma💻 cs

Chasing RATs: Tracing Reading for and as Creative Activity

Die Arbeit stellt „Reading Activity Traces" (RATs) vor, ein Konzept, das Lesen als eigenständige kreative Tätigkeit begreift und durch die Sichtbarmachung von Lese- und Interpretationspfaden – exemplarisch am WikiRAT-Projekt – den Verlust menschlicher Deutungsarbeit angesichts zunehmender Automatisierung durch Algorithmen und KI adressiert.

Sophia Liu, Shm Garanganao AlmedaThu, 12 Ma💻 cs

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Die Arbeit stellt V2M-Zero vor, eine Methode zur Erzeugung von zeitlich synchronisierter Musik aus Videos ohne gepaarte Trainingsdaten, indem sie die gemeinsame zeitliche Struktur beider Modalitäten über intramodale Ereigniskurven nutzt, um Text-zu-Musik-Modelle effektiv für Video-zu-Musik-Aufgaben anzupassen.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. BryanThu, 12 Ma🤖 cs.AI

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

Die vorgestellte Arbeit stellt ein System vor, das Vision-Language-Modelle durch eine posebewusste In-Context-Learning-Methode (PA-ICVL) befähigt, visuelle Halluzinationen in Cartoon-Bildern deutlich genauer zu erkennen als herkömmliche Ansätze, die nur auf RGB-Bilder angewiesen sind.

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun SeoMon, 09 Ma🤖 cs.AI

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

Diese Arbeit stellt einen neuen Testrahmen vor, der anhand psychophysischer Messungen der niederen visuellen Wahrnehmung (wie Kontrastsensitivität und -maskierung) die Leistungsfähigkeit von 34 etablierten Bild- und Videoqualitätsmetriken bewertet und dabei deren spezifische Stärken sowie systematische Schwächen im Vergleich zu menschlichen Sehprinzipien aufdeckt.

Dounia Hammou, Yancheng Cai, Pavan Madhusudanarao, Christos G. Bampis, Rafał K. MantiukMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Diese Arbeit stellt einen end-to-end Ansatz für die audio-visuelle Spracherkennung vor, der durch eine Conformer-basierte Fusionsarchitektur und integrierte Sprachverbesserung auf explizite Masken verzichtet, um semantisch relevante Informationen zu bewahren und die Rauschrobustheit zu steigern.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Der Paper stellt Omni-C vor, einen einzigen dichten Transformer-Encoder, der durch unimodales kontrastives Vor-Training auf großen unalignierten Daten heterogene Modalitäten wie Bilder, Audio und Text effizient in gemeinsamen Repräsentationen vereint und dabei den Bedarf an Mixture-of-Expert-Architekturen, gepaarter Überwachung oder Routing-Overhead eliminiert.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

VDCook:DIY video data cook your MLLMs

Das Paper stellt VDCook vor, ein selbstentwickelndes Video-Daten-Betriebssystem, das Forschern und Domänenteams ermöglicht, durch natürliche Sprachabfragen und automatisierte Retrieval- sowie Syntheseprozesse dynamisch aktualisierbare, metadatenreiche Videodatensätze für das Training von Multimodalen Large Language Models (MLLMs) zu erstellen.

Chengwei WuMon, 09 Ma🤖 cs.AI

Human-Data Interaction, Exploration, and Visualization in the AI Era: Challenges and Opportunities

Diese Arbeit untersucht die durch KI-Entwicklungen ausgelösten Herausforderungen und Chancen für die Mensch-Daten-Interaktion, indem sie bestehende Grenzen in Bezug auf Unsicherheit, Skalierbarkeit und Interpretierbarkeit aufzeigt und einen Paradigmenwechsel hin zu kognitiv und wahrnehmungsorientierten, menschzentrierten Systemen für die Datenanalyse fordert.

Jean-Daniel Fekete, Yifan Hu, Dominik Moritz, Arnab Nandi, Senjuti Basu Roy, Eugene Wu, Nikos Bikakis, George Papastefanatos, Panos K. Chrysanthis, Guoliang Li, Lingyun YuMon, 09 Ma🤖 cs.AI

Alkaid: Resilience to Edit Errors in Provably Secure Steganography via Distance-Constrained Encoding

Die Arbeit stellt Alkaid vor, ein provierbar sicheres Steganographie-Verfahren, das durch distanzbeschränkte Kodierung eine deterministische Robustheit gegenüber Editierfehlern bei gleichzeitig hoher Einbettungskapazität und Effizienz gewährleistet.

Zhihan Cao, Gaolei Li, Jun Wu, Jianhua Li, Hang Zhang, Mingzhe ChenMon, 09 Ma🔢 math

Controllable Dance Generation with Style-Guided Motion Diffusion

Die Arbeit stellt SGMD vor, ein stilgeleitetes Motion-Diffusion-Modell, das Transformer-Architekturen mit einem Stil-Modulationsmodul und einem räumlich-zeitlichen Maskierungsmechanismus kombiniert, um kontrollierbare, stilistisch konsistente und realistische Tanzsequenzen zu generieren, die sowohl zur Musik als auch zu benutzerdefinierten Stilvorgaben passen.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

altiro3D: Scene representation from single image and novel view synthesis

Die Arbeit stellt altiro3D vor, eine freie Bibliothek, die aus einem einzelnen RGB-Bild oder Video mittels Monokularer Tiefenschätzung, Inpainting und effizienter Projektionsalgorithmen realistische 3D-Erlebnisse und Lichtfelddaten für Freisicht-Displays erzeugt.

E. Canessa, L. Tenze2026-03-10💻 cs

← Zurück Weiter →