BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Die Arbeit stellt BemaGANv2 vor, einen fortschrittlichen GAN-basierten Vocoder für die hochauflösende Langzeit-Audiogenerierung, der durch den Einsatz von AMP-Modulen im Generator und einer systematischen Evaluierung verschiedener Diskriminator-Kombinationen (insbesondere MED und MRD) zeitliche Kohärenz und harmonische Struktur über längere Zeiträume verbessert.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul Kwon2026-03-10🤖 cs.LG

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

Die Arbeit stellt Co-LoRA vor, eine Methode zur personalisierten Federated Learning, die durch eine aufgabenrelevante Aggregationsstrategie und ein dimensionsinvariantes Modul sowohl Daten- als auch Modellheterogenität in realistischen, multimodalen Szenarien effektiv adressiert und dabei den aktuellen Stand der Technik übertrifft.

Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne Tuytelaars2026-03-10🤖 cs.LG

A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

Die vorgestellte Methode „Motivation-enhanced Reinforcement Finetuning" (MeRF) verbessert das Reinforcement Learning mit verifizierbaren Belohnungen bei großen Reasoning-Modellen, indem sie die Belohnungsfunktion als kontextuelle Motivation direkt in den Prompt integriert, um die Generierung mit dem Optimierungsziel auszurichten und so die Leistung signifikant zu steigern.

Junjie Zhang, Guozheng Ma, Shunyu Liu, Haoyu Wang, Jiaxing Huang, Ting-En Lin, Fei Huang, Yongbin Li, Dacheng Tao2026-03-10💬 cs.CL

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

Die SUBARU-Methode ermöglicht eine signifikante Stromreduzierung bei Hörgeräten durch den gezielten Einsatz von Sub-Nyquist-Abtastung und niedriger Bitauflösung in Kombination mit einem effizienten Upsampling-Verfahren, das dennoch eine hochwertige Sprachverbesserung in Echtzeit gewährleistet.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi Barua2026-03-10💻 cs

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Die Arbeit stellt MCULoRA vor, einen neuen Parameter-effizienten Ansatz für die unvollständige multimodale Emotionserkennung, der durch die Entkopplung gemeinsamer Informationen und eine dynamische Feinabstimmung der Trainingsverhältnisse die Konflikte zwischen Gradienten verschiedener Modalitätskombinationen überwindet und damit die Vorhersagegenauigkeit signifikant verbessert.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Unified Medical Image Segmentation with State Space Modeling Snake

Die Arbeit stellt „Mamba Snake" vor, ein neuartiges Deep-Snake-Framework, das State-Space-Modelle nutzt, um durch die Modellierung interner topologischer Beziehungen und adaptiver Konturverfeinerung die Herausforderungen der einheitlichen medizinischen Bildsegmentierung zu meistern und dabei die Leistung gegenüber aktuellen Methoden signifikant zu steigern.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Die Studie stellt ein auf Vision Transformern (ViT) basierendes Deep-Learning-Framework vor, das mithilfe von Sentinel-2- und Formosat-5-Bilddaten sowie einer schwach überwachten Trainingsstrategie die Segmentierung von Katastrophengebieten für das EVAP-Programm der Taiwan Space Agency verbessert und dabei die Zuverlässigkeit und räumliche Kohärenz der Ergebnisse erhöht.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Flow Matching Meets Biology and Life Science: A Survey

Diese Arbeit bietet die erste umfassende Übersicht über Flow-Matching-Modelle und deren Anwendungen in den Biowissenschaften, indem sie die theoretischen Grundlagen systematisch erläutert, Anwendungsbereiche wie Sequenzmodellierung und Moleküldesign kategorisiert sowie Datensätze, Werkzeuge und zukünftige Forschungsrichtungen zusammenfasst.

Zihao Li, Zhichen Zeng, Xiao Lin, Feihao Fang, Yanru Qu, Zhe Xu, Zhining Liu, Xuying Ning, Tianxin Wei, Ge Liu, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG

CauKer: Classification Time Series Foundation Models Can Be Pretrained on Synthetic Data

Das Paper stellt CauKer vor, einen Algorithmus, der mittels Gauß-Prozess-Kernel-Komposition und strukturellen kausalen Modellen diverse, kausal kohärente synthetische Zeitreihen erzeugt, um die vortrainierte Klassifikation von Zeitreihen-Foundation-Modellen effizienter zu gestalten und dabei klare Skalierungsgesetze im Vergleich zu realen Datensätzen aufzuzeigen.

Shifeng Xie, Vasilii Feofanov, Ambroise Odonnat, Lei Zan, Marius Alonso, Jianfeng Zhang, Themis Palpanas, Lujia Pan, Keli Zhang, Ievgen Redko2026-03-10🤖 cs.LG

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Das Paper stellt Video-EM vor, ein trainingsfreies Framework, das durch die Orchestrierung von LLMs und Werkzeugen zur ereignisbasierten Konstruktion und Verfeinerung einer kompakten episodischen Gedächtnisrepräsentation die Herausforderungen des Verständnisses langer Videos für bestehende Video-LLMs löst.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs