cs.AI Arbeiten | Gist.Science

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Die Arbeit stellt MMTU vor, ein umfassendes Benchmark mit über 28.000 Fragen zu 25 realen Tabellenaufgaben, das die aktuellen Grenzen von KI-Modellen bei der Experten-Nutzung strukturierter Daten aufzeigt und als Impuls für zukünftige Fortschritte dient.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Die Arbeit stellt BemaGANv2 vor, einen fortschrittlichen GAN-basierten Vocoder für die hochauflösende Langzeit-Audiogenerierung, der durch den Einsatz von AMP-Modulen im Generator und einer systematischen Evaluierung verschiedener Diskriminator-Kombinationen (insbesondere MED und MRD) zeitliche Kohärenz und harmonische Struktur über längere Zeiträume verbessert.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul Kwon2026-03-10🤖 cs.LG

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

Die Arbeit stellt Co-LoRA vor, eine Methode zur personalisierten Federated Learning, die durch eine aufgabenrelevante Aggregationsstrategie und ein dimensionsinvariantes Modul sowohl Daten- als auch Modellheterogenität in realistischen, multimodalen Szenarien effektiv adressiert und dabei den aktuellen Stand der Technik übertrifft.

Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne Tuytelaars2026-03-10🤖 cs.LG

Context Matters! Relaxing Goals with LLMs for Feasible 3D Scene Planning

Die Arbeit stellt ContextMatters vor, ein Framework, das Large Language Models und klassische Planung kombiniert, um durch kontextabhängige Ziellockerung auf 3D-Scene-Graphen die Erfolgsrate von Embodied Agents in komplexen Umgebungen signifikant zu steigern.

Emanuele Musumeci, Michele Brienza, Francesco Argenziano, Abdel Hakim Drid, Vincenzo Suriani, Daniele Nardi, Domenico D. Bloisi2026-03-10💻 cs

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

Die Autoren stellen einen halb-selbstüberwachten Lernansatz namens GLMask vor, der mit minimaler manueller Annotation eine hochleistungsfähige Instanzsegmentierung ermöglicht und sowohl bei der Erkennung von Weizenähren als auch auf dem COCO-Datensatz neue State-of-the-Art-Ergebnisse erzielt.

Keyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness2026-03-10🤖 cs.LG

Adaptive Batch-Wise Sample Scheduling for Direct Preference Optimization

Die Arbeit stellt SamS vor, einen effizienten Algorithmus, der durch adaptive, batch-basierte Stichprobenplanung den Direct Preference Optimization (DPO) für Large Language Models verbessert, indem er die sich entwickelnden Modellzustände während des Trainings berücksichtigt, ohne den Kernalgorithmus zu verändern.

Zixuan Huang, Yikun Ban, Lean Fu, Xiaojie Li, Zhongxiang Dai, Jianxin Li, Deqing Wang2026-03-10🤖 cs.LG

A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

Die vorgestellte Methode „Motivation-enhanced Reinforcement Finetuning" (MeRF) verbessert das Reinforcement Learning mit verifizierbaren Belohnungen bei großen Reasoning-Modellen, indem sie die Belohnungsfunktion als kontextuelle Motivation direkt in den Prompt integriert, um die Generierung mit dem Optimierungsziel auszurichten und so die Leistung signifikant zu steigern.

Junjie Zhang, Guozheng Ma, Shunyu Liu, Haoyu Wang, Jiaxing Huang, Ting-En Lin, Fei Huang, Yongbin Li, Dacheng Tao2026-03-10💬 cs.CL

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

Die SUBARU-Methode ermöglicht eine signifikante Stromreduzierung bei Hörgeräten durch den gezielten Einsatz von Sub-Nyquist-Abtastung und niedriger Bitauflösung in Kombination mit einem effizienten Upsampling-Verfahren, das dennoch eine hochwertige Sprachverbesserung in Echtzeit gewährleistet.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi Barua2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

Das Paper stellt LD-RPS vor, eine datasetfreie, einheitliche Methode zur Bildwiederherstellung, die durch rekurrentes Posterior-Sampling mit einem vortrainierten latenten Diffusionsmodell und multimodalen semantischen Priors verschiedene Degradationen ohne spezifisches Training bewältigt.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Noisy PDE Training Requires Bigger PINNs

Die Studie zeigt, dass Physics-Informed Neural Networks (PINNs) bei verrauschten Daten eine Mindestgröße überschreiten müssen, um einen empirischen Fehler unter die Varianz des Rauschens zu drücken, wobei eine reine Erhöhung der Stichprobenanzahl allein keine Verbesserung garantiert.

Sebastien Andre-Sloan, Anirbit Mukherjee, Matthew Colbrook2026-03-10🤖 cs.LG

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Die Arbeit stellt MCULoRA vor, einen neuen Parameter-effizienten Ansatz für die unvollständige multimodale Emotionserkennung, der durch die Entkopplung gemeinsamer Informationen und eine dynamische Feinabstimmung der Trainingsverhältnisse die Konflikte zwischen Gradienten verschiedener Modalitätskombinationen überwindet und damit die Vorhersagegenauigkeit signifikant verbessert.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

Die Arbeit identifiziert die „Agreement Bias" als zentrales Hindernis für Multimodale LLMs als Verifizierer und schlägt mit SGV eine zweistufige, selbstverankerte Methode vor, die die Fehlererkennung und Aufgabenabschlussraten in Bereichen wie Webnavigation und Robotik signifikant verbessert.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt Kira2026-03-10🤖 cs.LG

Unified Medical Image Segmentation with State Space Modeling Snake

Die Arbeit stellt „Mamba Snake" vor, ein neuartiges Deep-Snake-Framework, das State-Space-Modelle nutzt, um durch die Modellierung interner topologischer Beziehungen und adaptiver Konturverfeinerung die Herausforderungen der einheitlichen medizinischen Bildsegmentierung zu meistern und dabei die Leistung gegenüber aktuellen Methoden signifikant zu steigern.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

InsightX Agent: An LMM-based Agentic Framework with Integrated Tools for Reliable X-ray NDT Analysis

Der Artikel stellt InsightX Agent vor, ein neuartiges Framework auf Basis von Large Multimodal Models, das durch die Koordination eines Sparse Deformable Multi-Scale Detektors und eines evidenzbasierten Reflexionswerkzeugs zuverlässige, interpretierbare und interaktive Röntgen-NDT-Analysen ermöglicht.

Jiale Liu, Huan Wang, Yue Zhang + 4 more2026-03-10🤖 cs.AI

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Die Studie stellt ein auf Vision Transformern (ViT) basierendes Deep-Learning-Framework vor, das mithilfe von Sentinel-2- und Formosat-5-Bilddaten sowie einer schwach überwachten Trainingsstrategie die Segmentierung von Katastrophengebieten für das EVAP-Programm der Taiwan Space Agency verbessert und dabei die Zuverlässigkeit und räumliche Kohärenz der Ergebnisse erhöht.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Flow Matching Meets Biology and Life Science: A Survey

Diese Arbeit bietet die erste umfassende Übersicht über Flow-Matching-Modelle und deren Anwendungen in den Biowissenschaften, indem sie die theoretischen Grundlagen systematisch erläutert, Anwendungsbereiche wie Sequenzmodellierung und Moleküldesign kategorisiert sowie Datensätze, Werkzeuge und zukünftige Forschungsrichtungen zusammenfasst.

Zihao Li, Zhichen Zeng, Xiao Lin, Feihao Fang, Yanru Qu, Zhe Xu, Zhining Liu, Xuying Ning, Tianxin Wei, Ge Liu, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG

Goal Alignment in LLM-Based User Simulators for Conversational AI

Diese Arbeit stellt das UGST-Framework vor, das durch ein dreistufiges Verfahren und neue Evaluierungsmetriken die Fähigkeit von LLM-basierten User-Simulatoren verbessert, ihre Ziele über mehrere Gesprächsdurchgänge hinweg konsistent zu verfolgen und zielgerichtete Antworten zu generieren.

Shuhaib Mehri, Xiaocheng Yang, Takyoung Kim, Gokhan Tur, Shikib Mehri, Dilek Hakkani-Tür2026-03-10💬 cs.CL

CauKer: Classification Time Series Foundation Models Can Be Pretrained on Synthetic Data

Das Paper stellt CauKer vor, einen Algorithmus, der mittels Gauß-Prozess-Kernel-Komposition und strukturellen kausalen Modellen diverse, kausal kohärente synthetische Zeitreihen erzeugt, um die vortrainierte Klassifikation von Zeitreihen-Foundation-Modellen effizienter zu gestalten und dabei klare Skalierungsgesetze im Vergleich zu realen Datensätzen aufzuzeigen.

Shifeng Xie, Vasilii Feofanov, Ambroise Odonnat, Lei Zan, Marius Alonso, Jianfeng Zhang, Themis Palpanas, Lujia Pan, Keli Zhang, Ievgen Redko2026-03-10🤖 cs.LG

GraphProp: Training the Graph Foundation Models using Graph Properties

Die Arbeit stellt GraphProp vor, ein zweiphasiges Trainingsverfahren für Graph-Foundation-Modelle, das durch die Vorhersage struktureller Graphinvarianten eine robuste domänenübergreifende Generalisierung erreicht und insbesondere bei Graphen ohne Knotenattribute überlegene Leistung in überwachtem und Few-Shot-Learning zeigt.

Ziheng Sun, Qi Feng, Lehao Lin, Chris Ding, Jicong Fan2026-03-10🤖 cs.LG

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Das Paper stellt Video-EM vor, ein trainingsfreies Framework, das durch die Orchestrierung von LLMs und Werkzeugen zur ereignisbasierten Konstruktion und Verfeinerung einer kompakten episodischen Gedächtnisrepräsentation die Herausforderungen des Verständnisses langer Videos für bestehende Video-LLMs löst.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

← Zurück Weiter →