AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Die Arbeit stellt AutoViVQA vor, einen groß angelegten, automatisch erstellten Datensatz für die visuelle Beantwortung von Fragen auf Vietnamesisch, der Transformer-Architekturen nutzt und verschiedene automatische Evaluierungsmetriken im multilingualen Kontext systematisch vergleicht.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le2026-03-11🤖 cs.AI

ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling

Das Paper stellt ESAinsTOD vor, ein einheitliches End-to-End-Framework für aufgabenorientierte Dialoge, das durch instruktions- und schemabewusste Ausrichtungsmechanismen sowie Vollparameter-Feinabstimmung von LLMs eine überlegene Generalisierung, Robustheit und Leistung auf verschiedenen Benchmarks und in Low-Resource-Szenarien erreicht.

Dechuan Teng, Chunlin Lu, Libo Qin, Wanxiang Che2026-03-11🤖 cs.AI

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

Die Arbeit stellt ActiveUltraFeedback vor, eine modulare Active-Learning-Pipeline, die durch die gezielte Auswahl unsicherer oder qualitativ stark unterschiedlicher Antwortpaare hochwertige Präferenzdaten mit nur einem Sechstel des Annotationsaufwands im Vergleich zu statischen Baselines generiert und so die Leistung von Large Language Models signifikant verbessert.

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas Krause2026-03-11🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

Die Arbeit stellt Mousse vor, einen neuen Optimierer, der durch die Kombination von Muons spektraler Stabilität mit Shampoons kroneckerfaktorisierter Vorbedingung die geometrische Anpassungsfähigkeit in stark konditionierten Landschaften verbessert und so das Training von Sprachmodellen um etwa 12 % beschleunigt.

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai Chen2026-03-11🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Die Arbeit stellt MUGEN vor, ein umfassendes Benchmark-System zur Evaluierung von Large Audio-Language-Modellen im Mehr-Audio-Verständnis, das signifikante Leistungseinbußen bei steigender Eingabeanzahl aufdeckt und durch trainingsfreie Strategien wie Audio-Permutational Self-Consistency in Kombination mit Chain-of-Thought die Genauigkeit nachweislich verbessert.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi Lee2026-03-11🤖 cs.AI

AutoAgent: Evolving Cognition and Elastic Memory Orchestration for Adaptive Agents

Die Arbeit stellt AutoAgent vor, ein selbstentwickelndes Multi-Agenten-Framework, das durch die Kombination von sich entwickelnder Kognition, kontextsensitiver Entscheidungsfindung und elastischer Orchestrierung des Speichers die Anpassungsfähigkeit autonomer Agenten in dynamischen Umgebungen verbessert, ohne dass ein externes Nachtrainieren erforderlich ist.

Xiaoxing Wang, Ning Liao, Shikun Wei, Chen Tang, Feiyu Xiong2026-03-11🤖 cs.AI

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Die Arbeit stellt EXPLORE-Bench vor, einen neuen Benchmark auf Basis realer Egocentric-Videos, der zeigt, dass multimodale Sprachmodelle bei der Vorhersage langfristiger physischer Konsequenzen aus Ego-Perspektive erhebliche Schwierigkeiten haben, während eine schrittweise Zerlegung der Aktionen die Leistung zwar verbessert, aber mit hohem Rechenaufwand einhergeht.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

First Estimation of Model Parameters for Neutrino-Induced Nucleon Knockout Using Simulation-Based Inference

Diese Studie zeigt, dass simulationsbasierte Inferenz (SBI) ein vielversprechendes Werkzeug zur präziseren Bestimmung von Modellparametern für neutrinoinduzierte Nukleonen-Knockout-Prozesse ist, da sie im Vergleich zu herkömmlichen Methoden bei der Analyse von MicroBooNE-Daten und der Nachbildung der NuWro-Simulation leicht verbesserte Anpassungsergebnisse liefert.

Karla Tame-Narvaez, Steven Gardiner, Aleksandra Ciprijanovic, Giuseppe Cerati2026-03-11⚛️ hep-ph

Quantifying the Necessity of Chain of Thought through Opaque Serial Depth

Die Arbeit führt das Konzept der „opak serial depth" ein, um die Notwendigkeit von Chain-of-Thought-Verläufen für die externe Darstellung komplexer Schlussfolgerungen in Sprachmodellen zu quantifizieren, und liefert durch neue Berechnungsmethoden und Open-Source-Tools numerische Obergrenzen für verschiedene Architekturen, die zeigen, dass Modelle ohne Chain-of-Thought nur begrenzte interne reasoning-Fähigkeiten besitzen.

Jonah Brown-Cohen, David Lindner, Rohin Shah2026-03-11🤖 cs.AI

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Die Arbeit stellt MA-EgoQA vor, einen neuen Benchmark und ein zugehöriges Basismodell namens EgoMAS, um das Verständnis und die Beantwortung von Fragen über parallele, langfristige Egocentric-Videos von mehreren embodied AI-Agenten zu ermöglichen und dabei die aktuellen Grenzen der Systemintegration aufzuzeigen.

Kangsan Kim, Yanlai Yang, Suji Kim, Woongyeong Yeo, Youngwan Lee, Mengye Ren, Sung Ju Hwang2026-03-11🤖 cs.AI