cs.AI Arbeiten | Gist.Science

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Die Arbeit stellt AutoViVQA vor, einen groß angelegten, automatisch erstellten Datensatz für die visuelle Beantwortung von Fragen auf Vietnamesisch, der Transformer-Architekturen nutzt und verschiedene automatische Evaluierungsmetriken im multilingualen Kontext systematisch vergleicht.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le2026-03-11🤖 cs.AI

ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling

Das Paper stellt ESAinsTOD vor, ein einheitliches End-to-End-Framework für aufgabenorientierte Dialoge, das durch instruktions- und schemabewusste Ausrichtungsmechanismen sowie Vollparameter-Feinabstimmung von LLMs eine überlegene Generalisierung, Robustheit und Leistung auf verschiedenen Benchmarks und in Low-Resource-Szenarien erreicht.

Dechuan Teng, Chunlin Lu, Libo Qin, Wanxiang Che2026-03-11🤖 cs.AI

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

Die Arbeit stellt ActiveUltraFeedback vor, eine modulare Active-Learning-Pipeline, die durch die gezielte Auswahl unsicherer oder qualitativ stark unterschiedlicher Antwortpaare hochwertige Präferenzdaten mit nur einem Sechstel des Annotationsaufwands im Vergleich zu statischen Baselines generiert und so die Leistung von Large Language Models signifikant verbessert.

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas Krause2026-03-11🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

Die Arbeit stellt Mousse vor, einen neuen Optimierer, der durch die Kombination von Muons spektraler Stabilität mit Shampoons kroneckerfaktorisierter Vorbedingung die geometrische Anpassungsfähigkeit in stark konditionierten Landschaften verbessert und so das Training von Sprachmodellen um etwa 12 % beschleunigt.

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai Chen2026-03-11🤖 cs.AI

OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences

Die Arbeit stellt OOD-MMSafe, einen neuen Benchmark zur Bewertung der Fähigkeit von Multimodalen Sprachmodellen, latente Konsequenzen zu erkennen, und schlägt das CASPO-Framework vor, das durch selbstgesteuerte Belohnungen die Sicherheitsvorhersage signifikant verbessert.

Ming Wen, Kun Yang, Jingyu Zhang, Yuxuan Liu, shiwen cui, Shouling Ji, Xingjun Ma2026-03-11🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Die Arbeit stellt MUGEN vor, ein umfassendes Benchmark-System zur Evaluierung von Large Audio-Language-Modellen im Mehr-Audio-Verständnis, das signifikante Leistungseinbußen bei steigender Eingabeanzahl aufdeckt und durch trainingsfreie Strategien wie Audio-Permutational Self-Consistency in Kombination mit Chain-of-Thought die Genauigkeit nachweislich verbessert.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi Lee2026-03-11🤖 cs.AI

Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT

Die Arbeit stellt CVS vor, eine trainingsfreie Methode zur Datenselektion für Vision-Language-SFT, die die Diskrepanz in der Antwortvalidität eines eingefrorenen Modells mit und ohne Frage nutzt, um hochwertige Multimodal-Daten zu identifizieren und so die Leistung bei gleichzeitiger Reduzierung der Rechenkosten zu steigern.

Peng Sun, Huawen Shen, Yi Ban, Tianfan Fu, Yanbo Wang, Yuqiang Li2026-03-11🤖 cs.AI

AutoAgent: Evolving Cognition and Elastic Memory Orchestration for Adaptive Agents

Die Arbeit stellt AutoAgent vor, ein selbstentwickelndes Multi-Agenten-Framework, das durch die Kombination von sich entwickelnder Kognition, kontextsensitiver Entscheidungsfindung und elastischer Orchestrierung des Speichers die Anpassungsfähigkeit autonomer Agenten in dynamischen Umgebungen verbessert, ohne dass ein externes Nachtrainieren erforderlich ist.

Xiaoxing Wang, Ning Liao, Shikun Wei, Chen Tang, Feiyu Xiong2026-03-11🤖 cs.AI

RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

Die Arbeit stellt RbtAct vor, ein neues Framework, das Rebuttals als implizite Supervision nutzt, um mit einem auf Llama-3.1-8B-Instruct basierenden Modell generierte Peer-Review-Feedbacks zu verbessern, die durch eine neue Aufgabe und den RMR-75K-Datensatz spezifischer und handlungsorientierter sind.

Sihong Wu, Yiling Ma, Yilun Zhao, Tiansheng Hu, Owen Jiang, Manasi Patwardhan, Arman Cohan2026-03-11🤖 cs.AI

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Die Arbeit stellt EXPLORE-Bench vor, einen neuen Benchmark auf Basis realer Egocentric-Videos, der zeigt, dass multimodale Sprachmodelle bei der Vorhersage langfristiger physischer Konsequenzen aus Ego-Perspektive erhebliche Schwierigkeiten haben, während eine schrittweise Zerlegung der Aktionen die Leistung zwar verbessert, aber mit hohem Rechenaufwand einhergeht.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

Ego: Embedding-Guided Personalization of Vision-Language Models

Die Arbeit stellt eine effiziente Methode zur Personalisierung von Vision-Language-Modellen vor, die durch die Extraktion und Nutzung von visuellen Tokens aus den internen Aufmerksamkeitsmechanismen des Modells als Konzeptspeicher eine starke Anpassungsfähigkeit bei minimalem Overhead ermöglicht.

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi2026-03-11🤖 cs.AI

World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models

Die Arbeit stellt World2Mind vor, ein trainingsfreies Toolkit, das durch die Generierung strukturierter räumlicher kognitiver Karten und eines allocentrischen Raumbaum-Modells Multimodal- und reine Text-Modelle befähigt, robuste 3D-Raumreasoning-Aufgaben ohne Nachtraining zu lösen.

Shouwei Ruan, Bin Wang, Zhenyu Wu, Qihui Zhu, Yuxiang Zhang, Hang Su, Yubin Wang2026-03-11🤖 cs.AI

First Estimation of Model Parameters for Neutrino-Induced Nucleon Knockout Using Simulation-Based Inference

Diese Studie zeigt, dass simulationsbasierte Inferenz (SBI) ein vielversprechendes Werkzeug zur präziseren Bestimmung von Modellparametern für neutrinoinduzierte Nukleonen-Knockout-Prozesse ist, da sie im Vergleich zu herkömmlichen Methoden bei der Analyse von MicroBooNE-Daten und der Nachbildung der NuWro-Simulation leicht verbesserte Anpassungsergebnisse liefert.

Karla Tame-Narvaez, Steven Gardiner, Aleksandra Ciprijanovic, Giuseppe Cerati2026-03-11⚛️ hep-ph

Quantifying the Necessity of Chain of Thought through Opaque Serial Depth

Die Arbeit führt das Konzept der „opak serial depth" ein, um die Notwendigkeit von Chain-of-Thought-Verläufen für die externe Darstellung komplexer Schlussfolgerungen in Sprachmodellen zu quantifizieren, und liefert durch neue Berechnungsmethoden und Open-Source-Tools numerische Obergrenzen für verschiedene Architekturen, die zeigen, dass Modelle ohne Chain-of-Thought nur begrenzte interne reasoning-Fähigkeiten besitzen.

Jonah Brown-Cohen, David Lindner, Rohin Shah2026-03-11🤖 cs.AI

A Hybrid Quantum-Classical Framework for Financial Volatility Forecasting Based on Quantum Circuit Born Machines

Diese Arbeit stellt ein hybrides Quanten-Klassisch-Framework vor, das LSTM-Netze mit einem Quantum Circuit Born Machine kombiniert, um die Prognosegenauigkeit der Finanzmarktvolatilität im Vergleich zu rein klassischen Modellen signifikant zu verbessern.

Yixiong Chen2026-03-11⚛️ quant-ph

Exploiting Label-Aware Channel Scoring for Adaptive Channel Pruning in Split Learning

Die vorgeschlagene adaptive Kanalpruning-Methode (ACP-SL) nutzt ein labelbewusstes Scoring-Verfahren, um unwichtige Kanäle in Split Learning zu entfernen, wodurch die Kommunikationskosten durch komprimierte Datenübertragung gesenkt und die Testgenauigkeit im Vergleich zu bestehenden Ansätzen verbessert wird.

Jialei Tan, Zheng Lin, Xiangming Cai, Ruoxi Zhu, Zihan Fang, Pingping Chen, Wei Ni2026-03-11🤖 cs.AI

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

Das Paper stellt MITRA vor, ein auf On-Premise-RAG basierendes KI-System für physikalische Kollaborationen wie CMS, das durch eine automatisierte Dokumentenextraktion und eine zweistufige Vektordatenbank-Architektur präzise kontextbezogene Antworten auf Forschungsfragen liefert, während sensible Daten vollständig privat bleiben.

Abhishikth Mallampalli, Sridhara Dasu2026-03-11🤖 cs.AI

Correction of Transformer-Based Models with Smoothing Pseudo-Projector

Diese Arbeit stellt einen leichtgewichtigen „Pseudo-Projektor" vor, der von der Multigrid-Methode inspiriert ist und als Korrektur für versteckte Repräsentationen in Transformer-Modellen dient, um deren Robustheit gegenüber Rauschen zu erhöhen und das Trainingsverhalten zu verbessern, ohne die Kernarchitektur zu verändern.

Vitaly Bulgakov2026-03-11🤖 cs.AI

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Die Arbeit stellt MA-EgoQA vor, einen neuen Benchmark und ein zugehöriges Basismodell namens EgoMAS, um das Verständnis und die Beantwortung von Fragen über parallele, langfristige Egocentric-Videos von mehreren embodied AI-Agenten zu ermöglichen und dabei die aktuellen Grenzen der Systemintegration aufzuzeigen.

Kangsan Kim, Yanlai Yang, Suji Kim, Woongyeong Yeo, Youngwan Lee, Mengye Ren, Sung Ju Hwang2026-03-11🤖 cs.AI

SCENEBench: An Audio Understanding Benchmark Grounded in Assistive and Industrial Use Cases

Die Arbeit stellt SCENEBench vor, ein Benchmark-System für Large Audio Language Models, das Audioverständnis über die reine Spracherkennung hinaus in vier praxisrelevanten Kategorien wie Hintergrundgeräuschverständnis und Lokalisierung bewertet und dabei sowohl synthetische als auch natürliche Daten zur Validierung nutzt.

Laya Iyer, Angelina Wang, Sanmi Koyejo2026-03-11🤖 cs.AI

← Zurück Weiter →