In-Context Reinforcement Learning for Tool Use in Large Language Models

Die Arbeit stellt In-Context Reinforcement Learning (ICRL) vor, einen reinen Reinforcement-Learning-Ansatz, der durch den Einsatz und die schrittweise Reduzierung von Few-Shot-Beispielen während des Rollouts das teure Supervised Fine-Tuning überflüssig macht und Large Language Models effizient zum Erlernen des Werkzeuggebrauchs befähigt.

Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

Das Paper stellt DSH-Bench vor, ein umfassendes Benchmark mit hierarchischer Taxonomie, Schwierigkeits- und Szenarioanalyse sowie einem neuen Konsistenzmaß, das die Evaluierung und Weiterentwicklung von subjektgetriebenen Text-zu-Bild-Modellen durch detaillierte Diagnosen und eine höhere Übereinstimmung mit menschlichen Bewertungen verbessert.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Die Arbeit stellt das DC-W2S-Framework vor, das durch die Kombination von Selbst- und Nachbarschaftskonsens schwache, verrauschte Überwachungssignale filtert, um zuverlässige Prozess-Belohnungsmodelle für biologische Schlussfolgerungen ohne exhaustive Expertenannotation zu trainieren.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking

Die Arbeit stellt das UIS-Digger-Framework und den UIS-QA-Benchmark vor, um die bisher vernachlässigte Herausforderung der Suche nach unindexierten Informationen zu adressieren und zeigt, dass ein optimiertes Multi-Agenten-System selbst mit kleineren Modellen leistungsfähiger ist als aktuelle State-of-the-Art-LLMs.

Chang Liu, Chuqiao Kuang, Tianyi Zhuang, Yuxin Cheng, Huichi Zhou, Xiaoguang Li, Lifeng Shang2026-03-10💻 cs

Gradually Excavating External Knowledge for Implicit Complex Question Answering

Diese Arbeit stellt einen schrittweisen Rahmen zur aktiven Gewinnung externen Wissens vor, der es großen Sprachmodellen ermöglicht, komplexe implizite Fragen im offenen Bereich durch iteratives Abfragen und logisches Schließen zu beantworten und dabei auf dem StrategyQA-Datensatz einen neuen State-of-the-Art für Modelle der ~10-Milliarden-Parameter-Klasse zu erreichen.

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL

Evidence-Driven Reasoning for Industrial Maintenance Using Heterogeneous Data

Das Paper stellt den „Condition Insight Agent" vor, ein eingesetztes Entscheidungsunterstützungssystem, das durch die Integration heterogener Wartungsdaten, die Einschränkung von LLM-Reasoning auf deterministische Evidenz und eine regelbasierte Verifizierungsschleife zuverlässige, evidenzbasierte Erklärungen und Handlungsempfehlungen für die industrielle Instandhaltung liefert.

Fearghal O'Donncha, Nianjun Zhou, Natalia Martinez, James T Rayfield, Fenno F. Heath III, Abigail Langbridge, Roman Vaculin2026-03-10💻 cs

Is continuous CoT better suited for multi-lingual reasoning?

Die Studie zeigt, dass das kontinuierliche Chain-of-Thought-Verfahren (CODI) im Vergleich zur herkömmlichen Feinabstimmung nicht nur eine bis zu 50-fache Kompression der Denkspuren ermöglicht, sondern auch durch seine sprachinvarianten latenten Repräsentationen insbesondere bei ressourcenarmen Sprachen und Zero-Shot-Szenarien deutlich robustere multilinguale Schlussfolgerungen erzielt.

Ali Hamza Bashir, Behzad Shomali, Markus Frey, Mehdi Ali, Rafet Sifa, David Berghaus2026-03-10🤖 cs.LG

Privacy-Preserving End-to-End Full-Duplex Speech Dialogue Models

Diese Studie zeigt, dass die versteckten Zustände end-to-end Full-Duplex-Sprachmodelle wie SALM-Duplex und Moshi erhebliche Privatsphärenrisiken für die Sprecheridentität bergen, und demonstriert, dass vorgeschlagene Streaming-Anonymisierungsmethoden diese Lecks signifikant reduzieren können, ohne dabei die Antwortlatenz oder die Sprachqualität zu beeinträchtigen.

Nikita Kuzmin, Tao Zhong, Jiajun Deng, Yingke Zhu, Tristan Tsoi, Tianxiang Cao, Simon Lui, Kong Aik Lee, Eng Siong Chng2026-03-10💻 cs

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

Die Arbeit stellt TildeOpen LLM vor, ein 30-Milliarden-Parameter-Modell, das durch Curriculum-Learning und gezielte Datenkuratierung die Leistung für 34 europäische Sprachen, insbesondere für baltische, finno-ugrische und slawische Sprachen, verbessert und dabei eine deutlich gerechtere sprachliche Repräsentation bei begrenzten Rechenressourcen erreicht.

Toms Bergmanis, Martins Kronis, Ingus J\=anis Pretkalninš, D\=avis Nicmanis, Jelizaveta Jelinska, Roberts Rozis, Rinalds V\=iksna, M\=arcis Pinnis2026-03-10💬 cs.CL

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

Die Arbeit kritisiert, dass aktuelle Benchmarks für tabellarische Basis-Modelle wie TabPFN nur Punktschätzer bewerten, und fordert die Einführung von angemessenen Bewertungskennzahlen für probabilistische Regression, insbesondere den Continuous Ranked Probability Score (CRPS), um die Unsicherheit von Vorhersagen zu erfassen und die Modelle entsprechend anzupassen.

Jonas Landsgesell, Pascal Knoll2026-03-10🤖 cs.LG

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Diese Studie stellt zwei neue Fusionsstrategien vor, die eine registrationsbewusste Bildverarbeitung und eine Zuverlässigkeits-gesteuerte Aufmerksamkeitsfusion nutzen, um die Erkennung von unbemannten Luftfahrzeugen (UAVs) durch die Integration heterogener thermischer und visueller Sensordaten signifikant zu verbessern.

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs