Query-focused and Memory-aware Reranker for Long Context Processing

Die Autoren stellen einen leichten und effektiven Reranker vor, der auf Aufmerksamkeitswerten ausgewählter Schichten in Sprachmodellen basiert, um eine listweise Relevanzschätzung ohne Likert-Skalen-Supervision zu ermöglichen und dabei neue State-of-the-Art-Ergebnisse auf Benchmarks für lange Kontexte und Dialogverständnis zu erzielen.

Yuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin, Weiping Wang, Jie Zhou2026-03-11💬 cs.CL

Missing-by-Design: Certifiable Modality Deletion for Revocable Multimodal Sentiment Analysis

Die Arbeit stellt „Missing-by-Design" (MBD) vor, ein einheitliches Framework für multimodale Sentiment-Analyse, das durch strukturierte Repräsentationslernen und einen zertifizierbaren Parameter-Modifikationsprozess die selektive und nachweisbare Löschung spezifischer Datenmodalitäten ermöglicht, ohne die Vorhersagegenauigkeit bei unvollständigen Eingaben zu beeinträchtigen.

Rong Fu, Ziming Wang, Chunlei Meng, Jiaxuan Lu, Jiekai Wu, Kangan Qian, Hao Zhang, Simon Fong2026-03-11🤖 cs.LG

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

Die Arbeit stellt AuditBench vor, einen Benchmark mit 56 Sprachmodellen, die versteckte, problematische Verhaltensweisen aufweisen, um die Wirksamkeit von Ausrichtungsaudit-Techniken zu evaluieren und dabei festzustellen, dass schwarze-Box-Tools sowie scaffolding-basierte Prompts effektiver sind als weiße-Box-Methoden, während die Auditierbarkeit stark von der Trainingsmethode abhängt.

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan Wang2026-03-11💬 cs.CL

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

Die Arbeit stellt SkillCraft vor, einen Benchmark und ein Evaluierungsprotokoll, das die Fähigkeit von LLM-Agenten testet, wiederverwendbare Werkzeugkombinationen („Skills") zu bilden und zu nutzen, was zu erheblichen Effizienzsteigerungen und einer starken Korrelation zwischen Erfolg und kompositorischer Fähigkeit führt.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye Teh2026-03-11💬 cs.CL

PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking

Das Paper stellt PonderLM-3 vor, ein vortrainiertes Framework, das durch differenzierbare Maskierung während des Trainings und eine konsistente Pruning-Regel beim Inferenzvorgang eine adaptive, tokenweise Zuweisung von Rechenleistung ermöglicht, wodurch die Berechnungskosten nur bei tatsächlichem Nutzen anfallen und eine effizientere Pareto-Grenze erreicht wird.

He Li, Feichen Song, Boyi Zeng, Shixiang Song, Zhiqin John Xu, Ziwei He, Zhouhan Lin2026-03-11💬 cs.CL

Fish Audio S2 Technical Report

Der technische Bericht stellt Fish Audio S2 vor, ein Open-Source-Text-to-Speech-System, das durch mehrstufiges Training und eine spezielle Datenpipeline eine natürliche Sprachsteuerung, Multi-Speaker-Fähigkeiten und Multi-Turn-Generation ermöglicht und dabei mit einer effizienten SGLang-Inferenz-Engine eine Echtzeitfaktor von 0,195 sowie eine Latenz unter 100 ms erreicht.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han2026-03-11🤖 cs.AI

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

Das Paper stellt MultiGraSCCo vor, ein multilinguales Benchmark-Dataset mit über 2.500 Annotationen persönlicher Identifikatoren in zehn Sprachen, das durch maschinelle Übersetzung und kulturelle Anpassung synthetischer medizinischer Daten erstellt wurde, um die Entwicklung und Validierung von Anonymisierungssystemen zu unterstützen.

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland Roller2026-03-11💬 cs.CL

ConFu: Contemplate the Future for Better Speculative Sampling

Die Arbeit stellt ConFu vor, ein neues Framework für spekulatives Decoding, das durch die Einführung von „Contemplate Tokens" und weichen Prompts Draft-Modellen ermöglicht, die zukünftige Generierungsrichtung des Zielmodells vorherzusehen, wodurch die Akzeptanzraten und die Geschwindigkeit im Vergleich zu EAGLE-3 signifikant gesteigert werden.

Zongyue Qin, Raghavv Goel, Mukul Gagrani, Risheek Garrepalli, Mingu Lee, Yizhou Sun2026-03-11💬 cs.CL

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Die Studie stellt mit SciTaRC einen neuen Benchmark für wissenschaftliche Tabellendaten vor, der zeigt, dass aktuelle KI-Modelle aufgrund von Schwächen in der Planausführung, dem Sprachverständnis und der Berechnung bei über 23 % der Fragen scheitern.

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp Koehn2026-03-11💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Die Studie stellt PathoScribe vor, ein einheitliches Framework auf Basis von Retrieval-Augmented Large Language Models, das statische Pathologie-Archive in eine interaktive Wissensdatenbank verwandelt und durch Funktionen wie semantische Suche, automatische Kohortenbildung sowie klinische Fragebeantwortung die Diagnoseunterstützung und Forschungseffizienz erheblich steigert.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

Die Studie stellt ein automatisiertes Framework zur thematischen Analyse klinischer qualitativer Daten vor, das durch iterative Verfeinerung des Codebuchs und vollständige Nachverfolgbarkeit die Skalierbarkeit und Reproduzierbarkeit verbessert und dabei in mehreren Datensätzen die höchste Gesamtqualität sowie eine hohe Übereinstimmung mit Expertenbewertungen erreicht.

Seungjun Yi, Joakim Nguyen, Huimin Xu, Terence Lim, Joseph Skrovan, Mehak Beri, Hitakshi Modi, Andrew Well, Carlos M. Mery, Yan Zhang, Mia K. Markey, Ying Ding2026-03-11💬 cs.CL

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

Die vorgestellte Arbeit führt einen konfidenzbasierten Rahmen ein, der anhand eines einzelnen Lösungswegs adaptiv zwischen Einzel- und Mehrfachpfad-Reasoning entscheidet, um die Genauigkeit von Large Language Models bei gleichzeitiger Reduktion des Tokenverbrauchs um bis zu 80 % zu erhalten.

Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun Yin2026-03-11💬 cs.CL