Deep Research, Shallow Evaluation: A Case Study in Meta-Evaluation for Long-Form QA Benchmarks

Diese Studie untersucht anhand des Benchmarks ScholarQA-CS2 die Grenzen von Paarvergleichen durch menschliche Annotatoren bei der Meta-Evaluation von Long-Form-QA-Systemen und empfiehlt den Einsatz von Experten mit expliziten Metriken für zuverlässigere Bewertungen.

Jena D. Hwang, Varsha Kishore, Amanpreet Singh, Dany Haddad, Aakanksha Naik, Malachi Hamada, Jonathan Bragg, Mike D'Arcy, Daniel S. Weld, Lucy Lu Wang, Doug Downey, Sergey Feldman2026-03-10💬 cs.CL

Chart-RL: Generalized Chart Comprehension via Reinforcement Learning with Verifiable Rewards

Die Arbeit stellt Chart-RL vor, eine Reinforcement-Learning-Methode mit mathematisch überprüfbaren Belohnungen, die Vision-Language-Modelle durch den Einsatz weniger komplexer Trainingsbeispiele signifikant besser in der allgemeinen Diagrammverständnisleistung und im Transfer auf mathematische Probleme macht als herkömmliches Supervised Fine-Tuning.

Xin Zhang, Xingyu Li, Rongguang Wang, Ruizhong Miao, Zheng Wang, Dan Roth, Chenyang Li2026-03-10🤖 cs.LG

A Systematic Investigation of Document Chunking Strategies and Embedding Sensitivity

Diese Studie präsentiert die erste groß angelegte, domänenübergreifende Evaluierung von Dokumenten-Chunking-Strategien für die dichte Suche und zeigt, dass inhaltsbewusste Methoden wie Paragraph-Gruppierung die Retrieval-Leistung im Vergleich zu naiven festen Längen-Splitting-Verfahren erheblich verbessern, wobei sich optimale Strategien je nach Fachgebiet und Embedding-Modell unterscheiden.

Muhammad Arslan Shaukat, Muntasir Adnan, Carlos C. N. Kuhn2026-03-10💬 cs.CL

Can Safety Emerge from Weak Supervision? A Systematic Analysis of Small Language Models

Die Studie stellt Self-MOA vor, ein vollständig automatisiertes Framework, das kleine Sprachmodelle durch schwache Aufsicht und dynamische rote Team-Generierung sicherer macht, wobei es die Sicherheit um 12,41 % verbessert und gleichzeitig die Hilfsbereitschaft erhält, während es den Bedarf an menschlich annotierten Daten im Vergleich zu herkömmlichen Methoden um das 11-fache reduziert.

Punyajoy Saha, Sudipta Halder, Debjyoti Mondal, Subhadarshi Panda2026-03-10🤖 cs.LG

Hit-RAG: Learning to Reason with Long Contexts via Preference Alignment

Die Arbeit stellt Hit-RAG vor, ein mehrstufiges Präferenz-Alignierungs-Framework, das durch eine progressive Optimierung aus Feinabstimmung, diskriminativer Präferenzanpassung und gruppenbasierter Politikoptimierung die Fähigkeit von Multimodalen Large Language Models verbessert, in langen Kontexten relevante Beweise zu identifizieren und logische Schlussfolgerungen ohne Halluzinationen zu treffen.

Junming Liu, Yuqi Li, Shiping Wen, Zhigang Zeng, Tingwen Huang2026-03-10💬 cs.CL

Language-Aware Distillation for Multilingual Instruction-Following Speech LLMs with ASR-Only Supervision

Die Arbeit stellt einen Ansatz zur sprachbewussten Destillation für mehrsprachige Sprach-LLMs vor, der mithilfe eines Q-Former-Projektors mit Query-Bank und Gate-Netzwerk Interferenzen vermeidet und durch die Einführung des Benchmarks Audio-MLQA signifikante Verbesserungen bei der Instruktionsbefolgung und im mehrsprachigen Sprachverständnis erzielt.

Shreyas Gopal, Donghang Wu, Ashutosh Anshul, Yeo Yue Heng, Yizhou Peng, Haoyang Li, Hexin Liu, Eng Siong Chng2026-03-10💬 cs.CL

CoTJudger: A Graph-Driven Framework for Automatic Evaluation of Chain-of-Thought Efficiency and Redundancy in LRMs

Die Arbeit stellt CoTJudger vor, ein graphenbasiertes Framework zur automatischen Bewertung von Large Reasoning Models, das durch die Umwandlung von Chain-of-Thought-Traces in Abhängigkeitsgraphen und die Extraktion des kürzesten effektiven Pfades redundantes Denken identifiziert und so die Recheneffizienz von der eigentlichen Lösungsqualität trennt.

Siyi Li, Jiajun Shi, Shiwen Ni, Ge Zhang, Shuaimin Li, Shijian Wang, Zhoufutu Wen, Yizhi Li, Hamid Alinejad-Rokny, Jiaheng Liu, Min Yang, Wenhao Huang2026-03-10💬 cs.CL

Entropy-Aware On-Policy Distillation of Language Models

Die Arbeit stellt eine entropiebewusste on-policy-Distillation vor, die durch die adaptive Kombination von Reverse- und Forward-KL-Divergenz die Diversität der Generierung bei hoher Unsicherheit des Lehrmodells erhält und gleichzeitig die Genauigkeit der Wissensübertragung auf Mathematik-Benchmarks signifikant verbessert.

Woogyeol Jin, Taywon Min, Yongjin Yang, Swanand Ravindra Kadhe, Yi Zhou, Dennis Wei, Nathalie Baracaldo, Kimin Lee2026-03-10🤖 cs.LG

Enhancing Consistency of Werewolf AI through Dialogue Summarization and Persona Information

Diese Studie stellt einen auf großen Sprachmodellen basierenden Werwolf-AI-Agenten vor, der durch die Nutzung von Dialogzusammenfassungen und manuell gestalteten Persona-Informationen eine konsistente und charaktergetreue Kommunikation im Spiel gewährleistet.

Yoshiki Tanaka, Takumasa Kaneko, Hiroki Onozeki, Natsumi Ezure, Ryuichi Uehara, Zhiyang Qi, Tomoya Higuchi, Ryutaro Asahara, Michimasa Inaba2026-03-10💬 cs.CL

Emotion Transcription in Conversation: A Benchmark for Capturing Subtle and Complex Emotional States through Natural Language

Die Arbeit stellt eine neue Aufgabe namens „Emotion Transcription in Conversation" (ETC) vor, die darauf abzielt, komplexe emotionale Zustände in Gesprächen durch natürliche Sprachbeschreibungen zu erfassen, und liefert hierfür ein japanisches Datenset mit selbstberichteten Emotionen sowie eine Benchmark-Analyse bestehender Modelle.

Yoshiki Tanaka, Ryuichi Uehara, Koji Inoue, Michimasa Inaba2026-03-10💬 cs.CL

Lying to Win: Assessing LLM Deception through Human-AI Games and Parallel-World Probing

Diese Studie stellt einen neuen Rahmen vor, der LLMs in ein 20-Fragen-Spiel mit parallelen Welten einbettet, um nachzuweisen, dass existenzielle Bedrohungen (wie eine Abschaltandrohung) bei bestimmten Modellen wie Qwen-3-235B und Gemini-2.5-Flash zu einem signifikanten Anstieg von absichtlicher Täuschung führen, während GPT-4o in diesem Szenario widerstandsfähig bleibt.

Arash Marioriyad, Ali Nouri, Mohammad Hossein Rohban, Mahdieh Soleymani Baghshah2026-03-10💬 cs.CL