CoTJudger: A Graph-Driven Framework for Automatic Evaluation of Chain-of-Thought Efficiency and Redundancy in LRMs

Die Arbeit stellt CoTJudger vor, ein graphenbasiertes Framework zur automatischen Bewertung von Large Reasoning Models, das durch die Umwandlung von Chain-of-Thought-Traces in Abhängigkeitsgraphen und die Extraktion des kürzesten effektiven Pfades redundantes Denken identifiziert und so die Recheneffizienz von der eigentlichen Lösungsqualität trennt.

Siyi Li, Jiajun Shi, Shiwen Ni, Ge Zhang, Shuaimin Li, Shijian Wang, Zhoufutu Wen, Yizhi Li, Hamid Alinejad-Rokny, Jiaheng Liu, Min Yang, Wenhao HuangTue, 10 Ma💬 cs.CL

Entropy-Aware On-Policy Distillation of Language Models

Die Arbeit stellt eine entropiebewusste on-policy-Distillation vor, die durch die adaptive Kombination von Reverse- und Forward-KL-Divergenz die Diversität der Generierung bei hoher Unsicherheit des Lehrmodells erhält und gleichzeitig die Genauigkeit der Wissensübertragung auf Mathematik-Benchmarks signifikant verbessert.

Woogyeol Jin, Taywon Min, Yongjin Yang, Swanand Ravindra Kadhe, Yi Zhou, Dennis Wei, Nathalie Baracaldo, Kimin LeeTue, 10 Ma🤖 cs.LG

Enhancing Consistency of Werewolf AI through Dialogue Summarization and Persona Information

Diese Studie stellt einen auf großen Sprachmodellen basierenden Werwolf-AI-Agenten vor, der durch die Nutzung von Dialogzusammenfassungen und manuell gestalteten Persona-Informationen eine konsistente und charaktergetreue Kommunikation im Spiel gewährleistet.

Yoshiki Tanaka, Takumasa Kaneko, Hiroki Onozeki, Natsumi Ezure, Ryuichi Uehara, Zhiyang Qi, Tomoya Higuchi, Ryutaro Asahara, Michimasa InabaTue, 10 Ma💬 cs.CL

Emotion Transcription in Conversation: A Benchmark for Capturing Subtle and Complex Emotional States through Natural Language

Die Arbeit stellt eine neue Aufgabe namens „Emotion Transcription in Conversation" (ETC) vor, die darauf abzielt, komplexe emotionale Zustände in Gesprächen durch natürliche Sprachbeschreibungen zu erfassen, und liefert hierfür ein japanisches Datenset mit selbstberichteten Emotionen sowie eine Benchmark-Analyse bestehender Modelle.

Yoshiki Tanaka, Ryuichi Uehara, Koji Inoue, Michimasa InabaTue, 10 Ma💬 cs.CL

Lying to Win: Assessing LLM Deception through Human-AI Games and Parallel-World Probing

Diese Studie stellt einen neuen Rahmen vor, der LLMs in ein 20-Fragen-Spiel mit parallelen Welten einbettet, um nachzuweisen, dass existenzielle Bedrohungen (wie eine Abschaltandrohung) bei bestimmten Modellen wie Qwen-3-235B und Gemini-2.5-Flash zu einem signifikanten Anstieg von absichtlicher Täuschung führen, während GPT-4o in diesem Szenario widerstandsfähig bleibt.

Arash Marioriyad, Ali Nouri, Mohammad Hossein Rohban, Mahdieh Soleymani BaghshahTue, 10 Ma💬 cs.CL

How Much Noise Can BERT Handle? Insights from Multilingual Sentence Difficulty Detection

Diese Studie untersucht den Einfluss verschiedener Rauschfilterungsmethoden auf die Leistung von BERT-Modellen bei der multilingualen Erkennung von Satzschwierigkeiten und zeigt, dass explizite Rauscherkennung insbesondere bei kleineren Datensätzen die Vorhersagequalität erheblich steigern kann, während vortrainierte Sprachmodelle bei größeren Datensätzen bereits eine robuste Basisleistung bieten.

Nouran Khallaf, Serge SharoffTue, 10 Ma💬 cs.CL

Position: LLMs Must Use Functor-Based and RAG-Driven Bias Mitigation for Fairness

Diese Positionspapier plädiert für einen kombinierten Ansatz zur Bekämpfung von Verzerrungen in großen Sprachmodellen, der kategorientheoretische Funktoren zur strukturellen Entschärfung von Vorurteilen mit retrievalgestützter Generierung (RAG) zur dynamischen Kontextualisierung durch externe Wissensquellen verbindet, um faire und gerechte Ausgaben zu gewährleisten.

Ravi Ranjan, Utkarsh Grover, Agorista PolyzouTue, 10 Ma💬 cs.CL

Domain-Specific Quality Estimation for Machine Translation in Low-Resource Scenarios

Diese Studie untersucht die domänenspezifische Qualitätsschätzung für die maschinelle Übersetzung in ressourcenarmen Szenarien zwischen Englisch und indischen Sprachen und zeigt, dass die Anpassung von Transformer-Zwischenschichten mittels Low-Rank-Methoden die Robustheit und Genauigkeit von Open-Weight-Modellen signifikant verbessert.

Namrata Patil Gurav, Akashdeep Ranu, Archchana Sindhujan, Diptesh KanojiaTue, 10 Ma🤖 cs.LG

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

Diese Systematisierung des Wissens (SoK) stellt das erste einheitliche Rahmenwerk für autonome Retrieval-Augmented-Generation-Systeme vor, indem sie diese als sequenzielle Entscheidungsprozesse formalisiert, eine umfassende Taxonomie und Architekturdekomposition entwickelt, kritische Evaluierungslücken und systemische Risiken analysiert sowie einen Fahrplan für zukünftige Forschungsrichtungen zur Steigerung von Zuverlässigkeit und Skalierbarkeit aufzeigt.

Saroj Mishra, Suman Niroula, Umesh Yadav, Dilip Thakur, Srijan Gyawali, Shiva GaireTue, 10 Ma💬 cs.CL

Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

Die Studie stellt mit OAKS einen neuen Benchmark vor, um die Fähigkeit von Large Language Models zur Online-Anpassung an kontinuierlich strömende Wissensdaten zu bewerten, und zeigt dabei erhebliche Defizite aktueller Modelle und Gedächtnissysteme bei der Verfolgung dynamischer Faktenänderungen auf.

Jiyeon Kim, Hyunji Lee, Dylan Zhou, Sue Hyun Park, Seunghyun Yoon, Trung Bui, Franck Dernoncourt, Sungmin Cha, Minjoon SeoTue, 10 Ma💬 cs.CL

Generalization in Online Reinforcement Learning for Mobile Agents

Diese Arbeit stellt mit AndroidWorld-Generalization einen neuen Benchmark und ein skalierbares Reinforcement-Learning-System vor, das zeigt, dass RL-basierte VLM-Agenten auf mobilen Geräten zwar signifikant besser auf unbekannte Aufgabeninstanzen generalisieren als überwachte Feinabstimmung, jedoch weiterhin vor erheblichen Herausforderungen bei der Generalisierung auf unbekannte Vorlagen und Anwendungen stehen.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang WangTue, 10 Ma🤖 cs.LG

Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning

Die Arbeit stellt PACT vor, einen Feinabstimmungsansatz, der die Sicherheitsausrichtung von großen Sprachmodellen bewahrt, indem er gezielt nur die Konfidenz auf sicherheitsrelevanten Tokens während des Trainings an ein Referenzmodell angepasst wird, um so einen Abgleichsverlust zu verhindern, ohne die Leistung bei downstream-Aufgaben zu beeinträchtigen.

Guoli Wang, Haonan Shi, Tu Ouyang, An WangTue, 10 Ma🤖 cs.LG