AnesSuite: A Comprehensive Benchmark and Dataset Suite for Anesthesiology Reasoning in LLMs

Die Arbeit stellt AnesSuite vor, das erste umfassende Datensatz- und Benchmark-System für das anästhesiologische Reasoning in LLMs, und entwickelt darauf aufbauend das Basismodell Morpheus, das durch gezieltes Training nicht nur in diesem Fachgebiet, sondern auch in allgemeinen medizinischen und breiten Domänen signifikante Verbesserungen erzielt.

Xiang Feng, Wentao Jiang, Zengmao Wang + 5 more2026-03-03💬 cs.CL

When Large Language Models are More PersuasiveThan Incentivized Humans, and Why

Die Studie zeigt, dass große Sprachmodelle wie Claude 3.5 Sonnet und DeepSeek v3 in interaktiven Dialogen motivierte menschliche Überzeuger übertreffen, wobei dieser Vorteil vom Kontext (wahrheitsgemäß oder täuschend) und der Interaktionshäufigkeit abhängt und möglicherweise auf eine höhere Überzeugungskraft der KI-Modelle zurückzuführen ist.

Philipp Schoenegger, Francesco Salvi, Jiacheng Liu + 37 more2026-03-03💬 cs.CL

Chain-of-Lure: A Universal Jailbreak Attack Framework using Unconstrained Synthetic Narratives

Diese Arbeit stellt „Chain-of-Lure" vor, ein universelles Jailbreak-Framework, das mithilfe von unbeschränkten synthetischen Narrativen und einem Hilfs-LLM für die Optimierung von Dialogen schädliche Absichten in Large Language Models erfolgreich umgeht und dabei neue Erkenntnisse für die Entwicklung robusterer Sicherheitsmechanismen liefert.

Wenhan Chang, Tianqing Zhu, Yu Zhao + 3 more2026-03-03💬 cs.CL

Learning to Reason without External Rewards

Die Arbeit stellt Intuitor vor, eine Methode des Reinforcement Learning aus internem Feedback, die Large Language Models ermöglicht, sich ausschließlich auf ihr eigenes Selbstvertrauen als Belohnungssignal zu verlassen, um komplexe reasoning-Aufgaben ohne externe Belohnungen oder gelabelte Daten zu meistern und dabei eine bessere Generalisierung als herkömmliche Ansätze zu erreichen.

Xuandong Zhao, Zhewei Kang, Aosong Feng + 2 more2026-03-03💬 cs.CL

RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments

Das Paper stellt RedTeamCUA vor, ein Framework mit einer hybriden Sandbox zur realistischen adversarischen Testung von Computer-Use-Agenten, das in RTC-Bench erhebliche Sicherheitslücken gegenüber indirekten Prompt-Injection-Angriffen in gemischten Web-OS-Umgebungen aufdeckt und die dringende Notwendigkeit robuster Verteidigungsmechanismen vor einer realen Einsatzbereitschaft unterstreicht.

Zeyi Liao, Jaylen Jones, Linxi Jiang + 5 more2026-03-03💬 cs.CL

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

Die Arbeit stellt eine Meta-Lern-Methode namens Meta-Adaptive Prompt Distillation vor, die durch die Anpassung von aus aufgabenrelevanten visuellen Merkmalen destillierten Soft-Prompts die Few-Shot-Fähigkeiten von Large Multimodal Models für das Visual Question Answering verbessert und dabei die Leistung herkömmlicher In-Context-Learning-Ansätze signifikant übertrifft.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL