cs.CL Arbeiten | Gist.Science

Chain of Correction for Full-text Speech Recognition with Large Language Models

Dieses Papier stellt die Chain of Correction (CoC) vor, eine Methode, die Large Language Models mittels eines Multi-Turn-Chat-Formats nutzt, um Fehler in vollständigen Spracherkennungstexten segmentweise zu korrigieren und dabei Stabilität, Kontrolle und Flüssigkeit im Vergleich zu bestehenden Systemen signifikant verbessert.

Zhiyuan Tang, Dong Wang, Zhikai Zhou + 3 more2026-03-03💬 cs.CL

AnesSuite: A Comprehensive Benchmark and Dataset Suite for Anesthesiology Reasoning in LLMs

Die Arbeit stellt AnesSuite vor, das erste umfassende Datensatz- und Benchmark-System für das anästhesiologische Reasoning in LLMs, und entwickelt darauf aufbauend das Basismodell Morpheus, das durch gezieltes Training nicht nur in diesem Fachgebiet, sondern auch in allgemeinen medizinischen und breiten Domänen signifikante Verbesserungen erzielt.

Xiang Feng, Wentao Jiang, Zengmao Wang + 5 more2026-03-03💬 cs.CL

DRA-GRPO: Your GRPO Needs to Know Diverse Reasoning Paths for Mathematical Reasoning

Das Papier stellt DRA-GRPO vor, einen neuartigen, theoretisch fundierten Ansatz, der durch die Nutzung von Submodularer Gegenseitiger Information die Diversität der Denkpfade in GRPO-basierten mathematischen Reasoning-Modellen verbessert und so deren Effizienz und Genauigkeit bei geringen Trainingskosten signifikant steigert.

Xiwen Chen, Wenhui Zhu, Peijie Qiu + 7 more2026-03-03💬 cs.CL

When Large Language Models are More PersuasiveThan Incentivized Humans, and Why

Die Studie zeigt, dass große Sprachmodelle wie Claude 3.5 Sonnet und DeepSeek v3 in interaktiven Dialogen motivierte menschliche Überzeuger übertreffen, wobei dieser Vorteil vom Kontext (wahrheitsgemäß oder täuschend) und der Interaktionshäufigkeit abhängt und möglicherweise auf eine höhere Überzeugungskraft der KI-Modelle zurückzuführen ist.

Philipp Schoenegger, Francesco Salvi, Jiacheng Liu + 37 more2026-03-03💬 cs.CL

mCLM: A Modular Chemical Language Model that Generates Functional and Makeable Molecules

Das Paper stellt mCLM vor, ein modulares chemisches Sprachmodell, das Moleküle auf Basis funktionaler Bausteine statt einzelner Atome tokenisiert, um gleichzeitig die Vorhersage chemischer Eigenschaften zu verbessern und die Kompatibilität mit der automatisierten Synthese sicherzustellen.

Carl Edwards, Chi Han, Gawon Lee + 11 more2026-03-03🧬 q-bio

Dynamic Token Reweighting for Robust Vision-Language Models

Dieses Paper stellt DTR vor, eine neuartige Inferenzzeit-Verteidigung, die durch dynamische Neugewichtung von visuellen Token-Weights in den Key-Value-Caches multimodale Jailbreak-Angriffe auf Vision-Language-Modelle wirksam abwehrt, ohne dabei die allgemeinen Fähigkeiten des Modells oder die Inferenzeffizienz zu beeinträchtigen.

Tanqiu Jiang, Jiacheng Liang, Rongyi Zhu + 3 more2026-03-03💬 cs.CL

Chain-of-Lure: A Universal Jailbreak Attack Framework using Unconstrained Synthetic Narratives

Diese Arbeit stellt „Chain-of-Lure" vor, ein universelles Jailbreak-Framework, das mithilfe von unbeschränkten synthetischen Narrativen und einem Hilfs-LLM für die Optimierung von Dialogen schädliche Absichten in Large Language Models erfolgreich umgeht und dabei neue Erkenntnisse für die Entwicklung robusterer Sicherheitsmechanismen liefert.

Wenhan Chang, Tianqing Zhu, Yu Zhao + 3 more2026-03-03💬 cs.CL

NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

Die Arbeit stellt Negative-aware Fine-Tuning (NFT) vor, einen überwachten Lernansatz, der durch die Modellierung selbstgenerierter negativer Antworten die Lücke zwischen überwachtem Lernen und Bestärkendem Lernen schließt und mathematische Reasoning-Fähigkeiten von LLMs ohne externe Lehrer signifikant verbessert.

Huayu Chen, Kaiwen Zheng, Qinsheng Zhang + 8 more2026-03-03💬 cs.CL

SQUiD: Synthesizing Relational Databases from Unstructured Text

Das Paper stellt SQUiD vor, ein neurosymbolisches Framework, das mithilfe von Large Language Models aus unstrukturierten Texten automatisch relationale Datenbanken mit Schema und Daten synthetisiert und dabei bestehende Baseline-Methoden übertrifft.

Mushtari Sadia, Zhenning Yang, Yunming Xiao + 2 more2026-03-03💬 cs.CL

Learning to Reason without External Rewards

Die Arbeit stellt Intuitor vor, eine Methode des Reinforcement Learning aus internem Feedback, die Large Language Models ermöglicht, sich ausschließlich auf ihr eigenes Selbstvertrauen als Belohnungssignal zu verlassen, um komplexe reasoning-Aufgaben ohne externe Belohnungen oder gelabelte Daten zu meistern und dabei eine bessere Generalisierung als herkömmliche Ansätze zu erreichen.

Xuandong Zhao, Zhewei Kang, Aosong Feng + 2 more2026-03-03💬 cs.CL

RPM: Reasoning-Level Personalization for Black-Box Large Language Models

Die Arbeit stellt RPM vor, ein bahnbrechendes Framework, das durch die automatische Extraktion benutzerspezifischer Denkstrukturen aus Rohdaten eine übergeordnete, interpretierbare Personalisierung für Black-Box-LLMs ermöglicht und damit bestehende reaktionsbasierte Ansätze übertrifft.

Jieyong Kim, Tongyoung Kim, Soojin Yoon + 2 more2026-03-03💬 cs.CL

Augmenting Research Ideation with Data: An Empirical Investigation in Social Science

Diese Studie zeigt, dass die Anreicherung von Large Language Models mit Metadaten und automatisierten Validierungsschritten die Machbarkeit und Qualität von Forschungsideen in den Sozialwissenschaften signifikant verbessert und Wissenschaftler:innen effektiv bei der Generierung hochwertigerer eigener Ideen unterstützt.

Xiao Liu, Xinyi Dong, Xinyang Gao + 2 more2026-03-03💬 cs.CL

RefTool: Reference-Guided Tool Creation for Knowledge-Intensive Reasoning

Der vorgestellte Ansatz RefTool ermöglicht Large Language Models, durch die Nutzung externer Referenzmaterialien wie Lehrbücher automatisch zuverlässige und hierarchisch organisierte Werkzeuge zu erstellen und einzusetzen, um ihr Schlussfolgern in wissensintensiven Domänen über ihre eigenen internen Wissensgrenzen hinaus zu verbessern.

Xiao Liu, Da Yin, Zirui Wu + 1 more2026-03-03💬 cs.CL

VeriTrail: Closed-Domain Hallucination Detection with Traceability

Das Paper stellt VeriTrail vor, eine bahnbrechende Methode zur Erkennung von Halluzinationen in geschlossenen Domänen, die erstmals nicht nur die Endausgabe, sondern auch die Nachverfolgbarkeit von Fehlern in mehrstufigen Generierungsprozessen ermöglicht und durch neue Datensätze mit Zwischenoutputs und menschlichen Annotationen untermauert wird.

Dasha Metropolitansky, Jonathan Larson2026-03-03💬 cs.CL

RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments

Das Paper stellt RedTeamCUA vor, ein Framework mit einer hybriden Sandbox zur realistischen adversarischen Testung von Computer-Use-Agenten, das in RTC-Bench erhebliche Sicherheitslücken gegenüber indirekten Prompt-Injection-Angriffen in gemischten Web-OS-Umgebungen aufdeckt und die dringende Notwendigkeit robuster Verteidigungsmechanismen vor einer realen Einsatzbereitschaft unterstreicht.

Zeyi Liao, Jaylen Jones, Linxi Jiang + 5 more2026-03-03💬 cs.CL

CityLens: Evaluating Large Vision-Language Models for Urban Socioeconomic Sensing

Die Arbeit stellt CityLens vor, ein umfassendes Benchmark-System, das die Fähigkeiten von Large Vision-Language-Modellen (LVLMs) bei der Vorhersage sozioökonomischer Indikatoren aus Satelliten- und Straßenbildern in 17 Städten weltweit evaluiert und dabei sowohl deren vielversprechende Potenziale als auch bestehende Grenzen aufzeigt.

Tianhui Liu, Hetian Pang, Xin Zhang + 5 more2026-03-03💬 cs.CL

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

Die Arbeit stellt OmniSpatial vor, ein umfassendes Benchmark auf psychologischer Grundlage mit über 8.400 annotierten Beispielen, das die signifikanten Defizite aktueller Vision-Language-Modelle in der komplexen räumlichen Reasoning aufzeigt und zwei Strategien zur Verbesserung dieser Fähigkeiten evaluiert.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

Die Arbeit stellt eine Meta-Lern-Methode namens Meta-Adaptive Prompt Distillation vor, die durch die Anpassung von aus aufgabenrelevanten visuellen Merkmalen destillierten Soft-Prompts die Few-Shot-Fähigkeiten von Large Multimodal Models für das Visual Question Answering verbessert und dabei die Leistung herkömmlicher In-Context-Learning-Ansätze signifikant übertrifft.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

VINCIE: Unlocking In-context Image Editing from Video

Die Arbeit stellt VINCIE vor, ein skalierbares Modell, das durch das direkte Lernen aus annotierten Videos und die Nutzung von Block-kausalen Diffusions-Transformern für mehrere Proxy-Aufgaben state-of-the-art Ergebnisse beim in-Kontext-Bildbearbeiten erzielt, ohne auf spezialisierte Expertensysteme angewiesen zu sein.

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

Equitable Electronic Health Record Prediction with FAME: Fairness-Aware Multimodal Embedding

Die Arbeit stellt FAME vor, ein Framework für Fairness-bewusste multimodale Embeddings, das durch gewichtete Modalitäten und einen kombinierten Verlustfunktion die Vorhersageleistung und Fairness in elektronischen Gesundheitsakten gleichzeitig optimiert.

Nikkie Hooman, Zhongjie Wu, Eric C. Larson + 1 more2026-03-03💬 cs.CL

← Zurück Weiter →