cs.CL Arbeiten | Gist.Science

Learning to Reason without External Rewards

Die Arbeit stellt Intuitor vor, eine Methode des Reinforcement Learning aus internem Feedback, die Large Language Models ermöglicht, sich ausschließlich auf ihr eigenes Selbstvertrauen als Belohnungssignal zu verlassen, um komplexe reasoning-Aufgaben ohne externe Belohnungen oder gelabelte Daten zu meistern und dabei eine bessere Generalisierung als herkömmliche Ansätze zu erreichen.

Xuandong Zhao, Zhewei Kang, Aosong Feng + 2 more2026-03-03💬 cs.CL

RPM: Reasoning-Level Personalization for Black-Box Large Language Models

Die Arbeit stellt RPM vor, ein bahnbrechendes Framework, das durch die automatische Extraktion benutzerspezifischer Denkstrukturen aus Rohdaten eine übergeordnete, interpretierbare Personalisierung für Black-Box-LLMs ermöglicht und damit bestehende reaktionsbasierte Ansätze übertrifft.

Jieyong Kim, Tongyoung Kim, Soojin Yoon + 2 more2026-03-03💬 cs.CL

Augmenting Research Ideation with Data: An Empirical Investigation in Social Science

Diese Studie zeigt, dass die Anreicherung von Large Language Models mit Metadaten und automatisierten Validierungsschritten die Machbarkeit und Qualität von Forschungsideen in den Sozialwissenschaften signifikant verbessert und Wissenschaftler:innen effektiv bei der Generierung hochwertigerer eigener Ideen unterstützt.

Xiao Liu, Xinyi Dong, Xinyang Gao + 2 more2026-03-03💬 cs.CL

RefTool: Reference-Guided Tool Creation for Knowledge-Intensive Reasoning

Der vorgestellte Ansatz RefTool ermöglicht Large Language Models, durch die Nutzung externer Referenzmaterialien wie Lehrbücher automatisch zuverlässige und hierarchisch organisierte Werkzeuge zu erstellen und einzusetzen, um ihr Schlussfolgern in wissensintensiven Domänen über ihre eigenen internen Wissensgrenzen hinaus zu verbessern.

Xiao Liu, Da Yin, Zirui Wu + 1 more2026-03-03💬 cs.CL

VeriTrail: Closed-Domain Hallucination Detection with Traceability

Das Paper stellt VeriTrail vor, eine bahnbrechende Methode zur Erkennung von Halluzinationen in geschlossenen Domänen, die erstmals nicht nur die Endausgabe, sondern auch die Nachverfolgbarkeit von Fehlern in mehrstufigen Generierungsprozessen ermöglicht und durch neue Datensätze mit Zwischenoutputs und menschlichen Annotationen untermauert wird.

Dasha Metropolitansky, Jonathan Larson2026-03-03💬 cs.CL

RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments

Das Paper stellt RedTeamCUA vor, ein Framework mit einer hybriden Sandbox zur realistischen adversarischen Testung von Computer-Use-Agenten, das in RTC-Bench erhebliche Sicherheitslücken gegenüber indirekten Prompt-Injection-Angriffen in gemischten Web-OS-Umgebungen aufdeckt und die dringende Notwendigkeit robuster Verteidigungsmechanismen vor einer realen Einsatzbereitschaft unterstreicht.

Zeyi Liao, Jaylen Jones, Linxi Jiang + 5 more2026-03-03💬 cs.CL

CityLens: Evaluating Large Vision-Language Models for Urban Socioeconomic Sensing

Die Arbeit stellt CityLens vor, ein umfassendes Benchmark-System, das die Fähigkeiten von Large Vision-Language-Modellen (LVLMs) bei der Vorhersage sozioökonomischer Indikatoren aus Satelliten- und Straßenbildern in 17 Städten weltweit evaluiert und dabei sowohl deren vielversprechende Potenziale als auch bestehende Grenzen aufzeigt.

Tianhui Liu, Hetian Pang, Xin Zhang + 5 more2026-03-03💬 cs.CL

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

Die Arbeit stellt OmniSpatial vor, ein umfassendes Benchmark auf psychologischer Grundlage mit über 8.400 annotierten Beispielen, das die signifikanten Defizite aktueller Vision-Language-Modelle in der komplexen räumlichen Reasoning aufzeigt und zwei Strategien zur Verbesserung dieser Fähigkeiten evaluiert.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

Die Arbeit stellt eine Meta-Lern-Methode namens Meta-Adaptive Prompt Distillation vor, die durch die Anpassung von aus aufgabenrelevanten visuellen Merkmalen destillierten Soft-Prompts die Few-Shot-Fähigkeiten von Large Multimodal Models für das Visual Question Answering verbessert und dabei die Leistung herkömmlicher In-Context-Learning-Ansätze signifikant übertrifft.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

VINCIE: Unlocking In-context Image Editing from Video

Die Arbeit stellt VINCIE vor, ein skalierbares Modell, das durch das direkte Lernen aus annotierten Videos und die Nutzung von Block-kausalen Diffusions-Transformern für mehrere Proxy-Aufgaben state-of-the-art Ergebnisse beim in-Kontext-Bildbearbeiten erzielt, ohne auf spezialisierte Expertensysteme angewiesen zu sein.

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

Equitable Electronic Health Record Prediction with FAME: Fairness-Aware Multimodal Embedding

Die Arbeit stellt FAME vor, ein Framework für Fairness-bewusste multimodale Embeddings, das durch gewichtete Modalitäten und einen kombinierten Verlustfunktion die Vorhersageleistung und Fairness in elektronischen Gesundheitsakten gleichzeitig optimiert.

Nikkie Hooman, Zhongjie Wu, Eric C. Larson + 1 more2026-03-03💬 cs.CL

Language Agents for Hypothesis-driven Clinical Decision Making with Reinforcement Learning

Die Studie stellt LA-CDM vor, einen hypothesengesteuerten Sprachagenten, der durch eine Kombination aus überwachtem Lernen und Verstärkungslernen klinische Entscheidungen iterativ trifft, indem er relevante Tests anfordert und interpretiert, um die diagnostische Genauigkeit und Effizienz zu verbessern.

David Bani-Harouni, Chantal Pellegrini, Ege Özsoy + 2 more2026-03-03💬 cs.CL

AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

Das Paper stellt AgentSynth vor, eine skalierbare und kosteneffiziente Pipeline zur automatischen Generierung hochwertiger Aufgaben und Trajektoriendatensätze für allgemeine Computer-Nutzungs-Agenten, die durch die Kombination einfacher Teilaufgaben komplexe Langzeit-Herausforderungen schafft und dabei deutlich günstiger als menschliche Annotationen ist.

Jingxu Xie, Dylan Xu, Xuandong Zhao + 1 more2026-03-03💬 cs.CL

GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

Das Papier stellt GenRecal vor, ein allgemeines Distillations-Framework für Vision-Language-Modelle, das durch eine Rekalisierungs-Komponente den Wissenstransfer zwischen heterogenen Architekturen ermöglicht und so kleine Modelle auf das Niveau großer, ressourcenintensiver Systeme bringt.

Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro + 2 more2026-03-03💬 cs.CL

OJBench: A Competition Level Code Benchmark For Large Language Models

Die Studie stellt OJBench vor, einen neuen Benchmark mit 232 anspruchsvollen Wettbewerbsaufgaben aus NOI und ICPC, der zeigt, dass selbst fortschrittliche Sprachmodelle bei der Lösung komplexer Programmierprobleme auf Wettbewerbsniveau erhebliche Schwierigkeiten haben.

Zhexu Wang, Yiping Liu, Yejie Wang + 9 more2026-03-03💬 cs.CL

When Does Divide and Conquer Work for Long Context LLM? A Noise Decomposition Framework

Die Arbeit stellt ein theoretisches Raster zur Analyse von Fehlerquellen bei langen Texten in LLMs vor und zeigt, dass eine strategische Aufteilung in Chunks mit einem Aggregator selbst schwächere Modelle in der Lage versetzt, komplexe Langkontextaufgaben effektiver zu lösen als leistungsstarke Einzelmodelle.

Zhen Xu, Shang Zhu, Jue Wang + 5 more2026-03-03💬 cs.CL

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

Das Paper stellt LongWriter-Zero vor, ein Reinforcement-Learning-Verfahren, das Large Language Models ohne synthetische Trainingsdaten in die Lage versetzt, ultra-lange und qualitativ hochwertige Texte zu generieren und dabei sowohl traditionelle SFT-Methoden als auch deutlich größere Modelle zu übertreffen.

Yuhao Wu, Yushi Bai, Zhiqiang Hu + 2 more2026-03-03💬 cs.CL

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

Die Autoren stellen TTSDS2 vor, ein robustes Metrik-System, das als einzige von 16 verglichenen Kennzahlen in allen Domänen eine signifikante Korrelation mit subjektiven Bewertungen aufweist, und stellen zudem umfangreiche Ressourcen wie einen Datensatz mit über 11.000 Bewertungen und ein mehrsprachiges Benchmark für die Evaluierung menschenähnlicher Text-zu-Sprache-Systeme bereit.

Christoph Minixhofer, Ondrej Klejch, Peter Bell2026-03-03⚡ eess

Breaking Barriers: Do Reinforcement Post Training Gains Transfer To Unseen Domains?

Die Studie zeigt, dass sich die durch Reinforcement Post-Training erzielten Verbesserungen der Schlussfolgerungsfähigkeiten von Large Language Models zwar auf ähnliche Aufgaben übertragen, jedoch bei Domänen mit abweichenden Denkmustern inkonsistent sind oder ganz verloren gehen.

Chuxuan Hu, Yuxuan Zhu, Antony Kellermann + 4 more2026-03-03💬 cs.CL

Cognitive models can reveal interpretable value trade-offs in language models

Die Studie zeigt, dass kognitive Modelle zur Analyse von Sprachmodellen eingesetzt werden können, um interpretierbare Wertkompromisse zu identifizieren, indem sie systematisch den Einfluss von Denkressourcen, Systemprompts und Trainingsdynamiken auf das Verhalten von LLMs untersuchen.

Sonia K. Murthy, Rosie Zhao, Jennifer Hu + 4 more2026-03-03💬 cs.CL

← Zurück Weiter →