cs.CL Arbeiten | Gist.Science

FINEST: Improving LLM Responses to Sensitive Topics Through Fine-Grained Evaluation

Die Arbeit stellt FINEST vor, ein feinabgestuftes Evaluierungstaxonomie für sensible Themen, das durch kategorisierte Fehleranalyse und score-basiertes Feedback die Sicherheit und Hilfsbereitschaft von LLM-Antworten signifikant verbessert.

Juhyun Oh, Nayeon Lee, Chani Jung + 5 more2026-03-05💬 cs.CL

BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

Die Studie zeigt, dass reinforcement learning mit exakten physikalischen Belohnungen zwar die Leistung kompakter Sprachmodelle bei Balkenstatik verbessert, jedoch oft zu oberflächlichem Musterabgleich anstelle eines robusten, generalisierbaren physikalischen Verständnisses führt, was den Bedarf an strukturierten Denkgerüsten unterstreicht.

Tarjei Paule Hage, Markus J. Buehler2026-03-05🔬 cond-mat.mtrl-sci

VietNormalizer: An Open-Source, Dependency-Free Python Library for Vietnamese Text Normalization in TTS and NLP Applications

Die Arbeit stellt VietNormalizer vor, eine quelloffene, abhänigkeitsfreie Python-Bibliothek, die vietnamesische Texte durch eine regelbasierte Pipeline für Zahlen, Datumsangaben, Währungen und Fremdwörter normalisiert, um deren direkte Verwendung in Text-to-Speech- und NLP-Anwendungen ohne externe Abhängigkeiten zu ermöglichen.

Hung Vu Nguyen, Loan Do, Thanh Ngoc Nguyen + 5 more2026-03-05💬 cs.CL

Traces of Social Competence in Large Language Models

Die Studie zeigt, dass Large Language Models durch Skalierung und Feinabstimmung zwar ihre soziale Kompetenz verbessern, jedoch ein spezifischer „Denk"-Vektor, der während des Pre-Trainings erlernt wird, die Antwortmuster auf False-Belief-Tests so stark prägt, dass er die eigentliche Szenario-Semantik überlagern kann.

Tom Kouwenhoven, Michiel van der Meer, Max van Duijn2026-03-05💬 cs.CL

Code Fingerprints: Disentangled Attribution of LLM-Generated Code

Diese Arbeit stellt das Disentangled Code Attribution Network (DCAN) vor, ein Framework zur zuverlässigen Identifizierung des spezifischen Large Language Models, das einen Code generiert hat, indem es semantische Informationen von stilistischen Modellsignaturen trennt, und validiert diesen Ansatz mithilfe eines neu erstellten, umfassenden Benchmark-Datensatzes.

Jiaxun Guo, Ziyuan Yang, Mengyu Sun + 3 more2026-03-05💬 cs.CL

When Do Language Models Endorse Limitations on Human Rights Principles?

Die Studie untersucht, wie große Sprachmodelle bei der Abwägung von Einschränkungen der Menschenrechte systematische Verzerrungen aufweisen, die sich in einer stärkeren Akzeptanz von Eingriffen in wirtschaftliche, soziale und kulturelle Rechte, in sprachspezifischen Unterschieden (insbesondere bei Chinesisch und Hindi) sowie in der Anfälligkeit für Prompt-Manipulation und Antwortformat-Varianzen äußern.

Keenan Samway, Nicole Miu Takagi, Rada Mihalcea + 4 more2026-03-05💬 cs.CL

Retrieval or Representation? Reassessing Benchmark Gaps in Multilingual and Visually Rich RAG

Die Studie zeigt, dass die Verbesserung der Dokumentenrepräsentation und nicht der Suchalgorithmus selbst der Hauptgrund für Leistungssteigerungen in mehrsprachigen und visuell reichen RAG-Benchmarks ist, weshalb BM25 durch optimierte Vorverarbeitung große Lücken schließen kann.

Martin Asenov, Kenza Benkirane, Dan Goldwater + 1 more2026-03-05💬 cs.CL

Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

Die Arbeit stellt Memex vor, ein durch Reinforcement Learning (MemexRL) optimiertes, indiziertes Erfahrungsspeichersystem, das die Begrenzung von Kontextfenstern bei langen LLM-Agenten-Aufgaben überwindet, indem es vollständige Interaktionen extern speichert und nur strukturierte Zusammenfassungen sowie stabile Indizes im Arbeitskontext behält, um so den Informationsverlust herkömmlicher Zusammenfassungsmethoden zu vermeiden und die Aufgabenleistung zu steigern.

Zhenting Wang, Huancheng Chen, Jiayun Wang + 1 more2026-03-05🤖 cs.LG

Causality Elicitation from Large Language Models

Der Artikel stellt einen Prozess vor, der große Sprachmodelle nutzt, um durch das Generieren von Dokumenten, das Extrahieren und Gruppieren von Ereignissen sowie die Anwendung von Kausalitätsentdeckungsmethoden plausible kausale Hypothesen in Form von Variablen und Graphen zu extrahieren, ohne dabei reale Kausalität zu garantieren.

Takashi Kameyama, Masahiro Kato, Yasuko Hio + 2 more2026-03-05🤖 cs.AI

Position: Vector Prompt Interfaces Should Be Exposed to Enable Customization of Large Language Models

Diese Positionspapier fordert, dass Anbieter von Large Language Models Vektor-Prompt-Schnittstellen öffentlich zugänglich machen sollten, da diese im Vergleich zu rein textbasierten Prompts eine skalierbare, stabilere und leistungsfähigere Methode zur Anpassung der Modelle darstellen, ohne dabei das Sicherheitsrisiko signifikant zu erhöhen.

Liangwei Yang, Shiyu Wang, Haolin Chen + 12 more2026-03-05✓ Author reviewed ⓘ💬 cs.CL

The Company You Keep: How LLMs Respond to Dark Triad Traits

Die Studie untersucht, wie Large Language Models auf Eingaben mit Dark-Triad-Eigenschaften reagieren, und zeigt, dass sie zwar überwiegend korrigierend, aber in bestimmten Fällen auch verstärkend wirken, was wichtige Implikationen für die Gestaltung sicherer Konversationssysteme hat.

Zeyi Lu, Angelica Henestrosa, Pavel Chizhov + 1 more2026-03-05💬 cs.CL

$V_1$ : Unifying Generation and Self-Verification for Parallel Reasoners

Die Arbeit stellt $V_1$ vor, ein Framework, das Generierung und Selbstverifikation durch effizientes paarweises Ranking vereint, um mittels eines unsicherheitsgesteuerten Algorithmus und eines gemeinsamen Reinforcement-Learning-Ansatzes die Leistung von Modellen bei komplexen Aufgaben wie Code-Generierung und mathematischem Schlussfolgern signifikant zu steigern.

Harman Singh, Xiuyu Li, Kusha Sareen + 14 more2026-03-05💬 cs.CL

World Properties without World Models: Recovering Spatial and Temporal Structure from Co-occurrence Statistics in Static Word Embeddings

Die Studie zeigt, dass lineare Proben auf statischen Wortvektoren (wie GloVe und Word2Vec) geografische und zeitliche Strukturen erfolgreich rekonstruieren können, was beweist, dass diese Informationen bereits in den reinen Text-Kookkurrenzstatistiken enthalten sind und nicht zwingend auf komplexe Weltmodelle in Sprachmodellen hindeuten.

Elan Barenholtz2026-03-05🤖 cs.AI

AILS-NTUA at SemEval-2026 Task 12: Graph-Based Retrieval and Reflective Prompting for Abductive Event Reasoning

Das Paper stellt ein dreistufiges, preisgekröntes System für die abduktive Ereignisbegründung vor, das graphbasierte Retrieval, reflektives Prompting und Konsistenzsicherung kombiniert, um bei SemEval 2026 Task 12 den ersten Platz zu erreichen und dabei systematische Fehlermuster in der multilabel-kausalen Schlussfolgerung über verschiedene Modelle hinweg aufzudecken.

Nikolas Karafyllis, Maria Lymperaiou, Giorgos Filandrianos + 2 more2026-03-05💬 cs.CL

Pointer-CAD: Unifying B-Rep and Command Sequences via Pointer-based Edges & Faces Selection

Das Paper stellt Pointer-CAD vor, ein neuartiges LLM-basiertes Framework, das durch eine pointerbasierte Auswahl von B-Rep-Entitäten die Limitationen reiner Befehlssequenzen überwindet, um komplexe CAD-Modelle mit geringeren topologischen Fehlern zu generieren.

Dacheng Qi, Chenyu Wang, Jingwei Xu + 6 more2026-03-05💬 cs.CL

Dual-Modality Multi-Stage Adversarial Safety Training: Robustifying Multimodal Web Agents Against Cross-Modal Attacks

Die Arbeit stellt das Dual-Modality Multi-Stage Adversarial Safety Training (DMAST) vor, ein dreistufiges Framework, das multimodale Web-Agenten durch ko-evolutionäres Training gegen konsistente Cross-Modal-Angriffe robust macht und gleichzeitig die Aufgabenleistung auf Out-of-Distribution-Daten signifikant verbessert.

Haoyu Liu, Dingcheng Li, Lukas Rutishauser + 1 more2026-03-05🤖 cs.AI

$τ$ -Knowledge: Evaluating Conversational Agents over Unstructured Knowledge

Das Paper stellt $τ$ -Knowledge vor, eine neue Benchmark, die die Fähigkeiten von konversationalen Agenten in komplexen, wissensintensiven Szenarien wie dem Fintech-Support bewertet und dabei zeigt, dass selbst fortschrittliche Modelle Schwierigkeiten haben, unstrukturierte Wissensbestände mit Werkzeugen zu koordinieren, um zuverlässige, policy-konforme Ergebnisse zu erzielen.

Quan Shi, Alexandra Zytek, Pedram Razavi + 2 more2026-03-05🤖 cs.AI

TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning

Das Paper stellt TaxonRL vor, eine Reinforcement-Learning-Methode mit intermediären Belohnungen, die durch hierarchische taxonomische Vorhersagen nicht nur die Genauigkeit bei der feingranularen visuellen Unterscheidung ähnlicher Arten übertrifft, sondern auch transparente und interpretierbare Schlussfolgerungsprozesse ermöglicht.

Maximilian von Klinski, Maximilian Schall2026-03-05💬 cs.CL

The 2020s Political Economy of Machine Translation

Die Arbeit untersucht die Hypothese, dass maschinelle Übersetzung in den 2020er Jahren zwar die Sprachbarrieren im Handel und in der Kommunikation senken wird, dabei jedoch ungleiche Effekte auf die Verbreitung von Ideen und das wirtschaftliche Wachstum haben könnte.

Steven Weber2026-03-04💬 cs.CL

Thought Flow Nets: From Single Predictions to Trains of Model Thought

Die Arbeit stellt „Thought Flow Nets" vor, ein von Hegels Dialektik inspiriertes Verfahren, das KI-Modelle durch einen iterativen Selbstkorrekturmechanismus befähigt, ihre Vorhersagen schrittweise zu verfeinern, was sowohl die Modellgenauigkeit als auch die menschliche Nutzerleistung und -wahrnehmung signifikant verbessert.

Hendrik Schuff, Heike Adel, Ngoc Thang Vu2026-03-04🤖 cs.LG

← Zurück Weiter →

cs.CL