BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

Die Studie zeigt, dass reinforcement learning mit exakten physikalischen Belohnungen zwar die Leistung kompakter Sprachmodelle bei Balkenstatik verbessert, jedoch oft zu oberflächlichem Musterabgleich anstelle eines robusten, generalisierbaren physikalischen Verständnisses führt, was den Bedarf an strukturierten Denkgerüsten unterstreicht.

Tarjei Paule Hage, Markus J. Buehler2026-03-05🔬 cond-mat.mtrl-sci

VietNormalizer: An Open-Source, Dependency-Free Python Library for Vietnamese Text Normalization in TTS and NLP Applications

Die Arbeit stellt VietNormalizer vor, eine quelloffene, abhänigkeitsfreie Python-Bibliothek, die vietnamesische Texte durch eine regelbasierte Pipeline für Zahlen, Datumsangaben, Währungen und Fremdwörter normalisiert, um deren direkte Verwendung in Text-to-Speech- und NLP-Anwendungen ohne externe Abhängigkeiten zu ermöglichen.

Hung Vu Nguyen, Loan Do, Thanh Ngoc Nguyen + 5 more2026-03-05💬 cs.CL

When Do Language Models Endorse Limitations on Human Rights Principles?

Die Studie untersucht, wie große Sprachmodelle bei der Abwägung von Einschränkungen der Menschenrechte systematische Verzerrungen aufweisen, die sich in einer stärkeren Akzeptanz von Eingriffen in wirtschaftliche, soziale und kulturelle Rechte, in sprachspezifischen Unterschieden (insbesondere bei Chinesisch und Hindi) sowie in der Anfälligkeit für Prompt-Manipulation und Antwortformat-Varianzen äußern.

Keenan Samway, Nicole Miu Takagi, Rada Mihalcea + 4 more2026-03-05💬 cs.CL

Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

Die Arbeit stellt Memex vor, ein durch Reinforcement Learning (MemexRL) optimiertes, indiziertes Erfahrungsspeichersystem, das die Begrenzung von Kontextfenstern bei langen LLM-Agenten-Aufgaben überwindet, indem es vollständige Interaktionen extern speichert und nur strukturierte Zusammenfassungen sowie stabile Indizes im Arbeitskontext behält, um so den Informationsverlust herkömmlicher Zusammenfassungsmethoden zu vermeiden und die Aufgabenleistung zu steigern.

Zhenting Wang, Huancheng Chen, Jiayun Wang + 1 more2026-03-05🤖 cs.LG

Position: Vector Prompt Interfaces Should Be Exposed to Enable Customization of Large Language Models

Diese Positionspapier fordert, dass Anbieter von Large Language Models Vektor-Prompt-Schnittstellen öffentlich zugänglich machen sollten, da diese im Vergleich zu rein textbasierten Prompts eine skalierbare, stabilere und leistungsfähigere Methode zur Anpassung der Modelle darstellen, ohne dabei das Sicherheitsrisiko signifikant zu erhöhen.

Liangwei Yang, Shiyu Wang, Haolin Chen + 12 more2026-03-05✓ Author reviewed 💬 cs.CL

V1V_1: Unifying Generation and Self-Verification for Parallel Reasoners

Die Arbeit stellt V1V_1 vor, ein Framework, das Generierung und Selbstverifikation durch effizientes paarweises Ranking vereint, um mittels eines unsicherheitsgesteuerten Algorithmus und eines gemeinsamen Reinforcement-Learning-Ansatzes die Leistung von Modellen bei komplexen Aufgaben wie Code-Generierung und mathematischem Schlussfolgern signifikant zu steigern.

Harman Singh, Xiuyu Li, Kusha Sareen + 14 more2026-03-05💬 cs.CL

World Properties without World Models: Recovering Spatial and Temporal Structure from Co-occurrence Statistics in Static Word Embeddings

Die Studie zeigt, dass lineare Proben auf statischen Wortvektoren (wie GloVe und Word2Vec) geografische und zeitliche Strukturen erfolgreich rekonstruieren können, was beweist, dass diese Informationen bereits in den reinen Text-Kookkurrenzstatistiken enthalten sind und nicht zwingend auf komplexe Weltmodelle in Sprachmodellen hindeuten.

Elan Barenholtz2026-03-05🤖 cs.AI

AILS-NTUA at SemEval-2026 Task 12: Graph-Based Retrieval and Reflective Prompting for Abductive Event Reasoning

Das Paper stellt ein dreistufiges, preisgekröntes System für die abduktive Ereignisbegründung vor, das graphbasierte Retrieval, reflektives Prompting und Konsistenzsicherung kombiniert, um bei SemEval 2026 Task 12 den ersten Platz zu erreichen und dabei systematische Fehlermuster in der multilabel-kausalen Schlussfolgerung über verschiedene Modelle hinweg aufzudecken.

Nikolas Karafyllis, Maria Lymperaiou, Giorgos Filandrianos + 2 more2026-03-05💬 cs.CL

Dual-Modality Multi-Stage Adversarial Safety Training: Robustifying Multimodal Web Agents Against Cross-Modal Attacks

Die Arbeit stellt das Dual-Modality Multi-Stage Adversarial Safety Training (DMAST) vor, ein dreistufiges Framework, das multimodale Web-Agenten durch ko-evolutionäres Training gegen konsistente Cross-Modal-Angriffe robust macht und gleichzeitig die Aufgabenleistung auf Out-of-Distribution-Daten signifikant verbessert.

Haoyu Liu, Dingcheng Li, Lukas Rutishauser + 1 more2026-03-05🤖 cs.AI

ττ-Knowledge: Evaluating Conversational Agents over Unstructured Knowledge

Das Paper stellt ττ-Knowledge vor, eine neue Benchmark, die die Fähigkeiten von konversationalen Agenten in komplexen, wissensintensiven Szenarien wie dem Fintech-Support bewertet und dabei zeigt, dass selbst fortschrittliche Modelle Schwierigkeiten haben, unstrukturierte Wissensbestände mit Werkzeugen zu koordinieren, um zuverlässige, policy-konforme Ergebnisse zu erzielen.

Quan Shi, Alexandra Zytek, Pedram Razavi + 2 more2026-03-05🤖 cs.AI

TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning

Das Paper stellt TaxonRL vor, eine Reinforcement-Learning-Methode mit intermediären Belohnungen, die durch hierarchische taxonomische Vorhersagen nicht nur die Genauigkeit bei der feingranularen visuellen Unterscheidung ähnlicher Arten übertrifft, sondern auch transparente und interpretierbare Schlussfolgerungsprozesse ermöglicht.

Maximilian von Klinski, Maximilian Schall2026-03-05💬 cs.CL