cs.CL Arbeiten | Gist.Science

Credibility Governance: A Social Mechanism for Collective Self-Correction under Weak Truth Signals

Die Studie stellt „Credibility Governance" als einen sozialen Mechanismus vor, der durch die dynamische Neuverteilung von Einfluss basierend auf der Übereinstimmung mit öffentlicher Evidenz kollektive Selbstkorrektur in Online-Plattformen ermöglicht und so die Robustheit gegenüber Fehlinformationen und strategischer Manipulation im Vergleich zu herkömmlichen Abstimmungs- oder Kapitalgewichtungssystemen signifikant verbessert.

Wanying He, Yanxi Lin, Ziheng Zhou + 5 more2026-03-04💬 cs.CL

Real-Time Generation of Game Video Commentary with Multimodal LLMs: Pause-Aware Decoding Approaches

Diese Arbeit stellt zwei pausebewusste Dekodierungsstrategien für Multimodale Large Language Models vor, die ohne Feinabstimmung Echtzeit-Kommentare für Videospielszenen generieren und dabei sowohl inhaltliche Relevanz als auch ein menschenähnliches Timing erreichen.

Anum Afzal, Yuki Saito, Hiroya Takamura + 5 more2026-03-04💬 cs.CL

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

Die Studie stellt M3IRT vor, ein multimodales und multidimensionales Item-Response-Theory-Framework, das die Fähigkeit von Multimodal Large Language Models zur cross-modalen Reasoning präziser bewertet, indem es Shortcut-Fragen identifiziert und eliminiert, um zuverlässigere Benchmarks mit geringerem Rechenaufwand zu ermöglichen.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

Das Paper stellt eine neuartige Methode vor, die durch strukturelle Abstraktion und deterministisches Parsen syllogistischer Argumente in kanonische logische Repräsentationen die inhaltlichen Verzerrungen von Large Language Models in multilingualen Kontexten reduziert und auf dem SemEval-2026 Task-11-Benchmark Top-5-Ergebnisse erzielt.

Wicaksono Leksono Muhamad, Joanito Agili Lopo, Tack Hwa Wong + 2 more2026-03-04💬 cs.CL

HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse

Das Paper stellt HateMirage vor, ein neuartiges, mehrdimensionales Datenset aus 4.530 annotierten YouTube-Kommentaren, das subtile Hassrede in Verbindung mit Falschinformationen durch die dreidimensionale Analyse von Zielgruppe, Absicht und gesellschaftlicher Implikation erklärbar macht und damit bestehende Grenzen in der Forschung zu onlineem Missbrauch überwindet.

Sai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya + 1 more2026-03-04💬 cs.CL

Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization

Der Artikel stellt Graph-GRPO vor, ein neuartiges Framework zur Optimierung von Kommunikations-Topologien in Multi-Agenten-Systemen auf Basis von Large Language Models, das durch die Anwendung von Group Relative Policy Optimization die Gradientenvarianz reduziert und eine präzisere Kreditvergabe ermöglicht, um so die Trainingsstabilität und Leistung im Vergleich zu bestehenden Methoden signifikant zu steigern.

Yueyang Cang, Xiaoteng Zhang, Erlu Zhao + 7 more2026-03-04💬 cs.CL

Sensory-Aware Sequential Recommendation via Review-Distilled Representations

Die Arbeit stellt \textsc{ASEGR} vor, ein Framework, das durch die Extraktion sensorischer Attribute aus Produktbewertungen mittels eines großen Sprachmodells und deren Destillation in kompakte Embeddings die Leistung sequenzieller Empfehlungssysteme verbessert und dabei interpretierbare, linguistisch fundierte Signale nutzt.

Yeo Chan Yoon2026-03-04💬 cs.CL

Efficient Self-Evaluation for Diffusion Language Models via Sequence Regeneration

Die Arbeit stellt DiSE vor, eine effiziente Selbstbewertungsmethode für Diffusion-Sprachmodelle, die durch die Berechnung der Wahrscheinlichkeit einer Sequenz-Neugenerierung eine zuverlässige Qualitätsbewertung ermöglicht und ein flexibles, adaptives Generierungsframework unterstützt.

Linhao Zhong, Linyu Wu, Wen Wang + 5 more2026-03-04💬 cs.CL

From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

Die Studie stellt KMP-Bench vor, ein umfassendes Benchmark für K-8-Mathematikdidaktik, das zeigt, dass zwar führende Sprachmodelle bei lösbaren Aufgaben stark sind, aber bei der Anwendung pädagogischer Prinzipien in Dialogen scheitern, was durch das Fine-Tuning mit dem neu vorgestellten, pädagogisch reichen KMP-Pile-Datensatz signifikant verbessert werden kann.

Weikang Shi, Houxing Ren, Junting Pan + 8 more2026-03-04💬 cs.CL

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

Diese Studie zeigt anhand großskaliger Datensätze, dass Multimodale Large Language Models (MLLMs) bei der Dokumenteninformationsextraktion ohne OCR oft gleichwertige Ergebnisse erzielen wie traditionelle OCR-Methoden und durch optimierte Anweisungen sowie Beispielmuster weiter verbessert werden können.

Jiyuan Shen, Peiyue Yuan, Atin Ghosh + 2 more2026-03-04💬 cs.CL

Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification

Das Paper stellt GLEAN vor, ein Verifikationsframework für LLM-Agenten in hochriskanten Szenarien wie der klinischen Diagnose, das durch die schrittweise, guideline-basierte Akkumulation und Kalibrierung von Beweisen die Zuverlässigkeit und Unsicherheitsschätzung gegenüber bestehenden Methoden signifikant verbessert.

Yichi Zhang, Nabeel Seedat, Yinpeng Dong + 3 more2026-03-04💬 cs.CL

Faster, Cheaper, More Accurate: Specialised Knowledge Tracing Models Outperform LLMs

Die Studie zeigt, dass spezialisierte Knowledge-Tracing-Modelle Large Language Models (LLMs) bei der Vorhersage von Schülerantworten hinsichtlich Genauigkeit, Geschwindigkeit und Kosten deutlich übertreffen und somit als universelle Lösung ungeeignet sind.

Prarthana Bhattacharyya, Joshua Mitton, Ralph Abboud + 1 more2026-03-04💬 cs.CL

The Distribution of Phoneme Frequencies across the World's Languages: Macroscopic and Microscopic Information-Theoretic Models

Diese Studie liefert einen einheitlichen informationstheoretischen Erklärungsansatz für die Verteilung von Phonemfrequenzen, indem sie makroskopisch eine Anpassung an die Ordnungsstatistik einer symmetrischen Dirichlet-Verteilung und mikroskopisch ein Maximum-Entropie-Modell mit artikulatorischen, phonotaktischen und lexikalischen Constraints nachweist.

Fermín Moscoso del Prado Martín, Suchir Salhan2026-03-04💬 cs.CL

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Die Studie zeigt, dass große Vision-Language-Modelle Knoteninformationen bereits im visuellen Encoder linear kodieren, während die Darstellung von Kanten erst in den Text-Token des Sprachmodells entsteht, was die Schwierigkeiten dieser Modelle beim Verständnis von Beziehungen und Richtungen in Diagrammen erklärt.

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Eval4Sim: An Evaluation Framework for Persona Simulation

Das Paper stellt Eval4Sim vor, ein Evaluierungsframework, das die Übereinstimmung von persona-basierten LLM-Simulationen mit menschlichen Konversationsmustern anhand der drei Dimensionen Adhärenz, Konsistenz und Natürlichkeit misst, indem es Abweichungen von einem menschlichen Referenzkorpus in beide Richtungen bestraft.

Eliseo Bao, Anxo Perez, Xi Wang + 1 more2026-03-04💬 cs.CL

ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation

Die Arbeit stellt ACE-Merging vor, ein datenfreies Framework zur adaptiven Schätzung der Kovarianz aus Parameterverschiebungen, das durch eine geschlossene Lösung Interferenz zwischen Expertenmodellen effektiv reduziert und damit den aktuellen Stand der Technik bei der Modellverschmelzung übertrifft.

Bo Xu, Haotian Wu, Hehai Lin + 4 more2026-03-04💬 cs.CL

Contextualized Privacy Defense for LLM Agents

Die Arbeit stellt „Contextualized Defense Instructing" (CDI) vor, ein neues Paradigma, das mithilfe eines RL-gestützten Instruktormodells kontextsensitive, proaktive Privatsphärenschutzhinweise während der Ausführung von LLM-Agenten generiert und dabei eine überlegene Balance zwischen Datenschutz und Hilfsbereitschaft im Vergleich zu statischen Verteidigungsansätzen erreicht.

Yule Wen, Yanzhe Zhang, Jianxun Lian + 3 more2026-03-04💬 cs.CL

MaBERT:A Padding Safe Interleaved Transformer Mamba Hybrid Encoder for Efficient Extended Context Masked Language Modeling

Die Arbeit stellt MaBERT vor, einen hybriden Encoder, der Transformer- und Mamba-Schichten interleaved kombiniert und durch padding-sichere Maskierung sowie maskenbewusstes Attention Pooling effizientes und genaues Masked Language Modeling mit langen Kontexten ermöglicht.

Jinwoong Kim, Sangjin Park2026-03-04💬 cs.CL

TrustMH-Bench: A Comprehensive Benchmark for Evaluating the Trustworthiness of Large Language Models in Mental Health

Die Arbeit stellt TrustMH-Bench vor, ein umfassendes Benchmark-Framework, das die Vertrauenswürdigkeit von Sprachmodellen im Bereich der psychischen Gesundheit anhand von acht Kernkriterien systematisch bewertet und dabei erhebliche Defizite sowohl bei allgemeinen als auch bei spezialisierten Modellen aufzeigt.

Zixin Xiong, Ziteng Wang, Haotian Fan + 2 more2026-03-04💬 cs.CL

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

Das Paper stellt TikZilla vor, ein Modell-Familie auf Basis kleiner Qwen-LLMs, die durch die Nutzung eines hochwertigen, vierfach vergrößerten Datensatzes (DaTikZ-V4) und eines zweistufigen Trainings mit überwachtem Fine-Tuning sowie bestärkendem Lernen (RL) mit semantischen Bild-Rückmeldungen die Text-zu-TikZ-Generierung so weit verbessern, dass sie GPT-4o übertrifft und mit GPT-5 gleichzieht.

Christian Greisinger, Steffen Eger2026-03-04💬 cs.CL

← Zurück Weiter →