cs.CL Arbeiten | Gist.Science

MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages

Das Paper stellt MultiWikiQA vor, ein Leseverstehens-Benchmark mit über 1,2 Millionen Frage-Antwort-Paaren in 306 Sprachen, der durch LLM-generierte und umformulierte Inhalte aus Wikipedia-Artikeln erstellt wurde und durch menschliche Evaluierung sowie Tests verschiedener Sprachmodelle seine hohe Qualität und Schwierigkeit unter Beweis stellt.

Dan Saattrup Smart2026-03-05💬 cs.CL

Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models

Die Autoren stellen einen leichten Token-Pruning-Ansatz vor, der durch eine binäre Klassifikation und eine Max-Pooling-Verfeinerung nicht-informative Hintergrundbereiche aus Dokumentenbildern filtert, um die Rechenkosten von Vision-Language-Modellen bei der Dokumentenanalyse erheblich zu senken, ohne die Genauigkeit zu beeinträchtigen.

Jaemin Son, Sujin Choi, Inyong Yun2026-03-05🤖 cs.AI

See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles

Die Arbeit stellt mit StaR eine multimodale Reasoning-Methode vor, die die Zuverlässigkeit von GUI-Agenten bei der Ausführung von Toggle-Befehlen durch die Identifikation des aktuellen Zustands signifikant verbessert und gleichzeitig die allgemeine Leistung in agenticen Aufgaben steigert.

Zongru Wu, Rui Mao, Zhiyuan Tian + 7 more2026-03-05🤖 cs.AI

Trust Me, I Can Convince You: The Contextualized Argument Appraisal Framework

Diese Arbeit stellt das „Contextualized Argument Appraisal Framework" vor, das psychologische Bewertungsmodelle auf das Argument-Mining überträgt, um durch eine neuartige rollenspielerische Annotation die subjektive Überzeugungskraft von Argumenten in Abhängigkeit von Emotionen und individuellen Faktoren wie Bekanntheit zu analysieren.

Lynn Greschner, Sabine Weber, Roman Klinger2026-03-05💬 cs.CL

Non-Collaborative User Simulators for Tool Agents

Die Autoren stellen einen neuartigen, nicht-kollaborativen Benutzersimulator vor, der vier Kategorien schwieriger Verhaltensweisen nachahmt, um Tool-Agenten robuster zu machen und deren Schwächen bei realen, unkooperativen Interaktionen aufzudecken.

Jeonghoon Shim, Woojung Song, Cheyon Jin + 2 more2026-03-05💬 cs.CL

Towards Personalized Deep Research: Benchmarks and Evaluations

Die Arbeit stellt mit PDR-Bench den ersten Benchmark zur Evaluierung personalisierter Deep-Research-Agenten vor, der 250 realistische Nutzer-Aufgaben-Paare mit einem neuen Bewertungsrahmen kombiniert, um Personalisierung, Inhaltsqualität und faktische Zuverlässigkeit zu messen.

Yuan Liang, Jiaxian Li, Yuqing Wang + 11 more2026-03-05🤖 cs.AI

GraphMERT: Efficient and Scalable Distillation of Reliable Knowledge Graphs from Unstructured Data

Die Arbeit stellt GraphMERT vor, ein effizientes, kleines neuronales Modell, das zuverlässige, faktenbasierte und ontologisch konsistente Wissensgraphen aus unstrukturierten Texten ableitet und dabei die Zuverlässigkeit und Skalierbarkeit bestehender Neurosymbolischer Ansätze sowie die Leistungsfähigkeit großer Sprachmodelle übertrifft.

Margarita Belova, Jiaxin Xiao, Shikhar Tuli + 1 more2026-03-05🤖 cs.AI

The Geometry of Reasoning: Flowing Logics in Representation Space

Diese Arbeit stellt ein neuartiges geometrisches Rahmenwerk vor, das das logische Denken von Large Language Models als glatte Flüsse im Repräsentationsraum modelliert und zeigt, dass diese Modelle logische Invarianten unabhängig von ihrer Architektur verinnerlichen, was die These der „stochastischen Papageien" widerlegt.

Yufa Zhou, Yixiao Wang, Xunjian Yin + 2 more2026-03-05🤖 cs.AI

Circuit Insights: Towards Interpretability Beyond Activations

Die Arbeit stellt WeightLens und CircuitLens vor, zwei komplementäre Methoden, die über eine reine Aktivierungsanalyse hinausgehen, indem sie Merkmale direkt aus Gewichten ableiten bzw. deren Interaktionen untersuchen, um die Skalierbarkeit und Robustheit der mechanistischen Interpretierbarkeit von neuronalen Netzen zu verbessern.

Elena Golimblevskaia, Aakriti Jain, Bruno Puri + 3 more2026-03-05🤖 cs.AI

Composition-Grounded Data Synthesis for Visual Reasoning

Die Arbeit stellt COGS vor, ein dateneffizientes Framework, das durch die Zerlegung von Seed-Fragen in primitive Faktoren und deren systematische Neukombination mit synthetischen Bildern große Mengen an Trainingsdaten für das visuelle Schlussfolgern von Multi-modalen Large Language Models generiert und so deren Leistungsfähigkeit insbesondere bei komplexen, zusammengesetzten Aufgaben erheblich steigert.

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong + 5 more2026-03-05🤖 cs.LG

Annotation-Efficient Universal Honesty Alignment

Die Arbeit stellt EliCal, ein zweistufiges Framework zur annotierungseffizienten Ausrichtung von Large Language Models auf Ehrlichkeit, und das zugehörige HonestyBench-Benchmark vor, die es ermöglichen, mit nur minimalen manuellen Korrektheits-Annotationen eine universelle Vertrauenskalibrierung zu erreichen.

Shiyu Ni, Keping Bi, Jiafeng Guo + 4 more2026-03-05💬 cs.CL

Citation Failure: Definition, Analysis and Efficient Mitigation

Diese Arbeit stellt mit CITECONTROL ein Benchmark zur Analyse von Zitationsfehlern in RAG-Systemen vor und schlägt das Framework CITENTION vor, um diese durch die Kombination generativer, aufmerksamkeitsbasierter und suchbasierter Methoden effizient zu beheben.

Jan Buchmann, Iryna Gurevych2026-03-05💬 cs.CL

REVISION:Reflective Intent Mining and Online Reasoning Auxiliary for E-commerce Visual Search System Optimization

Die Arbeit stellt REVISION vor, ein Framework, das durch die Kombination von offline-gestützter Implizit-Intent-Mining mit großen Modellen und einer online-optimierten Entscheidungsfindung die Diskrepanz zwischen Nutzerabsicht und Suchsystem in Taobos visuellen Suchsystemen adressiert und so die Nicht-Klick-Rate signifikant senkt.

Yiwen Tang, Qiuyu Zhao, Zenghui Sun + 3 more2026-03-05🤖 cs.AI

MuSaG: A Multimodal German Sarcasm Dataset with Full-Modal Annotations

Die Arbeit stellt MuSaG vor, das erste deutschsprachige multimodale Datenset zur Sarkasmerkennung mit synchronisierten Text-, Audio- und Videodaten aus Fernsehsendungen, das zeigt, dass aktuelle Modelle im Gegensatz zu Menschen, die stark auf Audiohinweise angewiesen sind, primär auf Text basieren, und dient als Ressource für die Entwicklung robusterer multimodaler Systeme.

Aaron Scott, Maike Züfle, Jan Niehues2026-03-05🤖 cs.AI

Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents

Die Arbeit stellt das Agent Data Protocol (ADP) vor, eine leichtgewichtige Interlingua, die heterogene Agentendatensätze vereinheitlicht und durch standardisierte Feinabstimmung ohne domänenspezifische Anpassungen zu signifikanten Leistungssteigerungen bei LLM-Agenten führt.

Yueqi Song, Ketan Ramaneti, Zaid Sheikh + 18 more2026-03-05🤖 cs.AI

CareMedEval dataset: Evaluating Critical Appraisal and Reasoning in the Biomedical Field

Die Studie stellt CareMedEval vor, einen neuen Datensatz auf Basis französischer Medizinstudenten-Prüfungen, der die begrenzten Fähigkeiten aktueller Large Language Models beim kritischen Appraisal und der logischen Schlussfolgerung in biomedizinischen Fachartikeln aufzeigt.

Doria Bonzi, Alexandre Guiggi, Frédéric Béchet + 2 more2026-03-05🤖 cs.AI

Dutch Metaphor Extraction from Cancer Patients' Interviews and Forum Data using LLMs and Human in the Loop

Diese Arbeit stellt eine Methode zur Extraktion von Metaphern aus niederländischen Interviews und Forenbeiträgen von Krebspatienten mittels Large Language Models und eines Human-in-the-Loop-Ansatzes vor, um das Korpus HealthQuote.NL zu erstellen und damit die Patientenversorgung sowie die Kommunikation im Gesundheitswesen zu verbessern.

Lifeng Han, David Lindevelt, Sander Puts + 2 more2026-03-05💬 cs.CL

Categorical Emotions or Appraisals - Which Emotion Model Explains Argument Convincingness Better?

Die Studie zeigt anhand des ContArgA-Korpus, dass Appraisal-Theorien im Vergleich zu kategorischen Emotionsmodellen die Vorhersage der Überzeugungskraft von Argumenten aufgrund ihrer Berücksichtigung subjektiver kognitiver Bewertungen deutlich besser erklären.

Lynn Greschner, Meike Bauer, Sabine Weber + 1 more2026-03-05💬 cs.CL

Multimodal Large Language Models for Low-Resource Languages: A Case Study for Basque

Diese Studie entwickelt ein leistungsfähiges multimodales Sprachmodell für die geringressourcenreiche Sprache Baskisch und zeigt, dass bereits ein geringer Anteil baskischer Multimodal-Daten ausreicht, um gute Ergebnisse zu erzielen, ohne dass ein speziell für Baskisch angepasster Sprachmodell-Backbone notwendig ist.

Lukas Arana, Julen Etxaniz, Ander Salaberria + 1 more2026-03-05🤖 cs.AI

Dripper: Token-Efficient Main HTML Extraction with a Lightweight LM

Die Arbeit stellt Dripper vor, ein effizientes Framework, das mittels eines leichtgewichtigen Small Language Models (SLM) und einer als sequenzielle Markierung reformulierten Aufgabe hochwertige Hauptinhalte von Webseiten extrahiert und dabei die Genauigkeit großer Modelle mit der Geschwindigkeit traditioneller Heuristiken vereint.

Mengjie Liu, Jiahui Peng, Wenchang Ning + 14 more2026-03-05💬 cs.CL

← Zurück Weiter →