cs.CL Arbeiten | Gist.Science

HeartAgent: An Autonomous Agent System for Explainable Differential Diagnosis in Cardiology

Das Paper stellt HeartAgent vor, ein autonomes Agentensystem für die Kardiologie, das durch die Integration spezialisierter Tools und Sub-Agenten eine zuverlässige, erklärbare Differentialdiagnose ermöglicht und sowohl in Tests als auch bei der Unterstützung von Klinikern signifikante Verbesserungen der Diagnosegenauigkeit und Erklärungsqualität gegenüber bestehenden Methoden zeigt.

Shuang Zhou, Kai Yu, Song Wang, Wenya Xie, Zaifu Zhan, Meng-Han Tsai, Yuen-Hei Chung, Shutong Hou, Huixue Zhou, Min Zeng, Bhavadharini Ramu, Lin Yee Chen, Feng Xie, Rui Zhang2026-03-12💬 cs.CL

mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR

Das Paper stellt mAceReason-Math vor, einen hochwertigen Datensatz mit über 10.000 mathematischen Aufgaben pro Sprache in 14 Sprachen, der speziell für das Training von Modellen mittels Reinforcement Learning with Verifiable Rewards (RLVR) entwickelt wurde, um die bisherige englischzentrierte Forschung zu erweitern.

Konstantin Dobler, Simon Lehnerer, Federico Scozzafava, Jonathan Janke, Mohamed Ali2026-03-12💬 cs.CL

Word Recovery in Large Language Models Enables Character-Level Tokenization Robustness

Diese Studie identifiziert den Mechanismus der „Wiederherstellung von Wörtern" (word recovery) als entscheidenden Prozess, durch den große Sprachmodelle trotz nicht-kanonischer Eingaben wie einer Zeichen-basierten Tokenisierung robust bleiben, indem sie verdeckte Zustände nutzen, um kanonische Wortidentitäten wiederherzustellen.

Zhipeng Yang, Shu Yang, Lijie Hu, Di Wang2026-03-12💬 cs.CL

Large Language Models as Annotators for Machine Translation Quality Estimation

Die Arbeit schlägt vor, Large Language Models zur Generierung von MQM-ähnlichen Annotationen zu nutzen, um damit einen COMET-Modell für die kosteneffiziente Segment-Level-Qualitätsschätzung von Maschineller Übersetzung zu trainieren, wobei ein vereinfachtes MQM-Schema und ein GPT-4o-basierter Prompt (PPbMQM) entwickelt wurden, die zu wettbewerbsfähigen Ergebnissen für Chinesisch-Englisch und Englisch-Deutsch führen.

Sidi Wang, Sophie Arnoult, Amir Kamran2026-03-12💬 cs.CL

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

Diese Studie stellt einen interpretierbaren, LLM-gestützten Ansatz zur Identifizierung chinesischer Metaphern vor, der verschiedene Protokolle als ausführbare Regel-Skripte operationalisiert und zeigt, dass die Wahl des Protokolls die größte Variationsquelle darstellt, während gleichzeitig vollständige Transparenz und reproduzierbare Begründungen gewährleistet werden.

Weihang Huang, Mengna Liu2026-03-12💬 cs.CL

LuxBorrow: From Pompier to Pompjee, Tracing Borrowing in Luxembourgish

Die Studie „LuxBorrow" analysiert anhand eines umfassenden Korpus luxemburgischer Nachrichtenartikel über 27 Jahre hinweg, dass das Luxemburgische trotz allgegenwärtiger Mehrsprachigkeit als Matrixsprache fungiert, wobei französische Entlehnungen dominieren und morphologische Anpassungen zunehmen, was eine bewertungsorientierte Fokussierung auf Entlehnungsmechanismen statt nur auf globale Mischungsindizes nahelegt.

Nina Hosseini-Kivanani, Fred Philippy2026-03-12💬 cs.CL

Multilingual Reasoning Gym: Multilingual Scaling of Procedural Reasoning Environments

Das Paper stellt das Multilingual Reasoning Gym vor, eine Erweiterung des Reasoning Gym, die durch prozedurale Generierung verifizierbarer Denkprobleme in 14 Sprachen mit nativer Validierung und paralleler Datenverfügbarkeit die Erforschung multilingualer Reasoning-Modelle ermöglicht.

Konstantin Dobler, Simon Lehnerer, Federico Scozzafava, Jonathan Janke, Mohamed Ali2026-03-12💬 cs.CL

PivotAttack: Rethinking the Search Trajectory in Hard-Label Text Attacks via Pivot Words

Die Arbeit stellt PivotAttack vor, ein abfrageeffizientes Framework für Textangriffe mit harten Labels, das mittels eines Multi-Armed-Bandit-Algorithmus Pivot-Sets identifiziert und gezielt manipuliert, um die Suchraumgröße zu verringern und die Angriffserfolgsrate sowie die Effizienz gegenüber bestehenden Methoden zu steigern.

Yuzhi Liang, Shiliang Xiao, Jingsong Wei, Qiliang Lin, Xia Li2026-03-12💬 cs.CL

Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

Die Arbeit stellt EvoKernel vor, ein selbstentwickelndes Agenten-Framework, das durch einen wertgesteuerten, speicherbasierten Lernansatz die Herausforderung des „Cold-Starts" beim Synthesieren von NPU-Kernen in datenarmen Domänen überwindet und dabei die Korrektheit von 11 % auf 83 % sowie eine mediane Geschwindigkeitssteigerung von 3,6-fach erzielt.

Yujie Zheng, Zhuo Li, Shengtao Zhang, Hanjing Wang, Junjie Sheng, Jiaqian Wang, Junchi Yan, Weinan Zhang, Ying Wen, Bo Tang, Muning Wen2026-03-12🤖 cs.LG

$V_{0.5}$ : Generalist Value Model as a Prior for Sparse RL Rollouts

Die Arbeit stellt $V_{0.5}$ vor, ein Verfahren, das ein generalistisches Wertmodell als Prior mit empirischen Daten aus spärlichen Rollouts durch dynamische Budgetzuweisung und statistische Tests adaptiv kombiniert, um eine robuste, varianzarme Vorteilsschätzung für effizientes Reinforcement Learning mit verifizierbaren Belohnungen zu gewährleisten.

Yi-Kai Zhang, Yueqing Sun, Hongyan Hao, Qi Gu, Xunliang Cai, De-Chuan Zhan, Han-Jia Ye2026-03-12🤖 cs.LG

SiDiaC-v.2.0: Sinhala Diachronic Corpus Version 2.0

SiDiaC-v.2.0 ist das bisher umfassendste diachrone Korpus für die singhalesische Sprache, das 244.000 Wörter aus 185 literarischen Werken von 1800 bis 1955 enthält und durch sorgfältige Vorverarbeitung sowie Genre-Kategorisierung eine wertvolle Ressource für die singhalesische NLP-Forschung darstellt.

Nevidu Jayatilleke, Nisansa de Silva, Uthpala Nimanthi, Gagani Kulathilaka, Azra Safrullah, Johan Sofalas2026-03-12💬 cs.CL

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

Diese Arbeit stellt ein großes zweisprachiges Korpus mit Katalogdatensätzen und einer maschinenlesbaren GND-Taxonomie vor, um ontologiebewusste Multi-Label-Klassifikation und agentengestützte Katalogisierung zu ermöglichen, wobei die Evaluierung nicht nur die Genauigkeit, sondern auch den praktischen Nutzen und die Transparenz von KI-Systemen für Bibliothekare in den Vordergrund stellt.

Jennifer D'Souza, Sameer Sadruddin, Maximilian Kähler, Andrea Salfinger, Luca Zaccagna, Francesca Incitti, Lauro Snidaro, Osma Suominen2026-03-12💬 cs.CL

From Images to Words: Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers

Die Arbeit stellt ARMADA vor, ein effizientes Framework für den wissensbasierten Transfer von großen, auch black-box Vision-Language-Modellen auf reine Sprachmodelle, das ohne teures Vor-Training oder Anpassung des Lehrmodells auskommt und nachweislich die Leistung bei Sprachverständnis- und Generierungsaufgaben verbessert.

Ayan Sengupta, Shantanu Dixit, Md Shad Akhtar, Tanmoy Chakraborty2026-03-12💬 cs.CL

GLM-OCR Technical Report

GLM-OCR ist ein effizientes, kompaktes Multimodal-Modell mit 0,9 Milliarden Parametern, das durch einen CogViT-Vision-Encoder, einen GLM-Sprachdecoder und einen Multi-Token-Vorhersage-Mechanismus in Kombination mit einer zweistufigen Pipeline state-of-the-art-Ergebnisse bei der Dokumentenverarbeitung erzielt und sich sowohl für ressourcenbeschränkte Edge-Geräte als auch für großskalige Produktionssysteme eignet.

Shuaiqi Duan, Yadong Xue, Weihan Wang, Zhe Su, Huan Liu, Sheng Yang, Guobing Gan, Guo Wang, Zihan Wang, Shengdong Yan, Dexin Jin, Yuxuan Zhang, Guohong Wen, Yanfeng Wang, Yutao Zhang, Xiaohan Zhang, Wenyi Hong, Yukuo Cen, Da Yin, Bin Chen, Wenmeng Yu, Xiaotao Gu, Jie Tang2026-03-12💬 cs.CL

LLM2Vec-Gen: Generative Embeddings from Large Language Models

Die Arbeit stellt LLM2Vec-Gen vor, einen neuartigen selbstüberwachten Ansatz, der durch das Lernen der potenziellen Antwort eines eingefrorenen Large Language Models statt der Eingabe selbst State-of-the-Art-Ergebnisse bei Text-Embeddings erzielt, ohne gelabelte Daten zu benötigen.

Parishad BehnamGhader, Vaibhav Adlakha, Fabian David Schmidt, Nicolas Chapados, Marius Mosbach, Siva Reddy2026-03-12💬 cs.CL

TOSSS: a CVE-based Software Security Benchmark for Large Language Models

Das Paper stellt TOSSS vor, ein auf CVE-Daten basierendes Benchmark-System zur Bewertung der Fähigkeit von Large Language Models, sichere von anfälligen Code-Snippets in C/C++ und Java zu unterscheiden, wobei die getesteten Modelle Sicherheitswerte zwischen 0,48 und 0,89 erreichten.

Marc Damie, Murat Bilgehan Ertan, Domenico Essoussi, Angela Makhanu, Gaëtan Peter, Roos Wensveen2026-03-12🤖 cs.LG

A Systematic Study of Pseudo-Relevance Feedback with LLMs

Diese Studie analysiert systematisch den Einfluss von Feedback-Quelle und Feedback-Modell auf die Wirksamkeit von Pseudo-Relevance-Feedback mit großen Sprachmodellen und zeigt, dass die Wahl des Feedback-Modells entscheidend ist, wobei LLM-generierter Text die kosteneffizienteste Lösung darstellt, während Korpus-basiertes Feedback bei starken Erststufen-Retrievern am vorteilhaftesten ist.

Nour Jedidi, Jimmy Lin2026-03-12💬 cs.CL

Beyond the Illusion of Consensus: From Surface Heuristics to Knowledge-Grounded Evaluation in LLM-as-a-Judge

Diese Studie widerlegt die Annahme, dass eine hohe Übereinstimmung zwischen LLM-Bewertern auf Zuverlässigkeit hindeutet, indem sie das Phänomen der „Evaluationsillusion" aufdeckt, bei der Bewertungen auf oberflächlichen Heuristiken basieren, und zeigt gleichzeitig, dass dynamisch generierte, wissensbasierte Rubriken (MERG) die Bewertungskonsistenz in kodifizierten Domänen signifikant verbessern.

Mingyang Song, Mao Zheng, Chenning Xu2026-03-12💬 cs.CL

Instruction set for the representation of graphs

Das Paper stellt IsalGraph vor, eine Methode zur kompakten Darstellung beliebiger endlicher Graphen als Zeichenkette über einem neun Zeichen umfassenden Alphabet, die durch einen kleinen virtuellen Maschinencode erzeugt wird, isomorphieinvariant ist und eine starke Korrelation zwischen dem Levenshtein-Abstand der Strings und dem Graph-Edit-Abstand aufweist.

Ezequiel Lopez-Rubio, Mario Pascual-Gonzalez2026-03-12💬 cs.CL

COMIC: Agentic Sketch Comedy Generation

Die Arbeit stellt ein vollautomatisiertes KI-System vor, das mithilfe einer populationbasierter Agentenarchitektur und durch Analyse von YouTube-Comedy-Videos trainierter LLM-Kritiker kurze Sketch-Comedy-Videos in professioneller Qualität generiert.

Susung Hong, Brian Curless, Ira Kemelmacher-Shlizerman, Steve Seitz2026-03-12💬 cs.CL

← Zurück Weiter →

cs.CL