cs.CL papers | Gist.Science

HeartAgent: An Autonomous Agent System for Explainable Differential Diagnosis in Cardiology

HeartAgent is een autonoom agentensysteem dat gespecialiseerde sub-agenten en aangepaste hulpmiddelen integreert om betrouwbare, uitlegbare differentiaaldiagnoses voor hartziekten te ondersteunen, wat leidt tot aanzienlijke verbeteringen in diagnostische nauwkeurigheid en verklarende kwaliteit voor zowel AI-modellen als klinische experts.

Shuang Zhou, Kai Yu, Song Wang, Wenya Xie, Zaifu Zhan, Meng-Han Tsai, Yuen-Hei Chung, Shutong Hou, Huixue Zhou, Min Zeng, Bhavadharini Ramu, Lin Yee Chen, Feng Xie, Rui Zhang2026-03-12💬 cs.CL

mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR

Dit paper introduceert mAceReason-Math, een dataset van meer dan 10.000 hoogwaardige, vertaalde wiskundeproblemen in 14 talen die specifiek zijn ontworpen om Reinforcement Learning with Verifiable Rewards (RLVR) voor meertalige modellen te ondersteunen.

Konstantin Dobler, Simon Lehnerer, Federico Scozzafava, Jonathan Janke, Mohamed Ali2026-03-12💬 cs.CL

Word Recovery in Large Language Models Enables Character-Level Tokenization Robustness

Dit onderzoek onthult dat grote taalmodellen robuust zijn voor karakterniveau-tokenisatie dankzij een mechanisme genaamd 'woordherstel', waarbij verborgen staten canonieke woordidentiteiten reconstrueren via intra-groep attentie tussen karakters.

Zhipeng Yang, Shu Yang, Lijie Hu, Di Wang2026-03-12💬 cs.CL

Large Language Models as Annotators for Machine Translation Quality Estimation

Dit paper introduceert een kostenefficiënte aanpak waarbij GPT-4o wordt gebruikt om MQM-annotaties te genereren voor het trainen van een COMET-model, wat resulteert in concurrerende prestaties voor segmentniveau-kwaliteitsschatting van machinevertalingen tussen Chinees-Engels en Engels-Duits.

Sidi Wang, Sophie Arnoult, Amir Kamran2026-03-12💬 cs.CL

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

Deze studie introduceert een interpreteerbare, door LLM's ondersteunde pipeline die vier Chinese metafooridentificatieprotocollen omzet in uitvoerbare regelscripts, waarmee voor het eerst een cross-protocol vergelijking wordt gedaan die aantoont dat de keuze van het protocol de grootste variatiebron is en dat deze transparante architectuur concurrerende prestaties levert.

Weihang Huang, Mengna Liu2026-03-12💬 cs.CL

LuxBorrow: From Pompier to Pompjee, Tracing Borrowing in Luxembourgish

Dit artikel introduceert LuxBorrow, een analyse van 27 jaar Luxemburgse nieuwsartikelen die aantoont dat, hoewel Luxemburgs de dominante matrixtaal blijft, er sprake is van alomtegenwoordige en toenemende code-mixing waarbij vooral Franse leenwoorden worden aangepast via morfologische en orthografische regels.

Nina Hosseini-Kivanani, Fred Philippy2026-03-12💬 cs.CL

Multilingual Reasoning Gym: Multilingual Scaling of Procedural Reasoning Environments

Dit paper introduceert de Multilingual Reasoning Gym, een uitgebreide versie van Reasoning Gym die verifieerbare redeneeropgaven in 14 talen procedurally genereert om onderzoek naar meertalige redeneermodellen te ondersteunen.

Konstantin Dobler, Simon Lehnerer, Federico Scozzafava, Jonathan Janke, Mohamed Ali2026-03-12💬 cs.CL

PivotAttack: Rethinking the Search Trajectory in Hard-Label Text Attacks via Pivot Words

Dit paper introduceert PivotAttack, een query-efficiënt framework voor hard-label tekstaanvallen dat via een Multi-Armed Bandit-algoritme pivotwoorden identificeert om zoekruimtes te optimaliseren en zo een hogere aanvalssuccesratio te bereiken dan bestaande methoden.

Yuzhi Liang, Shiliang Xiao, Jingsong Wei, Qiliang Lin, Xia Li2026-03-12💬 cs.CL

Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

Het paper introduceert EvoKernel, een zelfevoluerend agentiek framework dat door middel van een waardegedreven geheugenaanpak en versterkingsleer de uitdagingen van het ontbreken van trainingsdata voor NPU-kernels oplost, waardoor de correctheid van generatieve modellen van 11% naar 83% stijgt en de uitvoeringssnelheid met een factor 3,6 verbetert.

Yujie Zheng, Zhuo Li, Shengtao Zhang, Hanjing Wang, Junjie Sheng, Jiaqian Wang, Junchi Yan, Weinan Zhang, Ying Wen, Bo Tang, Muning Wen2026-03-12🤖 cs.LG

$V_{0.5}$ : Generalist Value Model as a Prior for Sparse RL Rollouts

Dit paper introduceert $V_{0.5}$ , een methode die een Generalist Value Model als prior combineert met empirische rollouts via real-time statistische testen en dynamische budgettoewijzing, waardoor een robuuste en efficiënte advantage-baseline wordt verkregen die significant betere prestaties en snellere convergentie bereikt dan GRPO en DAPO op wiskundige redeneerbenchmarks.

Yi-Kai Zhang, Yueqing Sun, Hongyan Hao, Qi Gu, Xunliang Cai, De-Chuan Zhan, Han-Jia Ye2026-03-12🤖 cs.LG

SiDiaC-v.2.0: Sinhala Diachronic Corpus Version 2.0

SiDiaC-v.2.0 is de meest uitgebreide diachrone corpus voor het Sinhalees tot nu toe, die 244.000 woorden uit 185 literaire werken uit de periode 1800–1955 bevat en is opgezet als een grondig voorverwerkt en genoteerd hulpmiddel voor Sinhala NLP-onderzoek.

Nevidu Jayatilleke, Nisansa de Silva, Uthpala Nimanthi, Gagani Kulathilaka, Azra Safrullah, Johan Sofalas2026-03-12💬 cs.CL

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

Deze paper introduceert een tweetalig corpus en een machine-actievere GND-taxonomie voor het trainen en evalueren van AI-systemen die bibliothecarissen ondersteunen bij het automatisch toewijzen van onderwerpswoorden aan catalogusrecords.

Jennifer D'Souza, Sameer Sadruddin, Maximilian Kähler, Andrea Salfinger, Luca Zaccagna, Francesca Incitti, Lauro Snidaro, Osma Suominen2026-03-12💬 cs.CL

From Images to Words: Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers

Dit paper introduceert ARMADA, een efficiënt raamwerk voor cross-modale kennisdistillatie dat grote visueel-taalmodellen, inclusief black-box modellen, gebruikt om taalmodellen te verbeteren zonder de leraar aan te passen of dure vooropleiding te vereisen.

Ayan Sengupta, Shantanu Dixit, Md Shad Akhtar, Tanmoy Chakraborty2026-03-12💬 cs.CL

GLM-OCR Technical Report

GLM-OCR is een compact multimodaal model van 0,9 miljard parameters dat door middel van een Multi-Token Prediction-mechanisme en een tweestaps-pijplijn efficiënte en state-of-the-art prestaties levert voor documentbegrip, geschikt voor zowel randapparatuur als schaalbare productiesystemen.

Shuaiqi Duan, Yadong Xue, Weihan Wang, Zhe Su, Huan Liu, Sheng Yang, Guobing Gan, Guo Wang, Zihan Wang, Shengdong Yan, Dexin Jin, Yuxuan Zhang, Guohong Wen, Yanfeng Wang, Yutao Zhang, Xiaohan Zhang, Wenyi Hong, Yukuo Cen, Da Yin, Bin Chen, Wenmeng Yu, Xiaotao Gu, Jie Tang2026-03-12💬 cs.CL

LLM2Vec-Gen: Generative Embeddings from Large Language Models

Het paper introduceert LLM2Vec-Gen, een zelftoezichtmethode die frozen grote taalmodellen gebruikt om generatieve embeddings te leren door de modelrespons te representeren in plaats van de input, wat leidt tot state-of-the-art prestaties, verbeterde redeneer- en veiligheidskwaliteiten, en interpreteerbare embeddings die kunnen worden ontcijferd naar tekst.

Parishad BehnamGhader, Vaibhav Adlakha, Fabian David Schmidt, Nicolas Chapados, Marius Mosbach, Siva Reddy2026-03-12💬 cs.CL

TOSSS: a CVE-based Software Security Benchmark for Large Language Models

Dit paper introduceert TOSSS, een op CVE's gebaseerde benchmark die de veiligheid van Large Language Models evalueert door hun vermogen te meten om tussen veilige en kwetsbare codefragmenten te kiezen, waarbij geteste modellen scores tussen 0,48 en 0,89 behalen.

Marc Damie, Murat Bilgehan Ertan, Domenico Essoussi, Angela Makhanu, Gaëtan Peter, Roos Wensveen2026-03-12🤖 cs.LG

A Systematic Study of Pseudo-Relevance Feedback with LLMs

Dit paper biedt een systematische studie naar pseudo-relevante feedback met grote taalmodellen en onthult dat de keuze van het feedbackmodel cruciaal is, terwijl de meest kosteneffectieve aanpak gebruikmaakt van door het model gegenereerde tekst, tenzij een sterke eerste-stap retriever beschikbaar is, waarbij corpus-gebaseerde feedback dan het meest voordelig is.

Nour Jedidi, Jimmy Lin2026-03-12💬 cs.CL

Beyond the Illusion of Consensus: From Surface Heuristics to Knowledge-Grounded Evaluation in LLM-as-a-Judge

Dit paper weerlegt de aanname dat hoge onderlinge overeenstemming tussen LLM-beoordelaars betrouwbaarheid garandeert door aan te tonen dat deze vaak een illusie is gebaseerd op oppervlakkige heuristieken, en introduceert MERG, een kennisgestuurd raamwerk voor het dynamisch genereren van beoordelingsrubrieken dat in codificerende domeinen de consistentie verhoogt door gebruik te maken van expertkennis in plaats van generieke criteria.

Mingyang Song, Mao Zheng, Chenning Xu2026-03-12💬 cs.CL

Instruction set for the representation of graphs

Dit artikel introduceert IsalGraph, een methode die de structuur van eindige grafen comprimeert tot een compacte string van negen karakters die door een virtuele machine kan worden gedecodeerd, waarbij elke string een geldige graaf oplevert en de sequenties sterk correleren met grafische bewerkingen voor toepassingen in vergelijkingszoekopdrachten en generatieve modellen.

Ezequiel Lopez-Rubio, Mario Pascual-Gonzalez2026-03-12💬 cs.CL

COMIC: Agentic Sketch Comedy Generation

Deze paper introduceert een volledig geautomatiseerd AI-systeem dat korte komediesoaps genereert door middel van een agentenpopulatie die de rollen van een productiestudio nabootst en gebruikmaakt van door LLM-aangedreven critici die zijn getraind op YouTube-data om humor te evalueren en de output te optimaliseren.

Susung Hong, Brian Curless, Ira Kemelmacher-Shlizerman, Steve Seitz2026-03-12💬 cs.CL

← Vorige Volgende →

cs.CL