cs.CL papers | Gist.Science

Agri-Query: A Case Study on RAG vs. Long-Context LLMs for Cross-Lingual Technical Question Answering

Dit artikel presenteert een case study waarin een hybride RAG-strategie consistent beter presteert dan directe prompting met lange context bij cross-linguale technische vraagbeantwoording over een landbouwmachine-handboek, met specifieke modellen zoals Gemini 2.5 Flash en Qwen 2.5 7B die nauwkeurigheden van meer dan 85% bereiken.

Julius Gun, Timo Oksanen2026-03-09💬 cs.CL

CMRAG: Co-modality-based visual document retrieval and question answering

Dit paper introduceert CMRAG, een co-modale RAG-framework dat tekst en afbeeldingen gelijktijdig benut via een unificatie-encoderingmodel en een co-modale zoekmethode om de prestaties van visuele documentvraag-antwoordsystemen te verbeteren.

Wang Chen, Wenhan Yu, Guanqiang Qi, Weikang Li, Yang Li, Lei Sha, Deguo Xia, Jizhou Huang2026-03-09💬 cs.CL

MERLIN: Multi-Stage Curriculum Alignment for Multilingual Encoder-LLM Integration in Cross-Lingual Reasoning

Het paper introduceert MERLIN, een tweestapskader met curriculumlearning en DoRA-finetuning dat de cross-linguale redeneerprestaties van taalmodellen in laag-resource talen aanzienlijk verbetert en zelfs GPT-4o-mini op het AfriMGSM-benchmark overtreft.

Kosei Uemura, David Guzmán, Quang Phuoc Nguyen, Jesujoba Oluwadara Alabi, En-shiun Annie Lee, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Better Late Than Never: Meta-Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation

Dit paper introduceert YAAL en LongYAAL als nieuwe, meer accurate latentiemetrieken voor simultane spraak-naar-tekstvertaling, gecombineerd met het SoftSegmenter-tool, om de inconsistenties van bestaande methoden op te lossen en betrouwbare evaluaties mogelijk te maken voor zowel korte als lange teksten.

Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar2026-03-09🤖 cs.AI

Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs

Deze studie toont aan dat decoder-only modellen, ondanks hun succes in taal, slechter presteren dan encoder-only modellen bij het oplossen van partiële differentiaalvergelijkingen, maar dat deze kloof kan worden gedicht door twee nieuwe methoden, Parallel Flipping en Sequence Doubling, die bidirectionaliteit nabootsen.

Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam2026-03-09🤖 cs.LG

How Reliable is Language Model Micro-Benchmarking?

Dit onderzoek concludeert dat micro-benchmarks voor taalmodellen vaak onbetrouwbaar zijn bij het rangschikken van modellen met vergelijkbare prestaties, omdat zelfs methoden met 250 voorbeelden nauwelijks beter presteren dan willekeurige steekproeven en veel paarvergelijkingen niet behouden blijven.

Gregory Yauney, Shahzaib Saqib Warraich, Swabha Swayamdipta2026-03-09🤖 cs.LG

Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

Dit paper betoogt dat de interne staten van LLM's voornamelijk reflecteren of het model parametrische kennis herinnert in plaats van de waarheid van de output, waardoor hallucinaties die voortkomen uit valse associaties (AH's) moeilijk te onderscheiden zijn van feitelijke antwoorden, terwijl hallucinaties zonder parametrische grond (UH's) wel detecteerbaar zijn.

Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng2026-03-09💬 cs.CL

Just-In-Time Objectives: A General Approach for Specialized AI Interactions

Dit paper introduceert 'Just-In-Time Objectives', een architectuur die door passieve observatie van gebruikersgedrag specifieke doelen afleidt om grote taalmodellen direct te specialiseren in het genereren van hoogwaardige, op maat gemaakte tools en antwoorden die significant beter presteren dan standaard LLM-chatbots.

Michelle S. Lam, Omar Shaikh, Hallie Xu, Alice Guo, Diyi Yang, Jeffrey Heer, James A. Landay, Michael S. Bernstein2026-03-09🤖 cs.AI

Chain-of-Thought Reasoning Improves Context-Aware Translation with Large Language Models

Dit onderzoek toont aan dat chain-of-thought redenering de prestaties van grote taalmodellen bij contextbewuste vertaling significant verbetert, waarbij de beste modellen zoals GPT-4 en Phi een 'wijzen worden wijzer'-effect vertonen met accuratesse tot 90% en COMET-scores van ongeveer 92%.

Shabnam Ataee, Hugo Huart, Andrei Popescu-Belis2026-03-09💬 cs.CL

Automated Coding of Communication Data Using ChatGPT: Consistency Across Subgroups

Dit onderzoek toont aan dat ChatGPT communicatiegegevens consistent en betrouwbaar codeert over verschillende demografische groepen heen, vergelijkbaar met menselijke beoordelaars, waardoor het geschikt is voor grootschalige evaluaties van samenwerking.

Jiangang Hao, Wenju Cui, Patrick Kyllonen, Emily Kerzabi2026-03-09🤖 cs.AI

Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People

Dit paper introduceert een nieuwe aanpak met Monte Carlo-inferentie en Bayesiaans experimenteel ontwerp om taalkundige modellen te verbeteren in strategische informatievraag- en actie-taken, waardoor ze in spelletjes als Battleship en Guess Who? beter presteren dan mensen en geavanceerdere modellen, vaak tegen een fractie van de kosten.

Gabriel Grand, Valerio Pepe, Jacob Andreas, Joshua B. Tenenbaum2026-03-09🤖 cs.AI

DETECT: Determining Ease and Textual Clarity of German Text Simplifications

Deze paper introduceert DETECT, de eerste op synthetische LLM-gegevens getrainde, Duitstalige metriek die de kwaliteit van tekstvereenvoudiging holistisch beoordeelt op eenvoud, betekenisbehoud en vloeiendheid, en daarmee aanzienlijk beter presteert dan bestaande evaluatiemethoden.

Maria Korobeynikova, Alessia Battisti, Lukas Fischer, Yingqiang Gao2026-03-09💬 cs.CL

AfriMTEB and AfriE5: Benchmarking and Adapting Text Embedding Models for African Languages

Dit paper introduceert AfriMTEB, een uitgebreid benchmark voor 59 Afrikaanse talen, en AfriE5, een aangepast tekst-embeddingmodel dat door middel van cross-linguale contrastieve distillatie state-of-the-art prestaties bereikt op deze regio.

Kosei Uemura, Miaoran Zhang, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Activation-Space Personality Steering: Hybrid Layer Selection for Stable Trait Control in LLMs

Dit onderzoek presenteert een innovatieve methode om de persoonlijkheid van grote taalmodellen te sturen door de Big Five-personality traits te koppelen aan specifieke laagactivaties, waardoor een stabiele en vloeiende aanpassing van het gedrag mogelijk wordt zonder de algemene modelcapaciteiten te beïnvloeden.

Pranav Bhandari, Nicolas Fay, Sanjeevan Selvaganapathy, Amitava Datta, Usman Naseem, Mehwish Nasim2026-03-09💬 cs.CL

Critical Confabulation: Can LLMs Hallucinate for Social Good?

Dit paper introduceert het concept van 'kritische fictie', waarbij gecontroleerde hallucinaties van taalkundige modellen worden gebruikt om historische lacunes veroorzaakt door sociale ongelijkheid op te vullen en zo betrouwbare, evidence-gebonden verhalen voor 'verborgen figuren' te reconstrueren zonder de historische nauwkeurigheid te ondermijnen.

Peiqi Sui, Eamon Duede, Hoyt Long, Richard Jean So2026-03-09💬 cs.CL

Co-Layout: LLM-driven Co-optimization for Interior Layout

Dit artikel presenteert Co-Layout, een nieuw raamwerk dat grote taalmodellen combineert met roostergebaseerde integer-programmering en een grof-naar-fijn optimalisatiestrategie om binneninrichtingen en meubelplaatsing gezamenlijk te optimaliseren op basis van tekstuele prompts.

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization

Het artikel introduceert SPINE, een token-selectief test-tijd versterkingsleerframework dat alleen kritieke besluitvormingspunten in redeneringsketens aanpast met entropie-band regularisatie om instabiliteit en lengte-inzakking te voorkomen, waardoor de prestaties van grote taalmodellen zonder labels worden verbeterd.

Jianghao Wu, Yasmeen George, Jin Ye, Yicheng Wu, Daniel F. Schmidt, Jianfei Cai2026-03-09🤖 cs.LG

Agent Tools Orchestration Leaks More: Dataset, Benchmark, and Mitigation

Dit artikel introduceert het concept van Tools Orchestration Privacy Risk (TOP-R), waarbij autonome agenten via LLM's onbedoeld gevoelige informatie synthetiseren uit niet-gevoelige tool-data, en biedt de eerste systematische analyse, een nieuw benchmark (TOP-Bench) en effectieve mitigatiestrategieën om dit privacyrisico aan te pakken.

Yuxuan Qiao, Dongqin Liu, Hongchang Yang, Wei Zhou, Songlin Hu2026-03-09🤖 cs.AI

Window-based Membership Inference Attacks Against Fine-tuned Large Language Models

Deze paper introduceert WBC, een nieuw aanvalsmodel dat de effectiviteit van lidmaatschapsinference-aanvallen op fine-tuned grote taalmodellen aanzienlijk verbetert door lokale, contextgebonden geheugensignalen te analyseren in plaats van te vertrouwen op globale gemiddelden.

Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui Li2026-03-09🤖 cs.AI

Classroom AI: Large Language Models as Grade-Specific Teachers

Dit paper introduceert een framework voor het finetunen van Large Language Models om op maat gemaakte, leeftijdsadequate educatieve content te genereren voor zes verschillende onderwijsniveaus, wat leidt tot een aanzienlijke verbetering in de graadovereenkomst zonder in te leveren op feitelijke juistheid.

Jio Oh, Steven Euijong Whang, James Evans, Jindong Wang2026-03-09🤖 cs.AI

← Vorige Volgende →