cs.CL papers | Gist.Science

Query-focused and Memory-aware Reranker for Long Context Processing

Deze paper introduceert een lichtgewicht en effectieve herordeningsframework dat gebruikmaakt van attentiescores van geselecteerde hoofdcomponenten in taalmodellen om passage-query relevantie te schatten, waardoor state-of-the-art prestaties worden behaald op diverse benchmarks, waaronder LoCoMo, zonder de noodzaak van Likert-schaal supervisie.

Yuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin, Weiping Wang, Jie Zhou2026-03-11💬 cs.CL

Missing-by-Design: Certifiable Modality Deletion for Revocable Multimodal Sentiment Analysis

Dit paper introduceert Missing-by-Design (MBD), een unificerend kader voor herroepbare multimodale sentimentanalyse dat gecertificeerde verwijdering van specifieke data-modaliteiten mogelijk maakt via een machine-verifieerbaar proces, zonder de volledige modelhertraining te vereisen.

Rong Fu, Ziming Wang, Chunlei Meng, Jiaxuan Lu, Jiekai Wu, Kangan Qian, Hao Zhang, Simon Fong2026-03-11🤖 cs.LG

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

Deze paper introduceert AuditBench, een benchmark met 56 taalmodellen die verborgen gedrag vertonen, om de effectiviteit van audittechnieken te evalueren en vast te stellen dat zwarte-kist-tools en gescaffolde prompts de meest succesvolle aanpak vormen voor het opsporen van dergelijke gedragingen.

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan Wang2026-03-11💬 cs.CL

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

Deze paper introduceert SkillCraft, een benchmark die de vaardigheid van LLM-agenten test om herbruikbare 'vaardigheden' (samengestelde tool-combinaties) te vormen en opnieuw te gebruiken, wat leidt tot aanzienlijke efficiëntiewinsten en een hogere succesratio door compositie.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye Teh2026-03-11💬 cs.CL

PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking

PonderLM-3 introduceert een trainingsframework dat tijdens het pretrainen via differentieerbare masking leert om extra rekenkracht per token selectief toe te wijzen, waardoor de inferentie-efficiëntie en prestaties worden geoptimaliseerd zonder uniforme kosten voor alle tokens.

He Li, Feichen Song, Boyi Zeng, Shixiang Song, Zhiqin John Xu, Ziwei He, Zhouhan Lin2026-03-11💬 cs.CL

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

Dit empirische onderzoek analyseert de interacties tussen modelkenmerken en promptontwerp bij het genereren van Verilog-code, waarbij het via een gecontroleerde factoriële opzet patronen identificeert die generaliseren over verschillende modellen en benchmarks.

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh Karri2026-03-11💻 cs

Self-hosted Lecture-to-Quiz: Local LLM MCQ Generation with Deterministic Quality Control

Deze paper presenteert een volledig lokaal, API-vrij systeem dat college-lectures omzet in meerkeuzevragen met deterministische kwaliteitscontrole, waarbij privacy, verantwoordingsplicht en groene AI worden bevorderd.

Seine A. Shintani2026-03-11💻 cs

Fish Audio S2 Technical Report

Dit paper introduceert Fish Audio S2, een open-source tekst-naar-spraak-systeem dat multi-spreker- en multi-turn-generatie combineert met instructievolgende controle via natuurlijke taal, ondersteund door een schaalbaar trainingsproces en een productieklaar inferentie-engine met een zeer lage latentie.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han2026-03-11🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

Dit paper introduceert MASEval, een framework-onafhankelijke bibliotheek die de evaluatie van LLM-agent-systemen uitbreidt van enkel modellen naar het volledige systeem, waarbij wordt aangetoond dat de keuze van het framework even belangrijk is als die van het model voor de prestaties.

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin Gubri2026-03-11🤖 cs.AI

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

Dit onderzoek toont aan dat Sparse Autoencoder-features in LLMs, getest met het Servische digrafie (Latijnse en Cyrillische schriften), semantische betekenis boven orthografische vorm prioriteren, waarbij de representaties scriptonafhankelijk zijn en sterker worden naarmate het model groter is.

Sripad Karne2026-03-11💬 cs.CL

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

Dit paper introduceert MultiGraSCCo, een meerduidig benchmark voor anonimiseringsdoeleinden in tien talen, dat gebruikmaakt van synthetische data en machinevertaling om hoogwaardige, cultureel aangepaste annotaties van persoonsgegevens te genereren voor het testen en verbeteren van privacybeveiligde medische datasets.

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland Roller2026-03-11💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

Dit artikel presenteert een labelvrije screeningsstrategie voor combinatorische electrocatalysatoren die wetenschappelijke teksten omzet in composities-embeddings, waarbij een lichtgewicht Word2Vec-baseline vaak effectiever is dan geavanceerdere transformer-modellen in het reduceren van kandidaatcomposities zonder gebruik te maken van elektrochemische labels.

Lei Zhang, Markus Stricker2026-03-11🔬 cond-mat.mtrl-sci

ConFu: Contemplate the Future for Better Speculative Sampling

Dit paper introduceert ConFu, een nieuw raamwerk voor speculatieve decoding dat draft-modellen in staat stelt de toekomstige generatierichting te anticiperen via 'contemplate tokens' en soft prompts, waardoor de acceptatiekans en snelheid van LLM-inferentie aanzienlijk worden verbeterd ten opzichte van bestaande methoden zoals EAGLE-3.

Zongyue Qin, Raghavv Goel, Mukul Gagrani, Risheek Garrepalli, Mingu Lee, Yizhou Sun2026-03-11💬 cs.CL

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Het paper introduceert SciTaRC, een door experts samengesteld benchmark voor vragen over wetenschappelijke tabellen die taalredenering en complexe berekeningen vereisen, en laat zien dat zelfs de meest geavanceerde AI-modellen hierin falen door een universeel 'uitvoeringsprobleem' waarbij zowel code- als taalmodellen moeite hebben met het correct uitvoeren van plannen.

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp Koehn2026-03-11💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Het artikel presenteert PathoScribe, een geïntegreerd framework dat op grote schaal digitale pathologierapporten omzet in een interactieve, redenerende kennisbron die artsen in staat stelt om via natuurlijke taal gevallen te doorzoeken, onderzoeksgroepen te bouwen en klinische vragen te beantwoorden, wat leidt tot een aanzienlijke tijdsbesparing en verbeterde patiëntenzorg.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

Dit paper introduceert VoxEmo, een uitgebreide benchmark voor spraak-gevoelsherkenning met spraak-LLMs die 35 corpora in 15 talen omvat en een nieuwe evaluatiemethode biedt die rekening houdt met de subjectiviteit en ambiguïteit van menselijke emoties.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas Hain2026-03-11🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

Dit paper introduceert BiCLIP, een eenvoudig framework dat door het toepassen van een gestructureerde geometrische transformatie op multimodale kenmerken, gebruikmakend van een klein aantal ankers, state-of-the-art prestaties bereikt bij few-shot classificatie in gespecialiseerde domeinen.

Pranav Mantini, Shishir K. Shah2026-03-11🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

Dit paper introduceert Guardian, een end-to-end systeem dat een meermodel-pipeline met consensusmechanismen en QLoRA-finetuning gebruikt om de eerste 72 uur van zoektochten naar vermiste personen te ondersteunen door middel van gecontroleerde, auditabele informatie-extractie.

Joshua Castillo, Ravi Mukkamala2026-03-11🤖 cs.AI

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

Deze paper presenteert een geautomatiseerd kader voor thematische analyse van klinische kwalitatieve data dat door middel van iteratieve codeboekverfijning en volledige traceerbaarheid schaalbaarheid en reproduceerbaarheid verbetert, wat resulteert in statistisch significante kwaliteitsverbeteringen en een hoge overeenstemming met expert-annotaties.

Seungjun Yi, Joakim Nguyen, Huimin Xu, Terence Lim, Joseph Skrovan, Mehak Beri, Hitakshi Modi, Andrew Well, Carlos M. Mery, Yan Zhang, Mia K. Markey, Ying Ding2026-03-11💬 cs.CL

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

Dit artikel introduceert een zelfvertrouwensgebaseerd kader dat een enkele redeneringstraject analyseert om adaptief te kiezen tussen enkelvoudige en meervoudige paden, waardoor de nauwkeurigheid van chain-of-thought redenering behouden blijft terwijl de tokenkosten tot 80% worden verlaagd.

Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun Yin2026-03-11💬 cs.CL

← Vorige Volgende →