Query-focused and Memory-aware Reranker for Long Context Processing

Deze paper introduceert een lichtgewicht en effectieve herordeningsframework dat gebruikmaakt van attentiescores van geselecteerde hoofdcomponenten in taalmodellen om passage-query relevantie te schatten, waardoor state-of-the-art prestaties worden behaald op diverse benchmarks, waaronder LoCoMo, zonder de noodzaak van Likert-schaal supervisie.

Yuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin, Weiping Wang, Jie Zhou2026-03-11💬 cs.CL

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

Deze paper introduceert AuditBench, een benchmark met 56 taalmodellen die verborgen gedrag vertonen, om de effectiviteit van audittechnieken te evalueren en vast te stellen dat zwarte-kist-tools en gescaffolde prompts de meest succesvolle aanpak vormen voor het opsporen van dergelijke gedragingen.

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan Wang2026-03-11💬 cs.CL

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

Deze paper introduceert SkillCraft, een benchmark die de vaardigheid van LLM-agenten test om herbruikbare 'vaardigheden' (samengestelde tool-combinaties) te vormen en opnieuw te gebruiken, wat leidt tot aanzienlijke efficiëntiewinsten en een hogere succesratio door compositie.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye Teh2026-03-11💬 cs.CL

Fish Audio S2 Technical Report

Dit paper introduceert Fish Audio S2, een open-source tekst-naar-spraak-systeem dat multi-spreker- en multi-turn-generatie combineert met instructievolgende controle via natuurlijke taal, ondersteund door een schaalbaar trainingsproces en een productieklaar inferentie-engine met een zeer lage latentie.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han2026-03-11🤖 cs.AI

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

Dit paper introduceert MultiGraSCCo, een meerduidig benchmark voor anonimiseringsdoeleinden in tien talen, dat gebruikmaakt van synthetische data en machinevertaling om hoogwaardige, cultureel aangepaste annotaties van persoonsgegevens te genereren voor het testen en verbeteren van privacybeveiligde medische datasets.

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland Roller2026-03-11💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

Dit artikel presenteert een labelvrije screeningsstrategie voor combinatorische electrocatalysatoren die wetenschappelijke teksten omzet in composities-embeddings, waarbij een lichtgewicht Word2Vec-baseline vaak effectiever is dan geavanceerdere transformer-modellen in het reduceren van kandidaatcomposities zonder gebruik te maken van elektrochemische labels.

Lei Zhang, Markus Stricker2026-03-11🔬 cond-mat.mtrl-sci

ConFu: Contemplate the Future for Better Speculative Sampling

Dit paper introduceert ConFu, een nieuw raamwerk voor speculatieve decoding dat draft-modellen in staat stelt de toekomstige generatierichting te anticiperen via 'contemplate tokens' en soft prompts, waardoor de acceptatiekans en snelheid van LLM-inferentie aanzienlijk worden verbeterd ten opzichte van bestaande methoden zoals EAGLE-3.

Zongyue Qin, Raghavv Goel, Mukul Gagrani, Risheek Garrepalli, Mingu Lee, Yizhou Sun2026-03-11💬 cs.CL

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Het paper introduceert SciTaRC, een door experts samengesteld benchmark voor vragen over wetenschappelijke tabellen die taalredenering en complexe berekeningen vereisen, en laat zien dat zelfs de meest geavanceerde AI-modellen hierin falen door een universeel 'uitvoeringsprobleem' waarbij zowel code- als taalmodellen moeite hebben met het correct uitvoeren van plannen.

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp Koehn2026-03-11💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Het artikel presenteert PathoScribe, een geïntegreerd framework dat op grote schaal digitale pathologierapporten omzet in een interactieve, redenerende kennisbron die artsen in staat stelt om via natuurlijke taal gevallen te doorzoeken, onderzoeksgroepen te bouwen en klinische vragen te beantwoorden, wat leidt tot een aanzienlijke tijdsbesparing en verbeterde patiëntenzorg.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

Deze paper presenteert een geautomatiseerd kader voor thematische analyse van klinische kwalitatieve data dat door middel van iteratieve codeboekverfijning en volledige traceerbaarheid schaalbaarheid en reproduceerbaarheid verbetert, wat resulteert in statistisch significante kwaliteitsverbeteringen en een hoge overeenstemming met expert-annotaties.

Seungjun Yi, Joakim Nguyen, Huimin Xu, Terence Lim, Joseph Skrovan, Mehak Beri, Hitakshi Modi, Andrew Well, Carlos M. Mery, Yan Zhang, Mia K. Markey, Ying Ding2026-03-11💬 cs.CL

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

Dit artikel introduceert een zelfvertrouwensgebaseerd kader dat een enkele redeneringstraject analyseert om adaptief te kiezen tussen enkelvoudige en meervoudige paden, waardoor de nauwkeurigheid van chain-of-thought redenering behouden blijft terwijl de tokenkosten tot 80% worden verlaagd.

Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun Yin2026-03-11💬 cs.CL