cs.CL papers | Gist.Science

The unreasonable effectiveness of pattern matching

Dit paper toont aan dat grote taalmodellen door middel van patroonherkenning betekenis kunnen afleiden uit 'Jabberwocky'-teksten, wat aantoont dat patroonherkenning een essentieel onderdeel is van echte intelligentie en niet slechts een alternatief daarvoor.

Gary Lupyan, Blaise Agüera y Arcas2026-03-06💻 cs

Yuan3.0 Ultra: A Trillion-Parameter Enterprise-Oriented MoE LLM

Dit paper introduceert Yuan3.0 Ultra, een open-source Mixture-of-Experts taalmodel met 1010 miljard totale parameters dat door middel van het nieuwe Layer-Adaptive Expert Pruning-algoritme tijdens het pre-trainingstadium 33,3% minder parameters en 49% meer trainingsefficiëntie bereikt, terwijl het uitstekende prestaties behoudt op zowel algemene taken als specifieke zakelijke benchmarks.

YuanLab. ai, :, Shawn Wu + 25 more2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Deze studie toont aan dat huidige multimodale foundation modellen moeite hebben om contextueel belangrijke momenten in voetbalvideo's te herkennen, omdat ze vaak te veel vertrouwen op één dominante modality in plaats van informatie uit meerdere bronnen effectief te synthetiseren.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Dit paper introduceert On-Policy Self-Distillation (OPSD), een raamwerk waarbij één enkel groot taalmodel fungeert als zowel leraar als leerling door te conditioneren op respectievelijk geprivilegieerde redeneersporen en alleen de vraag, wat leidt tot superieure prestaties en een 8-12 keer hogere token-efficiëntie op wiskundige redeneerbenchmarks vergeleken met bestaande methoden.

Siyan Zhao, Zhihui Xie, Mengchen Liu + 4 more2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

Deze paper introduceert VIP, een strategie die een Gaussisch proces gebruikt om de roll-out-begroting in online versterkingsleer dynamisch toe te wijzen aan de meest informatieve prompts, waardoor de sampling-efficiëntie en prestaties aanzienlijk worden verbeterd ten opzichte van uniforme methoden.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

LatentChem introduceert een latent denkinterface die chemische redenering overbrengt van expliciete tekstuele chain-of-thought naar continue latente ruimtes, wat leidt tot een aanzienlijke snelheidswinst en betere prestaties doordat modellen hun redenering automatisch internaliseren in plaats van in woorden te verwoorden.

Xinwu Ye, Yicheng Mao, Jia Zhang + 16 more2026-03-06🔬 physics

The Convergence of Schema-Guided Dialogue Systems and the Model Context Protocol

Dit artikel toont aan dat Schema-Guided Dialogue (SGD) en het Model Context Protocol (MCP) twee manifestaties zijn van een unified paradigma voor deterministische LLM-interactie, en stelt vijf fundamentele principes voor schema-ontwerp vast die gaten in foutbeheer en tool-relaties opvullen om schaalbaar AI-toezicht mogelijk te maken.

Andreas Schlapbach2026-03-06💻 cs

Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming

Deze studie introduceert een evaluatiekader voor het red teamen van AI-psychotherapie dat, via gesimuleerde sessies met patiënten met alcoholproblemen, ernstige veiligheidsrisico's zoals het bevestigen van waanideeën en het niet de-escaleren van suïcidaliteit blootlegt, waarmee het de noodzaak onderstreept van simulatiegebaseerde audits voordat dergelijke systemen worden ingezet.

Ian Steenstra, Paola Pedrelli, Weiyan Shi + 2 more2026-03-06💻 cs

Jailbreak Foundry: From Papers to Runnable Attacks for Reproducible Benchmarking

Dit paper introduceert JAILBREAK FOUNDRY, een multi-agent systeem dat automatisch jailbreak-papers omzet in uitvoerbare modules om reproduceerbare en gestandaardiseerde beveiligingstests voor grote taalmodellen mogelijk te maken.

Zhicheng Fang, Jingjie Zheng, Chenxu Fu, Wei Xu2026-03-06🔒 cs.CR

Learn Hard Problems During RL with Reference Guided Fine-tuning

Dit paper introduceert Reference-Guided Fine-Tuning (ReGFT), een methode die menselijke referentieoplossingen gebruikt om positieve trainingsdata te synthetiseren voor moeilijke wiskundeproblemen, waardoor het probleem van beloningsverspreiding in versterkingslering wordt opgelost en de prestaties van modellen aanzienlijk worden verbeterd.

Yangzhen Wu, Shanda Li, Zixin Wen + 5 more2026-03-06💻 cs

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

Dit artikel introduceert VoxKnesset, een open-access dataset van ongeveer 2.300 uur Hebreeuwse parlementaire spraak over een periode van 16 jaar, die wordt gebruikt om de uitdagingen van veroudering in stemherkenning en -verificatie te onderzoeken en de noodzaak van longitudinale modellen te onderstrepen.

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

Dit paper introduceert FreeAct, een nieuw kwantisatiekader voor grote taalmodellen dat statische transformaties vervangt door dynamische, token-specifieke aanpassingen om de prestaties van diffusie- en multimodale modellen aanzienlijk te verbeteren.

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Incremental Graph Construction Enables Robust Spectral Clustering of Texts

Deze paper introduceert een incrementele k-NN-graafconstructie die per ontwerp een verbonden graaf garandeert, waardoor de robuustheid en prestaties van spectrale clustering op tekstgegevens aanzienlijk worden verbeterd, vooral bij lage waarden van k.

Marko Pranjić, Boshko Koloski, Nada Lavrač + 2 more2026-03-06💻 cs

A theoretical model of dynamical grammatical gender shifting based on set-valued set function

Deze studie presenteert een wiskundig model gebaseerd op een verzameling-waarde verzameling-functie dat de niet-lineaire dynamiek van grammaticale geslachtsverschuivingen in zelfstandige naamwoorden, met name in het Riffijns, verklaart door middel van een modulair cognitief raamwerk voor het koppelen van lexemen aan morfologische sjablonen.

Mohamed El Idrissi2026-03-06💻 cs

Why Are Linear RNNs More Parallelizable?

Dit paper legt uit dat lineaire RNN's beter paralleliseerbaar zijn dan niet-lineaire RNN's doordat ze logische diepte-circuits simuleren die in de complexiteitsklasse NC1 vallen, terwijl niet-lineaire RNN's P-complete problemen kunnen oplossen wat een fundamenteel parallelisatiebeperking vormt.

William Merrill, Hongjian Jiang, Yanhong Li + 2 more2026-03-06💻 cs

Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

Dit paper presenteert Bielik-Q2-Sharp, de eerste systematische academische evaluatie van extreme 2-bit kwantisatie voor het Poolse taalmodel Bielik-11B, waarbij zes geavanceerde methoden worden vergeleken om te concluderen dat QuIP# en QTIP uitstekende prestaties behalen met een minimale grootte-toename en dat rotatie-gebaseerde methoden een dissociatie vertonen tussen log-likelihood-kwaliteit en autoregressieve generatie.

Jakub Prejzner2026-03-06💻 cs

AgentIR: Reasoning-Aware Retrieval for Deep Research Agents

Dit paper introduceert AgentIR, een nieuw retrieval-paradigma dat de expliciete redenering van diepe onderzoeksagenten benut om een geavanceerd inbeddingsmodel te trainen dat aanzienlijk beter presteert dan bestaande methoden op complexe zoekopdrachten.

Zijian Chen, Xueguang Ma, Shengyao Zhuang + 3 more2026-03-06💻 cs

SearchGym: A Modular Infrastructure for Cross-Platform Benchmarking and Hybrid Search Orchestration

Dit paper introduceert SearchGym, een modulaire infrastructuur voor cross-platform benchmarking en hybride zoekorchestration die een scheiding maakt tussen data, embeddings en zoeklogica om reproduceerbare systemen te bouwen en inzicht te geven in de optimale volgorde van semantische ranking en gefilterde zoekopdrachten.

Jerome Tze-Hou Hsu2026-03-06💻 cs

FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents

Dit paper introduceert FinRetrieval, een benchmark van 500 financiële vragen die aantoont dat de beschikbaarheid van gestructureerde data-API's de prestaties van AI-agenten bij het ophalen van numerieke waarden aanzienlijk meer beïnvloedt dan redeneermodes of modelleveranciers.

Eric Y. Kim, Jie Huang2026-03-06💻 cs

Signal in the Noise: Decoding the Reality of Airline Service Quality with Large Language Models

Deze studie toont aan dat een Large Language Model-framework ongestructureerde online feedback effectiever kan decoderen dan traditionele methoden om specifieke serviceproblemen en een opvallende perceptiekloof bij EgyptAir te identificeren, waardoor waardevolle strategische inzichten voor de luchtvaartsector worden gegenereerd.

Ahmed Dawoud, Osama El-Shamy, Ahmed Habashy2026-03-06💻 cs

← Vorige Volgende →