cs.CL papers | Gist.Science

Measuring the Redundancy of Decoder Layers in SpeechLLMs

De studie toont aan dat decoderlagen in spraak-LLM's grotendeels overbodig zijn, waarbij zelfs 7-8B modellen met slechts 60% van de lagen goede spraakherkenningsprestaties behouden en deze redundantie consistent blijft over verschillende schalen, taken en talen.

Adel Moumen, Guangzhi Sun, Philip C Woodland2026-03-06🤖 cs.AI

LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting

Deze paper introduceert LBM, een hiërarchisch groot auto-bodmodel dat de redeneervermogens van grote taalmodellen combineert met een dubbele embedding-mechanisme en een nieuwe offline versterkingsleer-finetuningtechniek (GQPO) om hallucinaties te verminderen en de prestaties van biedstrategieën in dynamische advertentiewerelden te verbeteren.

Yewen Li, Zhiyi Lyu, Peng Jiang + 4 more2026-03-06🤖 cs.AI

Feature Resemblance: On the Theoretical Understanding of Analogical Reasoning in Transformers

Dit paper biedt een theoretisch en empirisch inzicht in hoe transformers analogisch redeneren door entiteiten met vergelijkbare eigenschappen in gelijke representaties te coderen, waarbij een specifiek curriculum voor het leren van gelijkenissen cruciaal is voor het succes van eigenschapsoverdracht.

Ruichen Xu, Wenjing Yan, Ying-Jun Angela Zhang2026-03-06🤖 cs.LG

C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning

Dit paper introduceert C2-Faith, een benchmark op basis van PRM800K die de betrouwbaarheid van LLM-jurissen meet bij het beoordelen van oorzakelijke samenhang en volledigheid in chain-of-thought-redeneringen, en laat zien dat de prestaties sterk afhangen van de taakstelling en dat er aanzienlijke beperkingen zijn in het lokaliseren van fouten en het correct beoordelen van onvolledige redeneringen.

Avni Mittal, Rauno Arike2026-03-06🤖 cs.AI

Sparse-BitNet: 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity

Dit paper introduceert Sparse-BitNet, een kader dat 1.58-bit kwantisatie en semi-gestructureerde N:M-sparsiteit combineert om te tonen dat BitNet-modellen beter bestand zijn tegen sparsiteit dan volledige precisie-modellen, wat leidt tot aanzienlijke snelheidswinsten in training en inferentie.

Di Zhang, Xun Wu, Shaohan Huang + 9 more2026-03-06💬 cs.CL

Guidelines for the Annotation and Visualization of Legal Argumentation Structures in Chinese Judicial Decisions

Deze richtlijn biedt een systematisch annotatiekader en visualisatiestandaard voor de structuur van juridische argumentatie in Chinese rechterlijke uitspraken, met als doel een betrouwbare databasis te creëren voor computationele analyse en AI-ondersteunde juridische studies.

Kun Chen, Xianglei Liao, Kaixue Fei + 2 more2026-03-06🤖 cs.AI

Transducing Language Models

Dit artikel introduceert een algemeen kader voor het afleiden van nieuwe taalkundige modellen door bestaande modellen te combineren met deterministische string-naar-string-transformaties, specifiek eindige toestands-transducenten, waardoor probabilities exact kunnen worden gemarginaliseerd en geconditioneerd zonder de modelparameters te wijzigen.

Vésteinn Snæbjarnarson, Samuel Kiegeland, Tianyu Liu + 3 more2026-03-06💬 cs.CL

Diffusion LLMs can think EoS-by-EoS

Dit paper toont aan dat diffusie-LLMs complexe redeneertaken kunnen oplossen door end-of-sequence (EoS)-tokens te gebruiken als een verborgen kladblok voor berekeningen, wat wordt bevestigd door zowel gedragsexperimenten als causale interventies.

Sarah Breckner, Sebastian Schuster2026-03-06💬 cs.CL

Distilling Formal Logic into Neural Spaces: A Kernel Alignment Approach for Signal Temporal Logic

Deze paper introduceert een Transformer-gebaseerd raamwerk dat de semantische geometrie van Signal Temporal Logic (STL) distilleert in een continue neurale ruimte, waardoor efficiënte, schaalbare en omkeerbare neurale representaties ontstaan die de logische structuur van formele specificaties behouden zonder de hoge rekenkosten van traditionele symbolische methoden.

Sara Candussio, Gabriele Sarti, Gaia Saveri + 1 more2026-03-06💬 cs.CL

Core-based Hierarchies for Efficient GraphRAG

Deze paper introduceert een efficiëntere en reproduceerbare variant van GraphRAG die de niet-deterministische Leiden-clustering vervangt door een deterministische k-core-decompositie, waardoor de kwaliteit van globale zingeving verbetert en de kosten voor taalmodellen dalen.

Jakir Hossain, Ahmet Erdem Sarıyüce2026-03-06💬 cs.CL

Balancing Coverage and Draft Latency in Vocabulary Trimming for Faster Speculative Decoding

Dit paper introduceert een vocabulaire-trimmingtechniek voor speculatieve decoding die het compromis tussen dekking en latentie oplost door een geoptimaliseerde, domeinspecifieke woordenschat te selecteren, wat leidt tot aanzienlijke snelheidswinsten bij het genereren van tekst met grote taalmodellen.

Ofir Ben Shoham2026-03-06🤖 cs.AI

VietJobs: A Vietnamese Job Advertisement Dataset

Dit paper introduceert VietJobs, het eerste grote, publiek beschikbare corpus van 48.092 Vietnamese vacatureadvertenties dat dient als nieuwe benchmark voor NLP-onderzoek en arbeidsmarktanalyse, met resultaten van verschillende generatieve grote taalmodellen op taken zoals vacatureclassificatie en salarisschatting.

Hieu Pham Dinh, Hung Nguyen Huy, Mo El-Haj2026-03-06💬 cs.CL

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Dit artikel introduceert het Multilingual Cloud Corpus, het eerste landelijke, parallelle en multimodale linguïstische dataset van Bangladesh dat 42 inheemse en etnische talen omvat, inclusief 107 uur opgenomen audio en gestructureerde tekst, om de digitale documentatie en NLP-ondersteuning van deze voornamelijk mondelinge en bedreigde talen mogelijk te maken.

Mohammad Mamun Or Rashid2026-03-06💬 cs.CL

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

SarcasmMiner is een versterkingsleringsframework voor post-training dat door middel van een dubbel-track distillatiestrategie en een generatieve beloningsmodel de robuustheid van audio-visuele sarcasme-herkenning verbetert door pragmatische incongruïteit op te lossen en hallucinaties te voorkomen.

Zhu Li, Yongjian Chen, Huiyuan Lai + 3 more2026-03-06💬 cs.CL

Knowledge Divergence and the Value of Debate for Scalable Oversight

Dit artikel biedt een formeel raamwerk dat de waarde van AI-debat voor schaalbaar toezicht relateert aan de geometrische kennisdivergentie tussen modellen, waarbij wordt aangetoond dat debat alleen een significant voordeel biedt wanneer de kennis van de deelnemers divergeert in een specifiek lineair regime.

Robin Young2026-03-06🤖 cs.LG

WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

In dit artikel wordt WavSLM voorgesteld, een spraaktaalmodel dat via distillatie van WavLM-representaties in een enkele codebook wordt getraind om semantische en akoestische informatie zonder tekstsupervisie in één tokenstroom te modelleren, waardoor het een schaalbaar en coherent generatief paradigma voor spraak mogelijk maakt.

Luca Della Libera, Cem Subakan, Mirco Ravanelli2026-03-06🤖 cs.AI

Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution

Het artikel introduceert Med-V1, een familie van kleine taalmodellen met slechts drie miljard parameters die, getraind op synthetische data, kosteneffectief en nauwkeurig biomedische bewijsattributie en hallucinatie-detectie uitvoert, zelfs in vergelijking met veel grotere frontier-modellen zoals GPT-5.

Qiao Jin, Yin Fang, Lauren He + 12 more2026-03-06🤖 cs.AI

PersianPunc: A Large-Scale Dataset and BERT-Based Approach for Persian Punctuation Restoration

Deze paper introduceert PersianPunc, een groot dataset van 17 miljoen voorbeelden en een efficiënte ParsBERT-gebaseerde methode voor het herstellen van leestekens in het Perzisch, die een hoge nauwkeurigheid bereikt zonder de nadelen van overcorrectie en hoge rekenkosten van grote taalmodellen.

Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery2026-03-06🤖 cs.AI

A Multilingual Human Annotated Corpus of Original and Easy-to-Read Texts to Support Access to Democratic Participatory Processes

Dit paper introduceert een door mensen geannoteerd meertalig corpus met originele en vereenvoudigde teksten in het Spaans, Catalaans en Italiaans om de toegang tot democratische participatieprocessen te ondersteunen en de ontwikkeling van automatische tekstvereenvoudiging voor minder bedreigde talen te bevorderen.

Stefan Bott, Verena Riegler, Horacio Saggion + 2 more2026-03-06💬 cs.CL

Exploring the potential and limitations of Model Merging for Multi-Domain Adaptation in ASR

Dit onderzoek presenteert BoostedTSV-M, een nieuw model-merging-algoritme dat de prestaties van volledige fine-tuning voor meerdomein-ASR in het Europees Portugees overtreft terwijl het tegelijkertijd de generalisatie voor buiten-de-verdeling-data behoudt.

Carlos Carvalho, Francisco Teixeira, Thomas Rolland + 1 more2026-03-06💬 cs.CL

← Vorige Volgende →