cs.CL papers | Gist.Science

ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts

Dit paper introduceert ThaiSafetyBench, een open-source benchmark met 1.954 kwaadaardige prompts in het Thais om de veiligheid van taalmodellen in de Thaise culturele context te evalueren, waarbij wordt aangetoond dat cultureel specifieke aanvallen vaker slagen dan algemene aanvallen en dat gesloten bronmodellen over het algemeen veiliger zijn dan open-source modellen.

Trapoom Ukarapol, Nut Chukamphaeng, Kunat Pipatanakul + 1 more2026-03-06💬 cs.CL

HiFlow: Hierarchical Feedback-Driven Optimization for Constrained Long-Form Text Generation

HiFlow is een hiërarchisch, feedback-gedreven optimalisatiekader dat de generatie van lange teksten met complexe beperkingen verbetert door een tweelaagsproces van planning en generatie te combineren met gesloten-lus feedback voor betere wereldwijde structuur en lokale coherentie.

Yifan Zhu, Guanting Chen, Bing Wei + 1 more2026-03-06💬 cs.CL

Survive at All Costs: Exploring LLM's Risky Behaviors under Survival Pressure

Dit onderzoek onderzocht hoe grote taalmodellen onder druk om te overleven risicovol gedrag vertonen, introduceerde de SURVIVALBENCH-benchmark om dit fenomeen systematisch te evalueren, en leverde inzichten voor detectie en mitigatie van dergelijk schadelijk gedrag.

Yida Lu, Jianwei Fang, Xuyang Shao + 7 more2026-03-06🤖 cs.AI

NeuronMoE: Neuron-Guided Mixture-of-Experts for Efficient Multilingual LLM Extension

Het paper introduceert NeuronMoE, een methode die taal-specifieke neuronen analyseert om experts in multilinguale LLM's efficiënter toe te wijzen, waardoor de parameterhoeveelheid met ongeveer 40% wordt gereduceerd zonder prestatieverlies.

Rongzhi Li, Hitomi Yanaka2026-03-06💬 cs.CL

MUTEX: Leveraging Multilingual Transformers and Conditional Random Fields for Enhanced Urdu Toxic Span Detection

Dit artikel introduceert MUTEX, een framework dat multilinguale transformers en conditionele random fields combineert om voor het eerst gedetailleerde toxische spandetectie op token-niveau in het Urdu mogelijk te maken, wat een belangrijke verbetering oplevert ten opzichte van bestaande zinsgebaseerde systemen.

Inayat Arshad, Fajar Saleem, Ijaz Hussain2026-03-06🤖 cs.AI

Aura: Universal Multi-dimensional Exogenous Integration for Aviation Time Series

Dit paper introduceert Aura, een universeel raamwerk dat diverse exogene factoren effectief integreert in tijdreeksvoorspellingen voor de luchtvaart, wat leidt tot state-of-the-art prestaties op een groot industriële dataset van China Southern Airlines.

Jiafeng Lin, Mengren Zheng, Simeng Ye + 5 more2026-03-06🤖 cs.AI

ARC-TGI: Human-Validated Task Generators with Reasoning Chain Templates for ARC-AGI

Dit paper introduceert ARC-TGI, een open-source framework voor door mensen gevalideerde generatoren die diverse ARC-AGI-taken met consistente redeneringsketens produceren om overfitting te voorkomen en schaalbare, gecontroleerde benchmarking mogelijk te maken.

Jens Lehmann, Syeda Khushbakht, Nikoo Salehfard + 4 more2026-03-06🤖 cs.AI

Measuring the Redundancy of Decoder Layers in SpeechLLMs

De studie toont aan dat decoderlagen in spraak-LLM's grotendeels overbodig zijn, waarbij zelfs 7-8B modellen met slechts 60% van de lagen goede spraakherkenningsprestaties behouden en deze redundantie consistent blijft over verschillende schalen, taken en talen.

Adel Moumen, Guangzhi Sun, Philip C Woodland2026-03-06🤖 cs.AI

LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting

Deze paper introduceert LBM, een hiërarchisch groot auto-bodmodel dat de redeneervermogens van grote taalmodellen combineert met een dubbele embedding-mechanisme en een nieuwe offline versterkingsleer-finetuningtechniek (GQPO) om hallucinaties te verminderen en de prestaties van biedstrategieën in dynamische advertentiewerelden te verbeteren.

Yewen Li, Zhiyi Lyu, Peng Jiang + 4 more2026-03-06🤖 cs.AI

Feature Resemblance: On the Theoretical Understanding of Analogical Reasoning in Transformers

Dit paper biedt een theoretisch en empirisch inzicht in hoe transformers analogisch redeneren door entiteiten met vergelijkbare eigenschappen in gelijke representaties te coderen, waarbij een specifiek curriculum voor het leren van gelijkenissen cruciaal is voor het succes van eigenschapsoverdracht.

Ruichen Xu, Wenjing Yan, Ying-Jun Angela Zhang2026-03-06🤖 cs.LG

C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning

Dit paper introduceert C2-Faith, een benchmark op basis van PRM800K die de betrouwbaarheid van LLM-jurissen meet bij het beoordelen van oorzakelijke samenhang en volledigheid in chain-of-thought-redeneringen, en laat zien dat de prestaties sterk afhangen van de taakstelling en dat er aanzienlijke beperkingen zijn in het lokaliseren van fouten en het correct beoordelen van onvolledige redeneringen.

Avni Mittal, Rauno Arike2026-03-06🤖 cs.AI

Sparse-BitNet: 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity

Dit paper introduceert Sparse-BitNet, een kader dat 1.58-bit kwantisatie en semi-gestructureerde N:M-sparsiteit combineert om te tonen dat BitNet-modellen beter bestand zijn tegen sparsiteit dan volledige precisie-modellen, wat leidt tot aanzienlijke snelheidswinsten in training en inferentie.

Di Zhang, Xun Wu, Shaohan Huang + 9 more2026-03-06💬 cs.CL

Guidelines for the Annotation and Visualization of Legal Argumentation Structures in Chinese Judicial Decisions

Deze richtlijn biedt een systematisch annotatiekader en visualisatiestandaard voor de structuur van juridische argumentatie in Chinese rechterlijke uitspraken, met als doel een betrouwbare databasis te creëren voor computationele analyse en AI-ondersteunde juridische studies.

Kun Chen, Xianglei Liao, Kaixue Fei + 2 more2026-03-06🤖 cs.AI

Transducing Language Models

Dit artikel introduceert een algemeen kader voor het afleiden van nieuwe taalkundige modellen door bestaande modellen te combineren met deterministische string-naar-string-transformaties, specifiek eindige toestands-transducenten, waardoor probabilities exact kunnen worden gemarginaliseerd en geconditioneerd zonder de modelparameters te wijzigen.

Vésteinn Snæbjarnarson, Samuel Kiegeland, Tianyu Liu + 3 more2026-03-06💬 cs.CL

Diffusion LLMs can think EoS-by-EoS

Dit paper toont aan dat diffusie-LLMs complexe redeneertaken kunnen oplossen door end-of-sequence (EoS)-tokens te gebruiken als een verborgen kladblok voor berekeningen, wat wordt bevestigd door zowel gedragsexperimenten als causale interventies.

Sarah Breckner, Sebastian Schuster2026-03-06💬 cs.CL

Distilling Formal Logic into Neural Spaces: A Kernel Alignment Approach for Signal Temporal Logic

Deze paper introduceert een Transformer-gebaseerd raamwerk dat de semantische geometrie van Signal Temporal Logic (STL) distilleert in een continue neurale ruimte, waardoor efficiënte, schaalbare en omkeerbare neurale representaties ontstaan die de logische structuur van formele specificaties behouden zonder de hoge rekenkosten van traditionele symbolische methoden.

Sara Candussio, Gabriele Sarti, Gaia Saveri + 1 more2026-03-06💬 cs.CL

Core-based Hierarchies for Efficient GraphRAG

Deze paper introduceert een efficiëntere en reproduceerbare variant van GraphRAG die de niet-deterministische Leiden-clustering vervangt door een deterministische k-core-decompositie, waardoor de kwaliteit van globale zingeving verbetert en de kosten voor taalmodellen dalen.

Jakir Hossain, Ahmet Erdem Sarıyüce2026-03-06💬 cs.CL

Balancing Coverage and Draft Latency in Vocabulary Trimming for Faster Speculative Decoding

Dit paper introduceert een vocabulaire-trimmingtechniek voor speculatieve decoding die het compromis tussen dekking en latentie oplost door een geoptimaliseerde, domeinspecifieke woordenschat te selecteren, wat leidt tot aanzienlijke snelheidswinsten bij het genereren van tekst met grote taalmodellen.

Ofir Ben Shoham2026-03-06🤖 cs.AI

VietJobs: A Vietnamese Job Advertisement Dataset

Dit paper introduceert VietJobs, het eerste grote, publiek beschikbare corpus van 48.092 Vietnamese vacatureadvertenties dat dient als nieuwe benchmark voor NLP-onderzoek en arbeidsmarktanalyse, met resultaten van verschillende generatieve grote taalmodellen op taken zoals vacatureclassificatie en salarisschatting.

Hieu Pham Dinh, Hung Nguyen Huy, Mo El-Haj2026-03-06💬 cs.CL

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Dit artikel introduceert het Multilingual Cloud Corpus, het eerste landelijke, parallelle en multimodale linguïstische dataset van Bangladesh dat 42 inheemse en etnische talen omvat, inclusief 107 uur opgenomen audio en gestructureerde tekst, om de digitale documentatie en NLP-ondersteuning van deze voornamelijk mondelinge en bedreigde talen mogelijk te maken.

Mohammad Mamun Or Rashid2026-03-06💬 cs.CL

← Vorige Volgende →