cs.CL papers | Gist.Science

Optimizing Language Models for Crosslingual Knowledge Consistency

Dit paper introduceert Direct Consistency Optimization (DCO), een efficiënte methode die taalmodellen optimaliseert voor consistente kennisoverdracht tussen talen door middel van versterkingslearning, zonder dat een expliciet beloningsmodel nodig is.

Tianyu Liu, Jirui Qi, Mrinmaya Sachan + 3 more2026-03-06💻 cs

Non-Zipfian Distribution of Stopwords and Subset Selection Models

Dit paper toont aan dat stopwoorden een niet-Zipfiaanse verdeling volgen die het beste wordt gemodelleerd door een Beta Rank-functie, en introduceert een selectiemodel op basis van Hill-functies dat deze verdeling en de afwijkende patronen van niet-stopwoorden analytisch verklaart.

Wentian Li, Oscar Fontanelli2026-03-06💻 cs

Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

Dit onderzoek evalueert de effectiviteit van data-augmentatie en kenmerkverbetering voor de detectie van haatzaaiende taal, waarbij het aantoont dat open-source modellen zoals gpt-oss-20b over het algemeen het beste presteren, hoewel traditionele methoden zoals Delta TF-IDF met augmentatie op specifieke datasets tot 98,2% nauwkeurigheid kunnen bereiken, en benadrukt dat de detectie van impliciete haatzaaiende taal complexer is en sterk afhankelijk is van de interactie tussen dataset, model en techniek.

Brian Jing Hong Nge, Stefan Su, Thanh Thi Nguyen + 3 more2026-03-06💻 cs

Detection of Illicit Content on Online Marketplaces using Large Language Models

Dit onderzoek toont aan dat fijngefineerde Large Language Models, met name Llama 3.2, op basis van de multilinguale DUTA10K-dataset superieur presteren in het detecteren en classificeren van complexe, illegale inhoud op online marktplaatsen vergeleken met traditionele machine learning-basismodellen.

Quoc Khoa Tran, Thanh Thi Nguyen, Campbell Wilson2026-03-06💻 cs

AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments

Dit onderzoek toont aan dat AI-modellen, geëvalueerd met een tweelaagskader, realistische en pedagogisch waardevolle vragen kunnen genereren voor moot court-training, maar dat ze ondanks hoge recall nog te kampen hebben met beperkingen zoals gebrek aan diversiteit en sycofantie die door naïeve evaluaties onopgemerkt blijven.

Kylie Zhang, Nimra Nadeem, Lucia Zheng + 2 more2026-03-06💻 cs

Model Medicine: A Clinical Framework for Understanding, Diagnosing, and Treating AI Models

Dit artikel introduceert "Model Medicine", een klinisch raamwerk dat AI-modellen behandelt als biologische organismen met een gestructureerde taxonomie, diagnostische hulpmiddelen zoals Neural MRI en het Four Shell Model, en therapeutische protocollen voor het begrijpen, diagnosticeren en behandelen van modelstoornissen.

Jihoon Jeong2026-03-06💻 cs

Solving an Open Problem in Theoretical Physics using AI-Assisted Discovery

Dit artikel beschrijft hoe een neuro-symbolisch systeem, dat de Gemini Deep Think-taalmodel combineert met een boomzoekframework en numerieke feedback, een open probleem in de theoretische fysica heeft opgelost door autonome, exacte analytische oplossingen af te leiden voor het vermogensspectrum van zwaartekrachtstraling uit kosmische snaren.

Michael P. Brenner, Vincent Cohen-Addad, David Woodruff2026-03-06💻 cs

Interactive Benchmarks

Deze paper introduceert 'Interactive Benchmarks', een nieuw evaluatiekader dat de intelligentie van modellen meet door hun vermogen om actief informatie te verwerven en te redeneren binnen interactieve scenario's zoals bewijzen en spelletjes, waardoor de beperkingen van traditionele benchmarks worden overwonnen.

Baoqing Yue, Zihan Zhu, Yifan Zhang + 3 more2026-03-06💻 cs

IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation

Dit paper introduceert IF-RewardBench, een uitgebreide meta-evaluatiebenchmark voor instructievolgende taalgroottes die een lijstvormige evaluatieparadigma gebruikt om de betrouwbaarheid van huidige beoordelingsmodellen te testen en een sterkere correlatie met downstream-taakprestaties aan te tonen.

Bosi Wen, Yilin Niu, Cunxiang Wang + 5 more2026-03-06💻 cs

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

Dit paper introduceert DARE, een lichtgewicht retrieval-model dat data-distributie-informatie integreert om de prestaties van LLM-agents bij het genereren van R-code en het vinden van statistische pakketten aanzienlijk te verbeteren.

Maojun Sun, Yue Wu, Yifei Xie + 5 more2026-03-06💻 cs

HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

Het HiMAP-Travel-framework lost het probleem van lange-termijn reisplanning met strikte beperkingen op door een hiërarchische multi-agent architectuur te gebruiken die strategische coördinatie en parallelle dagelijkse uitvoering combineert, wat leidt tot aanzienlijk betere prestaties dan bestaande methoden op de TravelPlanner-benchmarks.

The Viet Bui, Wenjun Li, Yong Liu2026-03-06💻 cs

Stacked from One: Multi-Scale Self-Injection for Context Window Extension

Dit paper introduceert SharedLLM, een efficiënt framework dat twee gestapelde korte-context LLM's combineert via een 'self-injection'-mechanisme en query-georiënteerde compressie om contextvensters tot meer dan 128K tokens uit te breiden zonder dure hertraining, terwijl het tegelijkertijd de geheugenvoetafdruk verkleint en de inferentiesnelheid aanzienlijk verhoogt.

Wei Han, Pan Zhou, Shuicheng Yan2026-03-06💻 cs

TSEmbed: Unlocking Task Scaling in Universal Multimodal Embeddings

TSEmbed is een universeel multimodaal inbeddingsraamwerk dat door middel van een combinatie van Mixture-of-Experts en Low-Rank Adaptation taakconflicten oplost en via Expert-Aware Negative Sampling state-of-the-art prestaties bereikt op zowel benchmark- als industriële datasets.

Yebo Wu, Feng Liu, Ziwei Xie + 4 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

Dit paper introduceert Privacy Camera 2.0, een nieuw privacybewust waarnemingskader dat via een edge-cloud architectuur en het AI Flow-paradigma ruwe beelden in real-time omzet in wiskundig onomkeerbare abstracte vectorrepresentaties, waardoor gedetailleerde gedragsanalyse en visuele reconstructie mogelijk zijn zonder de oorspronkelijke privacygevoelige beelden te onthullen.

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction

Dit paper introduceert RLSTA, een versterkingsleer-methode die multi-turn interacties stabiliseert door het 'contextuele inertie'-probleem aan te pakken, waarbij modellen vasthouden aan eerdere foutieve redeneringen, door gebruik te maken van sterke single-turn prestaties als ankers voor zelfkalibratie.

Xingwu Chen, Zhanqiu Zhang, Yiwen Guo + 1 more2026-03-06💻 cs

Beyond Linear LLM Invocation: An Efficient and Effective Semantic Filter Paradigm

Dit paper introduceert het CSV-framework (Clustering-Sampling-Voting), dat de kosten en latentie van semantische filtering met grote taalmodellen drastisch verlaagt door sublineaire complexiteit te bereiken via clustering, steekproeven en stemmechanismen, zonder in te leveren op nauwkeurigheid.

Nan Hou, Kangfei Zhao, Jiadong Xie + 1 more2026-03-06💻 cs

Attention's Gravitational Field:A Power-Law Interpretation of Positional Correlation

Dit paper introduceert het concept van het Aandacht-Gravitationele Veld (AGF) als een kracht-wet-gebaseerde interpretatie van positionele correlaties in grote taalmodellen, waarbij het ontkoppelen van positionele coderingen van semantische embeddings leidt tot verbeterde nauwkeurigheid en een empirische overeenkomst met Newton's wet van universele zwaartekracht.

Edward Zhang2026-03-06💻 cs

Beyond the Context Window: A Cost-Performance Analysis of Fact-Based Memory vs. Long-Context LLMs for Persistent Agents

Deze studie vergelijkt fact-gebaseerde geheugensystemen met lange-context LLM's voor persistente agents en concludeert dat, hoewel lange-context modellen vaak betere feitelijke recall bieden, het geheugenarchitectuur op de lange termijn kostenefficiënter is en een waardevol alternatief biedt voor productiedeployments afhankelijk van de contextlengte en het type taak.

Natchanon Pollertlam, Witchayut Kornsuwannawit2026-03-06💬 cs.CL

Autoscoring Anticlimax: A Meta-analytic Understanding of AI's Short-answer Shortcomings and Wording Weaknesses

Deze meta-analyse onthult dat AI-modellen voor het beoordelen van korte antwoorden significant tekortschieten in vergelijking met menselijke experts, waarbij decoder-only-architecturen slechter presteren dan encoders, de moeilijkheidsgraad van de taak geen invloed heeft op de AI-prestaties, en er sprake is van ernstige gevoeligheid voor formulering en raciale discriminatie in hoge-stakes onderwijscontexten.

Michael Hardy2026-03-06💬 cs.CL

From Unfamiliar to Familiar: Detecting Pre-training Data via Gradient Deviations in Large Language Models

Dit artikel introduceert GDS, een methode die vooraf getrainde data in grote taalmodellen detecteert door systematische afwijkingen in gradiëntgedrag te analyseren, waardoor het de bestaande prestaties en overdraagbaarheid van bestaande methoden verbetert.

Ruiqi Zhang, Lingxiang Wang, Hainan Zhang + 2 more2026-03-06💬 cs.CL

← Vorige Volgende →