cs.CL papers | Gist.Science

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Het paper introduceert Vision-R1, een multimodaal groot taalmodel dat door middel van een zelfgeconstrueerde dataset en een geavanceerde trainingsstrategie met versterkende leer (RL) de redeneerprestaties aanzienlijk verbetert en daarmee bijna gelijk komt aan de prestaties van OpenAI O1 op wiskundige benchmarks.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

Dit paper introduceert een nieuw generatief model en bewijst dat next-token prediction leidt tot representaties die de logaritmen van de posterieure kansen op latente, mensinterpreteerbare concepten benaderen, wat de lineaire representatiehypothese theoretisch onderbouwt en empirisch wordt gevalideerd op verschillende LLM-families.

Yuhang Liu, Dong Gong, Yichao Cai + 6 more2026-03-03💬 cs.CL

A Foundational Individual Mobility Prediction Model based on Open-Source Large Language Models

Dit paper introduceert MoBLLM, een kostenefficiënt fundamenteel model op basis van open-source grote taalmodellen dat door middel van parameter-efficiënt fijnafstemmen superieure prestaties, robuustheid en overdraagbaarheid bereikt bij het voorspellen van individuele mobiliteit in diverse real-world scenario's.

Zhenlin Qin, Leizhen Wang, Yancheng Ling + 2 more2026-03-03💬 cs.CL

Chain of Correction for Full-text Speech Recognition with Large Language Models

Dit artikel introduceert de Chain of Correction (CoC), een methode die gebruikmaakt van meervoudige chat-interacties met grote taalmodellen om volledige tekstherkenning uit spraak nauwkeuriger en vloeiender te corrigeren door fouten segment voor segment te verhelpen op basis van de volledige context.

Zhiyuan Tang, Dong Wang, Zhikai Zhou + 3 more2026-03-03💬 cs.CL

AnesSuite: A Comprehensive Benchmark and Dataset Suite for Anesthesiology Reasoning in LLMs

Dit paper introduceert AnesSuite, een uitgebreide dataset-suite en evaluatiebenchmark voor anesthesiologische redeneerredenering in grote taalmodellen, en presenteert Morpheus, een open-source modelreeks die aanzienlijke verbeteringen boekt in zowel gespecialiseerde als algemene medische taken.

Xiang Feng, Wentao Jiang, Zengmao Wang + 5 more2026-03-03💬 cs.CL

DRA-GRPO: Your GRPO Needs to Know Diverse Reasoning Paths for Mathematical Reasoning

DRA-GRPO is een plug-and-play methode die de GRPO-algoritme voor wiskundig redeneren verbetert door middel van een diversiteitsbewuste beloningsaanpassing die redundantie tegengaat en zo leidt tot hogere nauwkeurigheid met minder trainingsdata.

Xiwen Chen, Wenhui Zhu, Peijie Qiu + 7 more2026-03-03💬 cs.CL

When Large Language Models are More PersuasiveThan Incentivized Humans, and Why

Dit onderzoek toont aan dat grote taalmodellen in interactieve settingen vaak overtuigender zijn dan gemotiveerde mensen, waarbij hun superioriteit afhangt van de context (waarheid of misleiding), het specifieke model en het aantal interacties, en mogelijk wordt veroorzaakt door een hogere uitgesproken overtuiging in hun taalgebruik.

Philipp Schoenegger, Francesco Salvi, Jiacheng Liu + 37 more2026-03-03💬 cs.CL

mCLM: A Modular Chemical Language Model that Generates Functional and Makeable Molecules

Dit paper introduceert mCLM, een modulair chemisch taalmodel dat moleculen tokeniseert op basis van functionele bouwstenen in plaats van atomen, waardoor het niet alleen beter voorspelbare eigenschappen genereert, maar ook synthetiseerbare moleculen produceert die compatibel zijn met geautomatiseerde laboratoriumsynthese.

Carl Edwards, Chi Han, Gawon Lee + 11 more2026-03-03🧬 q-bio

Dynamic Token Reweighting for Robust Vision-Language Models

Dit paper introduceert DTR, een innovatieve verdediging op het moment van inferentie die multimodale jailbreak-aanvallen op Vision-Language-modellen effectief neutraliseert door de gewichten van visuele tokens dynamisch aan te passen via optimalisatie van de KV-cache, zonder afhankelijk te zijn van gespecialiseerde veiligheidsdata of kostbare beeld-naar-tekst conversie.

Tanqiu Jiang, Jiacheng Liang, Rongyi Zhu + 3 more2026-03-03💬 cs.CL

Chain-of-Lure: A Universal Jailbreak Attack Framework using Unconstrained Synthetic Narratives

Dit artikel introduceert 'Chain-of-Lure', een universeel jailbreak-kader dat onbeperkte synthetische verhalen en een helper-LLM gebruikt om schadelijke intenties te verbergen en succesvolle aanvallen op grote taalmodellen uit te voeren, terwijl het ook verdedigingsstrategieën voorstelt.

Wenhan Chang, Tianqing Zhu, Yu Zhao + 3 more2026-03-03💬 cs.CL

NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

Dit paper introduceert Negative-aware Fine-Tuning (NFT), een geavanceerde supervised learning-methode die LLM's in staat stelt om autonoom te leren van hun eigen fouten in wiskundige redenering, waardoor het de prestaties van bestaande RL-algoritmen evenaart of overtreft en de theoretische kloof tussen supervised learning en reinforcement learning dicht.

Huayu Chen, Kaiwen Zheng, Qinsheng Zhang + 8 more2026-03-03💬 cs.CL

SQUiD: Synthesizing Relational Databases from Unstructured Text

Dit paper introduceert SQUiD, een neurosymbolisch framework dat grote taalmodellen gebruikt om automatisch relationele databases te synthetiseren uit ongestructureerde tekst door schema's te genereren en tabellen te vullen.

Mushtari Sadia, Zhenning Yang, Yunming Xiao + 2 more2026-03-03💬 cs.CL

Learning to Reason without External Rewards

Dit paper introduceert Intuitor, een methode voor Reinforcement Learning from Internal Feedback (RLIF) die grote taalmodellen in staat stelt om zonder externe beloningen of gelabelde data te leren door gebruik te maken van hun eigen zelfvertrouwen als beloningssignaal, wat resulteert in prestaties die vergelijkbaar zijn met traditionele methoden op wiskundige benchmarks en betere generalisatie naar domeinen zoals codegeneratie.

Xuandong Zhao, Zhewei Kang, Aosong Feng + 2 more2026-03-03💬 cs.CL

RPM: Reasoning-Level Personalization for Black-Box Large Language Models

Dit paper introduceert RPM, een nieuw raamwerk voor black-box grote taalmodellen dat persoonlijke redeneerstructuren uit ruwe gedragsdata afleidt om generieke output te vervangen door beter afgestemde en interpreteerbare antwoorden.

Jieyong Kim, Tongyoung Kim, Soojin Yoon + 2 more2026-03-03💬 cs.CL

Augmenting Research Ideation with Data: An Empirical Investigation in Social Science

Deze empirische studie in de sociale wetenschappen toont aan dat het verrijken van grote taalmodellen met relevante data en automatische validatie tijdens het genereren en selecteren van onderzoeksideeën de haalbaarheid en kwaliteit van deze ideeën significant verbetert en onderzoekers effectief ondersteunt in hun eigen creatieve proces.

Xiao Liu, Xinyi Dong, Xinyang Gao + 2 more2026-03-03💬 cs.CL

RefTool: Reference-Guided Tool Creation for Knowledge-Intensive Reasoning

Het artikel introduceert RefTool, een raamwerk dat grote taalmodellen in staat stelt om kennisintensieve redeneringsopdrachten beter uit te voeren door automatisch uitvoerbare hulpmiddelen te creëren op basis van externe referenties en deze hiërarchisch te organiseren voor effectief gebruik.

Xiao Liu, Da Yin, Zirui Wu + 1 more2026-03-03💬 cs.CL

VeriTrail: Closed-Domain Hallucination Detection with Traceability

Dit paper introduceert VeriTrail, de eerste methode voor het detecteren van hallucinaties in gesloten domeinen met traceerbaarheid, die niet alleen de einduitvoer controleert maar ook identificeert waar hallucinaties in meervoudige generatiestappen zijn ontstaan, en dit ondersteunt met nieuwe datasets en betere prestaties dan bestaande methoden.

Dasha Metropolitansky, Jonathan Larson2026-03-03💬 cs.CL

RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments

Dit paper introduceert RedTeamCUA, een nieuw testframework met een hybride sandbox voor het realistisch evalueren van kwetsbaarheden voor indirecte prompt-injectie in computergebruiksagenten, en presenteert de RTC-Bench-benchmark die aantoont dat zelfs de meest geavanceerde agenten aanzienlijke veiligheidsrisico's vertonen in hybride web-OS-omgevingen.

Zeyi Liao, Jaylen Jones, Linxi Jiang + 5 more2026-03-03💬 cs.CL

CityLens: Evaluating Large Vision-Language Models for Urban Socioeconomic Sensing

Dit paper introduceert CityLens, een uitgebreid benchmark voor het evalueren van Large Vision-Language Models bij het voorspellen van stedelijke sociaaleconomische indicatoren op basis van satelliet- en straatbeeldbeelden uit 17 wereldsteden.

Tianhui Liu, Hetian Pang, Xin Zhang + 5 more2026-03-03💬 cs.CL

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

In dit paper wordt OmniSpatial geïntroduceerd, een uitgebreid en uitdagend benchmark voor ruimtelijk redeneren bij vision-language modellen, gebaseerd op cognitieve psychologie met meer dan 8.4K handmatig geannoteerde vraag-antwoordparen die vier hoofdcategorieën bestrijken, terwijl experimenten de beperkingen van bestaande modellen aantonen en twee nieuwe strategieën voor verbetering voorstellen.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

← Vorige Volgende →