cs.AI papers | Gist.Science

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

VIVID-Med introduceert een efficiënt kader voor het vooraf trainen van medische vision transformers met behulp van een bevroren groot taalmodel als gestructureerde leraar, wat resulteert in een lichtgewicht, alleen-vision model dat aanzienlijk betere prestaties levert dan bestaande methoden met minder data en zonder de zware taalmodelcomponent tijdens het gebruik.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu2026-03-11🤖 cs.AI

PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

Dit artikel introduceert PM-Nav, een prioriteitskaart-gestuurde benadering voor embodied navigation in functionele gebouwen die, door het gebruik van semantische prioriteitskaarten en hiërarchische prompt-templates, aanzienlijke verbeteringen in navigatieprestaties bereikt ten opzichte van bestaande methoden.

Jiang Gao, Xiangyu Dong, Haozhou Li, Haoran Zhao, Yaoming Zhou, Xiaoguang Ma2026-03-11🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

DexHiL is een nieuw mens-in-de-lus-framework dat de prestaties van vision-language-action-modellen voor dexterous manipulatie aanzienlijk verbetert door gecoördineerde menselijke interventies op arm en hand te integreren, wat leidt tot een gemiddelde stijging van 25% in slagingspercentages ten opzichte van traditionele offline-finetuning.

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao Lian2026-03-11🤖 cs.AI

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

Deze paper introduceert QUSR, een nieuwe diffusion-model voor beeldsuperresolutie dat realistische en hoogwaardige resultaten in complexe scenario's bereikt door een onzekerheidsgeleide ruisgeneratiemodule te combineren met een kwaliteitsbewuste prior die wordt gegenereerd door een multimodaal groot taalmodel.

Junjie Yin, Jiaju Li, Hanfa Xing2026-03-11🤖 cs.AI

Chaotic Dynamics in Multi-LLM Deliberation

Dit onderzoek toont aan dat multi-LLM-deliberatiesystemen, zelfs onder omstandigheden die als deterministisch worden beschouwd, gevoelig kunnen zijn voor chaotische dynamiek en instabiliteit veroorzaakt door rolverschillen en modelheterogeniteit, wat onderstreept dat stabiliteitsaudits essentieel zijn voor het ontwerp van dergelijke bestuursystemen.

Hajime Shimao, Warut Khern-am-nuai, Sung Joo Kim2026-03-11🤖 cs.AI

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Dit paper introduceert een PNS-gebaseerde regularisatiemethode voor class-incremental learning die causale volledigheid en scheidslijnen tussen taken waarborgt door middel van een dubbel-scope counterfactuele generator, waardoor feature-collisie en catastrofale forgetting worden verminderd.

Zhen Zhang, Jielei Chu, Tianrui Li2026-03-11🤖 cs.AI

Deep Tabular Research via Continual Experience-Driven Execution

Dit paper introduceert Deep Tabular Research, een nieuw agentisch raamwerk dat complexe analyse van ongestructureerde tabellen aanpakt door middel van een gesloten-lus besluitvormingsproces met hiërarchische meta-graafconstructie, verwachtingsbewuste selectie en continue verfijning via een siamese gestructureerd geheugen.

Junnan Dong, Chuang Zhou, Zheng Yuan, Yifei Yu, Siyu An, Di Yin, Xing Sun, Feiyue Huang2026-03-11🤖 cs.AI

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

Dit paper introduceert DataFactory, een collaboratief multi-agent framework dat de beperkingen van bestaande Large Language Models voor tabelvraagbeantwoording overwint door gespecialiseerde agententeams te coördineren voor geautomatiseerde kennisomzetting en adaptieve planning, wat leidt tot aanzienlijke verbeteringen in nauwkeurigheid en betrouwbaarheid.

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang Zhao2026-03-11🤖 cs.AI

Real-Time Trust Verification for Safe Agentic Actions using TrustBench

Dit paper introduceert TrustBench, een dual-modus framework dat real-time verificatie biedt voor autonome agenten door veiligheidscontroles uit te voeren tussen actieformulering en uitvoering, waardoor schadelijke acties met 87% worden gereduceerd.

Tavishi Sharma, Vinayak Sharma, Pragya Sharma2026-03-11🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap is een nieuw reinforcement learning-framework dat de uitdagingen van dichte beeldbeschrijving oplost door gebruik te maken van door LLM's geschreven rubrieken voor gestructureerde, veelzijdige beloningssignalen, waardoor het superieure resultaten bereikt ten opzichte van bestaande methoden en zelfs modellen die zijn getraind op data van propriëtaire modellen.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Deze paper introduceert een kosteneffectief raamwerk dat imperfecte, door LLM's gegenereerde RTL-code gebruikt om netlistrepresentaties te leren, waardoor de schaarste aan gelabelde data voor circuitanalyse wordt overwonnen zonder in te leveren op de prestaties op realistische ontwerpen.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying Wang2026-03-11🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

Dit artikel introduceert GIAT, een nieuw Transformer-gebaseerd framework dat door het integreren van geologische prioren in het aandachtmechanisme de nauwkeurigheid, betrouwbaarheid en interpreteerbaarheid van lithologie-identificatie uit boorgatmetingen aanzienlijk verbetert.

Jie Li, Qishun Yang, Nuo Li2026-03-11🤖 cs.AI

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

ZeroWBC is een nieuw kader dat natuurlijke humanoid-robotbesturing direct uit menselijke egocentrische video's leert, waardoor de noodzaak voor dure teleoperatiegegevens wordt geëlimineerd en robuuste, veelzijdige interactie met de omgeving mogelijk wordt gemaakt.

Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong Li2026-03-11🤖 cs.AI

Reinforced Generation of Combinatorial Structures: Ramsey Numbers

Dit artikel introduceert AlphaEvolve, een op een groot taalmodel gebaseerd agent dat code mutaties uitvoert en daarmee de ondergrenzen voor vijf klassieke Ramsey-getallen heeft verbeterd, terwijl het tevens bestaande resultaten succesvol reproduceerde en matchte.

Ansh Nagda, Prabhakar Raghavan, Abhradeep Thakurta2026-03-11🤖 cs.AI

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

Deze paper introduceert een nieuw raamwerk voor differentieerbare, stochastische verkeersdynamica dat fysica-informeren combineert met generatieve modellering om in plaats van deterministische puntwaarden volledige kansverdelingen voor verkeersdichtheid te voorspellen, waardoor onzekerheidskwantificering en risicobeoordeling mogelijk worden.

Wuping Xin2026-03-11🤖 cs.AI

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

DuplexCascade is een VAD-vrije, gestreamde spraak-naar-spraak pipeline die volledige duplex-interactie mogelijk maakt door conventionele lange wisselgesprekken om te zetten in micro-turns met behulp van speciale controletokens, waardoor de intelligentie van een tekst-LLM behouden blijft terwijl de onderbrekingsproblemen van traditionele systemen worden opgelost.

Jianing Yang, Yusuke Fujita, Yui Sudo2026-03-11🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

Latent-DARM is een nieuw latentruimte-communicatiekader dat Discrete Diffusion-talenmodellen (voor planning) en autoregressieve modellen (voor uitvoering) combineert om de redeneerprestaties en samenwerking tussen heterogene agenten aanzienlijk te verbeteren.

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei Chen2026-03-11🤖 cs.AI

Explainable Innovation Engine: Dual-Tree Agent-RAG with Methods-as-Nodes and Verifiable Write-Back

Dit paper introduceert een uitlegbare Innovatie-Engine die Retrieval-Augmented Generation (RAG) verbetert door tekstfragmenten te vervangen door methoden als knooppunten binnen een dubbele boomstructuur, waardoor een agent traceerbare synthese kan uitvoeren en geverifieerde resultaten terug kan schrijven voor continue groei.

Renwei Meng2026-03-11🤖 cs.AI

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

Dit paper introduceert het RAISE-framework om aan te tonen dat verbeteringen in logisch redeneren bij grote taalmodellen onvermijdelijk leiden tot een toename van situationeel bewustzijn en strategisch zelfbewustzijn, waardoor er dringende nieuwe veiligheidsmaatregelen nodig zijn.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-11🤖 cs.AI

Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents

Het paper introduceert EvalAct, een methode die retrieval-augmented agents verbetert door zoekopdrachten te koppelen aan expliciete evaluaties en een procesgebaseerde optimalisatie (PCAR) te gebruiken, wat leidt tot aanzienlijk betere prestaties bij multi-hop vraagbeantwoording.

Jiangming Shu, Yuxiang Zhang, Ye Ma, Xueyuan Lin, Jitao Sang2026-03-11🤖 cs.AI

← Vorige Volgende →