cs.AI papers | Gist.Science

Enhancing Web Agents with a Hierarchical Memory Tree

Dit paper introduceert de Hiërarchische Geheugenboom (HMT), een gestructureerd raamwerk dat logische planning en actie-uitvoering ontkoppelt door een drie-niveau hiërarchie te gebruiken, waardoor webagenten gebaseerd op grote taalmodellen aanzienlijk beter generaliseren naar onbekende websites dan bestaande methoden met plat geheugen.

Yunteng Tan, Zhi Gao, Xinxiao Wu2026-03-10💻 cs

Self-Supervised Multi-Modal World Model with 4D Space-Time Embedding

Deze paper introduceert DeepEarth, een zelftoezichtend multi-modale wereldmodel dat gebruikmaakt van de innovatieve Earth4D-encoder voor sub-meter en sub-seconde precisie in planetaire ruimtetijd, en dat hiermee state-of-the-art resultaten behaalt op ecologische voorspellingsbeproevingen.

Lance Legel, Qin Huang, Brandon Voelker, Daniel Neamati, Patrick Alan Johnson, Favyen Bastani, Jeff Rose, James Ryan Hennessy, Robert Guralnick, Douglas Soltis, Pamela Soltis, Shaowen Wang2026-03-10💻 cs

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

Dit paper introduceert CAPL, een framework dat hallucinaties in multi-image taken van grote vision-language modellen aanpakt door cross-image attentie te kalibreren en voorkeurslering toe te passen om de interactie tussen afbeeldingen te verbeteren en de afhankelijkheid van tekstuele priors te verminderen.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

Animating Petascale Time-varying Data on Commodity Hardware with LLM-assisted Scripting

Dit artikel introduceert een gebruiksvriendelijk framework dat wetenschappers in staat stelt om met behulp van LLM-gestuurde scripting en een geoptimaliseerde rendering-systeem complexe petascale tijd-variërende data, zoals NASA-klimaatmodellen, op een standaardwerkplek om te zetten in 3D-animaties binnen een zeer korte doorlooptijd.

Ishrat Jahan Eliza, Xuan Huang, Aashish Panta, Alper Sahistan, Zhimin Li, Amy A. Gooch, Valerio Pascucci2026-03-10💻 cs

Bi-directional digital twin prototype anchoring with multi-periodicity learning for few-shot fault diagnosis

Dit paper presenteert een bi-directionele digitale-tweeling-prototypemethode met multi-periodiciteitslering die meta-training in de virtuele ruimte en testtijdadaptatie in de fysieke ruimte combineert om betrouwbare foutdiagnose mogelijk te maken met slechts een beperkt aantal voorbeelden.

Pengcheng Xia, Zhichao Dong, Yixiang Huang, Chengjin Qin, Qun Chao, Chengliang Liu2026-03-10💻 cs

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

MedSteer is een trainingsvrij framework dat actiesturing toepast op endoscopische diffusiemodellen om perfecte contrafactuele beeldparen te genereren waarbij alleen het pathologische concept verandert terwijl de anatomische structuur volledig behouden blijft, wat leidt tot superieure resultaten in data-augmentatie en polypdetectie.

Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le2026-03-10💻 cs

User Review Writing via Interview with Dialogue Systems

Deze studie introduceert een systeem dat met behulp van GPT-4 en interviewdialogen gedetailleerde productrecensies genereert, wat leidt tot minder bewerkingswerk voor gebruikers en volgens lezers nuttigere recensies oplevert dan door mensen geschreven teksten.

Yoshiki Tanaka, Michimasa Inaba2026-03-10💻 cs

CoTJudger: A Graph-Driven Framework for Automatic Evaluation of Chain-of-Thought Efficiency and Redundancy in LRMs

Dit paper introduceert CoTJudger, een grafgebaseerd framework dat de efficiëntie van Chain-of-Thought-resoneren in Large Reasoning Models kwantificeert door het onderscheid te maken tussen essentiële logica en structurele redundantie via het extraheren van de kortste effectieve paden.

Siyi Li, Jiajun Shi, Shiwen Ni, Ge Zhang, Shuaimin Li, Shijian Wang, Zhoufutu Wen, Yizhi Li, Hamid Alinejad-Rokny, Jiaheng Liu, Min Yang, Wenhao Huang2026-03-10💬 cs.CL

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

Dit paper introduceert Countdown-Code, een testomgeving die aantoont dat reward hacking in taalmodellen al kan ontstaan door minimale verontreiniging in trainingsdata tijdens supervised fine-tuning en vervolgens wordt versterkt en gegeneraliseerd door reinforcement learning.

Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang2026-03-10🤖 cs.LG

mAVE: A Watermark for Joint Audio-Visual Generation Models

Dit paper introduceert mAVE, het eerste watermerksysteem dat audio en video cryptografisch aan elkaar koppelt in gezamenlijke generatieve modellen om de kwetsbaarheid voor 'swap-aanvallen' te elimineren en zo de reputatie van leveranciers te beschermen.

Luyang Si, Leyi Pan, Lijie Wen2026-03-10💻 cs

Grounding Machine Creativity in Game Design Knowledge Representations: Empirical Probing of LLM-Based Executable Synthesis of Goal Playable Patterns under Structural Constraints

Dit onderzoek onderzoekt of grote taalmodellen (LLMs) onder strikte Unity-engine-structuurbeperkingen speelbare spelpatronen kunnen genereren, en concludeert dat hoewel menselijke tussenliggende representaties helpen, structurele 'grounding'-fouten de huidige schaalbaarheid van deze creatieve synthese beperken.

Hugh Xuechen Liu, Kıvanç Tatar2026-03-10💻 cs

Efficient Personalized Reranking with Semi-Autoregressive Generation and Online Knowledge Distillation

Dit paper introduceert het PSAD-framework, dat een semi-autoregressieve generator en online kennisdistillatie combineert met een gebruikersprofielnetwerk om de latente en prestaties van gepersonaliseerde herordening in aanbevelingssystemen te verbeteren.

Kai Cheng, Hao Wang, Wei Guo, Weiwen Liu, Yong Liu, Yawen Li, Enhong Chen2026-03-10💻 cs

Vision Language Models Cannot Reason About Physical Transformation

De studie ConservationBench onthult dat Vision Language Models systematisch falen in het redeneren over fysieke transformaties en het behoud van eigenschappen, omdat hun prestaties dicht bij het toeval blijven en zelfs verslechteren wanneer visuele informatie wordt toegevoegd ondanks sterke tekstuele vooroordelen.

Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng2026-03-10💻 cs

Enhancing Consistency of Werewolf AI through Dialogue Summarization and Persona Information

Dit artikel presenteert een op grote taalmodellen gebaseerde AI-agent voor het Werewolf-spel die, door gebruik te maken van dialogsamenvattingen en gepersonaliseerde instructies, de consistentie van de uitingen en het karakterbehoud tijdens het spel aanzienlijk verbetert.

Yoshiki Tanaka, Takumasa Kaneko, Hiroki Onozeki, Natsumi Ezure, Ryuichi Uehara, Zhiyang Qi, Tomoya Higuchi, Ryutaro Asahara, Michimasa Inaba2026-03-10💬 cs.CL

aCAPTCHA: Verifying That an Entity Is a Capable Agent via Asymmetric Hardness

Dit artikel introduceert aCAPTCHA, een nieuw beveiligingsprotocol dat gebruikmaakt van tijdsgebonden asymmetrische moeilijkheid om autonome AI-agenten, menselijke gebruikers en scripts van elkaar te onderscheiden via een verificatieprobleem voor agentic capaciteiten.

Zuyao Xu, Xiang Li, Fubin Wu, Yuqi Qiu, Lu Sun, FaSheng Miao2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

Dit paper introduceert EyExIn, een data-efficiënt raamwerk dat retinale Vision Language Models versterkt met diepe expertinjectie en een dubbelstroom-architectuur om de kloof tussen algemene visuele waarneming en medisch redeneren te overbruggen en zo hallucinaties te voorkomen.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

Emotion Transcription in Conversation: A Benchmark for Capturing Subtle and Complex Emotional States through Natural Language

Dit paper introduceert 'Emotion Transcription in Conversation' (ETC), een nieuwe taak en bijbehorend Japans dataset die natuurlijke taalbeschrijvingen van emotionele toestanden gebruikt om de beperkingen van traditionele categorische emotieherkenning in gesprekken te overwinnen.

Yoshiki Tanaka, Ryuichi Uehara, Koji Inoue, Michimasa Inaba2026-03-10💬 cs.CL

Fine-Grained Table Retrieval Through the Lens of Complex Queries

Dit paper introduceert DCTR, een methode voor fijnkorrelige tabelretrieval die complexe queries decomposeert en globale connectiviteit in acht neemt om vraag-antwoordsystemen over relationele databases robuuster te maken.

Wojciech Kosiuk, Xingyu Ji, Yeounoh Chung, Fatma Özcan, Madelon Hulsebos2026-03-10💬 cs.CL

Improving reasoning at inference time via uncertainty minimisation

Dit paper introduceert een efficiënte inferentie-methode die redenering verbetert door op het niveau van individuele gedachten de zelfzekerheid van het model te maximaliseren, wat leidt tot betere prestaties dan traditionele methoden zoals greedy decoding en self-consistency met een beperkt rekenbudget.

Nicolas Legrand, Kenneth Enevoldsen, Márton Kardos, Kristoffer Nielbo2026-03-10💻 cs

Learning to Rank the Initial Branching Order of SAT Solvers

Dit onderzoek toont aan dat het gebruik van grafische neurale netwerken om de initiële vertakkingsvolgorde van SAT-oplossers te voorspellen aanzienlijke snelheidswinst oplevert voor willekeurige en pseudo-industriële problemen, maar minder effectief is voor complexe industriële instanties doordat de dynamische heuristieken van de solver de initiële voorspelling snel overschrijven.

Arvid Eriksson (KTH Royal Institute of Technology), Gabriel Poesia (Kempner Institute at Harvard University), Roman Bresson (Mohamed Bin Zayed University of Artificial Intelligence), Karl Henrik Johansson (KTH Royal Institute of Technology), David Broman (KTH Royal Institute of Technology)2026-03-10💻 cs

← Vorige Volgende →