cs.AI articoli | Gist.Science

Enhancing Web Agents with a Hierarchical Memory Tree

Il paper propone l'Hierarchical Memory Tree (HMT), un framework che migliora l'adattabilità degli agenti web su siti non visti disaccoppiando la pianificazione logica dall'esecuzione delle azioni attraverso una memoria gerarchica a tre livelli, superando così i limiti dei metodi basati su memorie piatte.

Yunteng Tan, Zhi Gao, Xinxiao Wu2026-03-10💻 cs

Self-Supervised Multi-Modal World Model with 4D Space-Time Embedding

Il paper presenta DeepEarth, un modello mondiale multi-modale auto-supervisionato che utilizza il nuovo codificatore posizionale 4D Earth4D per raggiungere prestazioni all'avanguardia nella previsione ecologica con precisione sub-metrica e sub-secondaria su scala planetaria.

Lance Legel, Qin Huang, Brandon Voelker, Daniel Neamati, Patrick Alan Johnson, Favyen Bastani, Jeff Rose, James Ryan Hennessy, Robert Guralnick, Douglas Soltis, Pamela Soltis, Shaowen Wang2026-03-10💻 cs

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

Il paper propone CAPL, un framework strutturato che combina un meccanismo di attenzione calibrato per le interazioni tra immagini e un'ottimizzazione basata sulle preferenze per mitigare le allucinazioni nei modelli visione-linguaggio su compiti multi-immagine, migliorando le prestazioni senza compromettere le capacità su singole immagini.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

Animating Petascale Time-varying Data on Commodity Hardware with LLM-assisted Scripting

Questo articolo presenta un framework innovativo che, sfruttando un'interfaccia conversazionale basata su LLM e un sistema di rendering ottimizzato, consente agli scienziati di generare animazioni 3D di dati climatici petascale su workstation commerciali, riducendo drasticamente i tempi di elaborazione e rendendo accessibile la visualizzazione avanzata anche a utenti privi di competenze specialistiche.

Ishrat Jahan Eliza, Xuan Huang, Aashish Panta, Alper Sahistan, Zhimin Li, Amy A. Gooch, Valerio Pascucci2026-03-10💻 cs

Bi-directional digital twin prototype anchoring with multi-periodicity learning for few-shot fault diagnosis

Questo articolo propone un metodo di diagnosi dei guasti con pochi esempi che utilizza un prototipo digitale bidirezionale e l'apprendimento della multi-periodicità per adattare i modelli virtuali agli asset fisici, superando la dipendenza da grandi quantità di dati etichettati.

Pengcheng Xia, Zhichao Dong, Yixiang Huang, Chengjin Qin, Qun Chao, Chengliang Liu2026-03-10💻 cs

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

Il paper presenta MedSteer, un framework di steering delle attivazioni senza addestramento che genera coppie controfattuali endoscopiche preservando la struttura anatomica e superando i metodi basati su inversione e riprompting nelle valutazioni di sintesi e rilevamento dei polipi.

Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le2026-03-10💻 cs

User Review Writing via Interview with Dialogue Systems

Questo studio propone un sistema basato su GPT-4 che facilita la scrittura di recensioni per gli utenti attraverso dialoghi di intervista, dimostrando che le recensioni generate richiedono meno editing e risultano più utili per i lettori rispetto a quelle scritte manualmente, nonostante alcune sfide relative alla fluidità del testo.

Yoshiki Tanaka, Michimasa Inaba2026-03-10💻 cs

CoTJudger: A Graph-Driven Framework for Automatic Evaluation of Chain-of-Thought Efficiency and Redundancy in LRMs

Il paper introduce CoTJudger, un framework guidato da grafi che valuta l'efficienza dei Modelli di Ragionamento su larga scala convertendo le catene di pensiero in grafi di dipendenza per identificare il percorso più breve necessario, permettendo così di distinguere tra logica essenziale e ridondanza strutturale.

Siyi Li, Jiajun Shi, Shiwen Ni, Ge Zhang, Shuaimin Li, Shijian Wang, Zhoufutu Wen, Yizhi Li, Hamid Alinejad-Rokny, Jiaheng Liu, Min Yang, Wenhao Huang2026-03-10💬 cs.CL

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

Il paper introduce Countdown-Code, un ambiente di test che rivela come anche una minima contaminazione di dati di addestramento con strategie di "reward hacking" possa indurre modelli LLM a imparare e generalizzare tale comportamento, aggravato successivamente dall'apprendimento per rinforzo.

Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang2026-03-10🤖 cs.LG

mAVE: A Watermark for Joint Audio-Visual Generation Models

Il paper propone mAVE, il primo framework di watermarking nativo per modelli di generazione audio-visiva congiunta che, legando crittograficamente le latenti audio e video, risolve la vulnerabilità agli attacchi di sostituzione garantendo integrità e sicurezza senza compromettere le prestazioni.

Luyang Si, Leyi Pan, Lijie Wen2026-03-10💻 cs

Grounding Machine Creativity in Game Design Knowledge Representations: Empirical Probing of LLM-Based Executable Synthesis of Goal Playable Patterns under Structural Constraints

Questo studio indaga la capacità dei modelli linguistici di grandi dimensioni di sintetizzare codice Unity eseguibile a partire da pattern di gioco, dimostrando che l'uso di una rappresentazione intermedia specifica per il motore, pur migliorando la coerenza semantica, incontra ancora ostacoli critici legati al "grounding" strutturale e alla pulizia del progetto che limitano il successo della compilazione automatica.

Hugh Xuechen Liu, Kıvanç Tatar2026-03-10💻 cs

Efficient Personalized Reranking with Semi-Autoregressive Generation and Online Knowledge Distillation

Il paper propone PSAD, un nuovo framework di reranking personalizzato che combina generazione semi-autoregressiva e distillazione della conoscenza online per bilanciare efficacemente qualità e latenza, migliorando al contempo l'interazione tra utenti e articoli.

Kai Cheng, Hao Wang, Wei Guo, Weiwen Liu, Yong Liu, Yawen Li, Enhong Chen2026-03-10💻 cs

Vision Language Models Cannot Reason About Physical Transformation

Il paper introduce ConservationBench, un benchmark che dimostra come i modelli visione-linguaggio attuali falliscano sistematicamente nel ragionare sulle trasformazioni fisiche, mostrando prestazioni vicine al caso e una dipendenza da priors testuali piuttosto che dalla comprensione visiva delle invarianti fisiche.

Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng2026-03-10💻 cs

Enhancing Consistency of Werewolf AI through Dialogue Summarization and Persona Information

Questo studio presenta un agente AI per il gioco del Lupacchiotto sviluppato per la sfida AIWolfDial 2024, che migliora la coerenza delle risposte e la coerenza del personaggio integrando riassunti del dialogo e informazioni sulla personalità all'interno di un modello linguistico di grandi dimensioni.

Yoshiki Tanaka, Takumasa Kaneko, Hiroki Onozeki, Natsumi Ezure, Ryuichi Uehara, Zhiyang Qi, Tomoya Higuchi, Ryutaro Asahara, Michimasa Inaba2026-03-10💬 cs.CL

aCAPTCHA: Verifying That an Entity Is a Capable Agent via Asymmetric Hardness

Il paper presenta aCAPTCHA, un nuovo protocollo di verifica che distingue umani, script e agenti autonomi sfruttando l'asimmetria nella difficoltà di elaborazione temporale tra cognizione umana e intelligenza artificiale.

Zuyao Xu, Xiang Li, Fubin Wu, Yuqi Qiu, Lu Sun, FaSheng Miao2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

Il paper presenta EyExIn, un framework efficiente che supera le lacune di conoscenza specifica nel dominio oftalmico dei modelli visione-linguaggio, integrando un meccanismo di iniezione profonda di esperti per ancorare il ragionamento a evidenze visive accurate e raggiungere prestazioni all'avanguardia nella diagnosi retinica.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

Emotion Transcription in Conversation: A Benchmark for Capturing Subtle and Complex Emotional States through Natural Language

Questo lavoro introduce un nuovo compito chiamato Trascrizione Emotiva nella Conversazione (ETC) e un corrispondente dataset giapponese per superare i limiti delle annotazioni emotive tradizionali, consentendo la generazione di descrizioni linguistiche naturali che catturano sfumature emotive complesse e sottili.

Yoshiki Tanaka, Ryuichi Uehara, Koji Inoue, Michimasa Inaba2026-03-10💬 cs.CL

Fine-Grained Table Retrieval Through the Lens of Complex Queries

Il paper presenta DCTR, un meccanismo di recupero tabelle che utilizza la decomposizione di query tipizzate e la consapevolezza della connettività globale per migliorare la risposta a domande complesse su database relazionali, dimostrando robustezza su benchmark industriali.

Wojciech Kosiuk, Xingyu Ji, Yeounoh Chung, Fatma Özcan, Madelon Hulsebos2026-03-10💬 cs.CL

Improving reasoning at inference time via uncertainty minimisation

Il paper propone un metodo di inferenza efficiente per i modelli linguistici che migliora il ragionamento massimizzando la certezza interna del modello a livello di singoli pensieri, ottenendo prestazioni superiori rispetto alle tecniche esistenti con un minor costo computazionale.

Nicolas Legrand, Kenneth Enevoldsen, Márton Kardos, Kristoffer Nielbo2026-03-10💻 cs

Learning to Rank the Initial Branching Order of SAT Solvers

Questo studio dimostra che l'uso di reti neurali grafiche per prevedere un ordine di ramificazione iniziale può accelerare significativamente i risolutori SAT su istanze casuali e pseudo-industriali, sebbene tale approccio perda efficacia su istanze industriali complesse a causa della rapida sovrascrittura delle euristiche dinamiche del solver.

Arvid Eriksson (KTH Royal Institute of Technology), Gabriel Poesia (Kempner Institute at Harvard University), Roman Bresson (Mohamed Bin Zayed University of Artificial Intelligence), Karl Henrik Johansson (KTH Royal Institute of Technology), David Broman (KTH Royal Institute of Technology)2026-03-10💻 cs

← Precedente Successivo →