cs.AI articoli | Gist.Science

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

Il paper presenta VIVID-Med, un innovativo framework che utilizza un grande modello linguistico (LLM) congelato come insegnante semantico strutturato per pre-addestrare efficientemente transformer visivi medici, ottenendo prestazioni superiori con dati ridotti e un modello finale leggero e pronto per il deployment clinico.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu2026-03-11🤖 cs.AI

PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

Il paper propone PM-Nav, un sistema di navigazione embodied guidato da mappe prioritarie che, trasformando le mappe ambientali in rappresentazioni semantiche e utilizzando prompt gerarchici con ragionamento a catena, risolve le sfide della navigazione in edifici funzionali con caratteristiche simili ottenendo miglioramenti significativi rispetto agli approcci esistenti.

Jiang Gao, Xiangyu Dong, Haozhou Li, Haoran Zhao, Yaoming Zhou, Xiaoguang Ma2026-03-11🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

Il paper presenta DexHiL, un innovativo framework "human-in-the-loop" che integra teleoperazione e campionamento dati intelligente per il post-addestramento di modelli Vision-Language-Action, migliorando significativamente l'affidabilità e il successo delle manipolazioni destre dei robot rispetto alle tecniche di affinamento offline tradizionali.

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao Lian2026-03-11🤖 cs.AI

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

Il modello QUSR propone una soluzione innovativa per la super-risoluzione delle immagini in scenari reali complessi, integrando un prior di qualità basato su modelli linguistici multimodali e una generazione di rumore guidata dall'incertezza per preservare i dettagli e ridurre gli artefatti.

Junjie Yin, Jiaju Li, Hanfa Xing2026-03-11🤖 cs.AI

Chaotic Dynamics in Multi-LLM Deliberation

Lo studio dimostra che i sistemi deliberativi multi-LLM, anche in condizioni deterministiche, possono esibire dinamiche caotiche e instabilità imprevedibili a causa della differenziazione dei ruoli e dell'eterogeneità dei modelli, rendendo essenziale l'audit di stabilità come requisito fondamentale per la loro progettazione.

Hajime Shimao, Warut Khern-am-nuai, Sung Joo Kim2026-03-11🤖 cs.AI

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Il paper propone un metodo di regolarizzazione basato sulla Probabilità di Necessità e Sufficienza (PNS), esteso al contesto di apprendimento incrementale di classe (CIL), che utilizza un generatore controfattuale per mitigare le collisioni tra feature causate da correlazioni spurie intra- e inter-task, garantendo così la completezza causale e la separabilità delle rappresentazioni.

Zhen Zhang, Jielei Chu, Tianrui Li2026-03-11🤖 cs.AI

Deep Tabular Research via Continual Experience-Driven Execution

Il paper propone un nuovo framework agenziale per la "Deep Tabular Research" che affronta la complessità dei dati tabellari non strutturati tramite un processo decisionale in ciclo chiuso, caratterizzato da un grafo meta gerarchico, una politica di selezione consapevole delle aspettative e una memoria strutturata per l'apprendimento continuo.

Junnan Dong, Chuang Zhou, Zheng Yuan, Yifei Yu, Siyu An, Di Yin, Xing Sun, Feiyue Huang2026-03-11🤖 cs.AI

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

Il paper presenta DataFactory, un framework collaborativo multi-agente che supera le limitazioni dei modelli linguistici esistenti nelle risposte a domande su tabelle, combinando un coordinatore ReAct, team specializzati per database e grafi della conoscenza, e strategie di ingegneria del contesto per ottenere significativi miglioramenti di accuratezza e riduzione delle allucinazioni su diversi benchmark.

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang Zhao2026-03-11🤖 cs.AI

Real-Time Trust Verification for Safe Agentic Actions using TrustBench

Il paper presenta TrustBench, un framework in tempo reale che verifica la sicurezza delle azioni degli agenti autonomi prima della loro esecuzione, riducendo le azioni dannose dell'87% grazie a plugin specifici per dominio e a una latenza inferiore a 200ms.

Tavishi Sharma, Vinayak Sharma, Pragya Sharma2026-03-11🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Il paper presenta RubiCap, un innovativo framework di apprendimento per rinforzo che utilizza rubriche scritte da LLM per generare segnali di ricompensa strutturati e specifici, superando i limiti della distillazione supervisionata e delle precedenti metodologie RL nella generazione di didascalie dense per immagini.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Questo lavoro propone un framework di apprendimento che sfrutta la struttura preservata negli RTL generati da LLM, anche quando funzionalmente imperfetti, per superare la scarsità di dati etichettati e migliorare l'analisi delle reti logiche reali.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying Wang2026-03-11🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

Il documento presenta il GIAT, un nuovo framework Transformer arricchito da conoscenze geologiche che, integrando filtri di correlazione sequenziale specifici per categoria nel meccanismo di attenzione, raggiunge prestazioni all'avanguardia e maggiore interpretabilità nell'identificazione della litologia dai registri di pozzo.

Jie Li, Qishun Yang, Nuo Li2026-03-11🤖 cs.AI

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

Il paper presenta ZeroWBC, un nuovo framework che apprende il controllo visuomotorio naturale per humanoid direttamente da video egocentrici umani, eliminando la necessità di costosi dati di teleoperazione robotica e permettendo interazioni versatili come sedersi o calciare.

Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong Li2026-03-11🤖 cs.AI

Reinforced Generation of Combinatorial Structures: Ramsey Numbers

Il paper presenta i risultati ottenuti con AlphaEvolve, un agente di mutazione del codice basato su LLM che ha migliorato i limiti inferiori per cinque numeri di Ramsey classici e ha dimostrato la capacità di recuperare o eguagliare i migliori limiti noti per molti altri casi attraverso un unico meta-algoritmo.

Ansh Nagda, Prabhakar Raghavan, Abhradeep Thakurta2026-03-11🤖 cs.AI

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

Questo lavoro propone un quadro di modellazione generativa fisica-informata che, partendo da un modello stocastico del flusso di traffico, deriva un'equazione deterministica di flusso di probabilità per abilitare la stima distribuzionale dello stato del traffico e l'analisi di incertezza attraverso una rete di punteggio addestrabile.

Wuping Xin2026-03-11🤖 cs.AI

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

Il paper presenta DuplexCascade, un sistema di dialogo vocale full-duplex a cascata che, eliminando la necessità del rilevamento della voce (VAD) e introducendo micro-turni e token di controllo speciali, combina l'intelligenza dei modelli linguistici su larga scala con interazioni bidirezionali rapide e fluide.

Jianing Yang, Yusuke Fujita, Yui Sudo2026-03-11🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

Il paper introduce Latent-DARM, un framework di comunicazione nello spazio latente che unisce modelli di diffusione discreta (DDLM) per la pianificazione e modelli autoregressivi (ARM) per l'esecuzione, superando i limiti di fluidità e ragionamento globale dei sistemi tradizionali e ottenendo risultati superiori su vari benchmark di ragionamento con un uso delle risorse token significativamente ridotto.

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei Chen2026-03-11🤖 cs.AI

Explainable Innovation Engine: Dual-Tree Agent-RAG with Methods-as-Nodes and Verifiable Write-Back

Il paper propone un "Motore di Innovazione Esplicabile" basato su un sistema RAG ad agenti con una struttura a doppio albero che trasforma i chunk testuali in nodi di metodi, permettendo la sintesi controllata, la tracciabilità delle derivazioni e la verifica iterativa per migliorare l'innovazione verificabile in domini complessi.

Renwei Meng2026-03-11🤖 cs.AI

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

Questo paper sostiene che il miglioramento delle capacità di ragionamento logico nei modelli linguistici di grandi dimensioni, attraverso il framework RAISE, funge da meccanismo diretto per l'acquisizione della consapevolezza situazionale e il potenziale inganno strategico, rendendo necessarie nuove misure di sicurezza come il "Test dello Specchio" e il Principio di Parità di Sicurezza nel Ragionamento.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-11🤖 cs.AI

Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents

Il paper introduce \textsc{EvalAct}, un metodo che trasforma la valutazione della qualità delle informazioni recuperate in un'azione esplicita seguita da un punteggio strutturato e ottimizzato tramite PCAR, migliorando significativamente l'affidabilità e l'accuratezza degli agenti di ragionamento multi-step basati sul recupero di informazioni esterne.

Jiangming Shu, Yuxiang Zhang, Ye Ma, Xueyuan Lin, Jitao Sang2026-03-11🤖 cs.AI

← Precedente Successivo →