cs.AI articoli | Gist.Science

Automating Detection and Root-Cause Analysis of Flaky Tests in Quantum Software

Questo lavoro presenta una pipeline automatizzata che utilizza modelli linguistici di grandi dimensioni (LLM) per rilevare e analizzare le cause profonde dei test flaky nel software quantistico, espandendo un dataset esistente e dimostrando l'efficacia di modelli come Google Gemini nel classificare tali problemi con elevata precisione.

Janakan Sivaloganathan, Ainaz Jamshidi, Andriy Miranskyy, Lei ZhangWed, 11 Ma🤖 cs.AI

PlayWorld: Learning Robot World Models from Autonomous Play

Il paper presenta PlayWorld, un sistema autonomo e scalabile che apprende modelli di mondo video ad alta fedeltà attraverso l'auto-gioco robotico non supervisionato, superando i limiti dei dati umani per prevedere interazioni fisiche complesse e migliorare le prestazioni delle politiche di controllo robotico nel mondo reale.

Tenny Yin, Zhiting Mei, Zhonghe Zheng, Miyu Yamane, David Wang, Jade Sceats, Samuel M. Bateman, Lihan Zha, Apurva Badithela, Ola Shorinwa, Anirudha MajumdarWed, 11 Ma🤖 cs.AI

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

Il documento presenta WS-Net, un framework di deep learning che combina modellazione a spazio di stato (Mamba) e un meccanismo di attenzione per segnali deboli, al fine di migliorare l'accuratezza della stima delle abbondanze nell'unmixing iperspettrale, specialmente in presenza di risposte spettrali deboli e rumore.

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun ZhouWed, 11 Ma🤖 cs.AI

Time, Identity and Consciousness in Language Model Agents

Questo articolo propone un toolkit conservativo per valutare l'identità negli agenti linguistici, distinguendo tra la capacità di parlare di un sé stabile e l'effettiva organizzazione strutturale di tale identità attraverso l'applicazione della Teoria dello Stack a tracce di scaffolding.

Elija Perrier, Michael Timothy BennettWed, 11 Ma🤖 cs.AI

EPOCH: An Agentic Protocol for Multi-Round System Optimization

Il paper introduce EPOCH, un protocollo ingegneristico che organizza l'ottimizzazione multi-round di sistemi eterogenei in fasi di costruzione della baseline e auto-miglioramento iterativo, strutturando ogni round in fasi distinte di pianificazione, implementazione e valutazione per garantire stabilità, riproducibilità e tracciabilità nei flussi di lavoro autonomi.

Zhanlin Liu, Yitao Li, Munirathnam SrikanthWed, 11 Ma🤖 cs.AI

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

Il paper presenta Sentinel, un agente AI autonomo che supera i limiti di scalabilità della sorveglianza clinica tradizionale analizzando i dati dei pazienti remoti con una sensibilità superiore a quella dei singoli medici e a un costo irrisorio, offrendo così una soluzione praticabile per ridurre la mortalità.

Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation

Il paper propone Sim2Act, un framework robusto per l'apprendimento simulazione-decisione che combina una calibrazione avversariale e una strategia di perturbazione relativa ai gruppi per migliorare l'affidabilità delle politiche in contesti critici come le catene di approvvigionamento, superando i limiti degli approcci esistenti che spesso sacrificano azioni ad alto rischio e alto rendimento.

Hongyu Cao, Jinghan Zhang, Kunpeng Liu, Dongjie Wang, Feng Xia, Haifeng Chen, Xiaohua Hu, Yanjie FuWed, 11 Ma🤖 cs.AI

A Text-Native Interface for Generative Video Authoring

Il paper presenta Doki, un'interfaccia basata sul testo che rivoluziona la creazione di video generativi consentendo agli utenti di scrivere, strutturare e modificare storie visive direttamente in un documento testuale, rendendo il processo accessibile a tutti senza la necessità di strumenti specializzati.

Xingyu Bruce Liu, Mira Dontcheva, Dingzeyu LiWed, 11 Ma🤖 cs.AI

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

Il paper presenta GST-VLA, un modello Vision-Language-Action che introduce un Tokenizzatore Spaziale Gaussiano per rappresentare le osservazioni visive come primitive 3D anisotrope e un meccanismo di ragionamento CoT sensibile alla profondità, ottenendo prestazioni superiori su compiti robotici complessi grazie a una rappresentazione geometrica strutturata e a un'architettura di azione basata sul flow-matching.

Md Selim Sarowar, Omer Tariq, Sungho KimWed, 11 Ma🤖 cs.AI

Not All News Is Equal: Topic- and Event-Conditional Sentiment from Finetuned LLMs for Aluminum Price Forecasting

Questo studio dimostra che l'integrazione di dati di sentiment estratti da un modello LLM finetunato (Qwen3) da notizie in inglese e cinese migliora significativamente la previsione dei prezzi dell'alluminio, specialmente durante i periodi di alta volatilità, superando i modelli basati esclusivamente su dati tabulari tradizionali.

Alvaro Paredes Amorin, Andre Python, Christoph WeisserWed, 11 Ma🤖 cs.AI

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

Questo articolo propone un quadro unificato per i modelli di mondo latenti nella guida automatizzata, presentando una tassonomia che organizza le rappresentazioni latenti, delineando cinque meccanismi interni fondamentali, introducendo un framework di valutazione per colmare il divario tra scenari open-loop e closed-loop e identificando le sfide aperte per sistemi decisionali verificabili ed efficienti.

Rongxiang Zeng, Yongqi DongWed, 11 Ma🤖 cs.AI

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Il paper propone un framework basato su transformer per la ricerca di casi di cancro della pelle mediante query composte da immagine e testo, che migliora le prestazioni attraverso un allineamento congiunto di rappresentazioni globali e locali, ottenendo risultati superiori rispetto agli stati dell'arte sul dataset Derm7pt.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. LeeWed, 11 Ma🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

Il paper presenta VIVID-Med, un innovativo framework che utilizza un grande modello linguistico (LLM) congelato come insegnante semantico strutturato per pre-addestrare efficientemente transformer visivi medici, ottenendo prestazioni superiori con dati ridotti e un modello finale leggero e pronto per il deployment clinico.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe QiuWed, 11 Ma🤖 cs.AI

PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

Il paper propone PM-Nav, un sistema di navigazione embodied guidato da mappe prioritarie che, trasformando le mappe ambientali in rappresentazioni semantiche e utilizzando prompt gerarchici con ragionamento a catena, risolve le sfide della navigazione in edifici funzionali con caratteristiche simili ottenendo miglioramenti significativi rispetto agli approcci esistenti.

Jiang Gao, Xiangyu Dong, Haozhou Li, Haoran Zhao, Yaoming Zhou, Xiaoguang MaWed, 11 Ma🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

Il paper presenta DexHiL, un innovativo framework "human-in-the-loop" che integra teleoperazione e campionamento dati intelligente per il post-addestramento di modelli Vision-Language-Action, migliorando significativamente l'affidabilità e il successo delle manipolazioni destre dei robot rispetto alle tecniche di affinamento offline tradizionali.

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao LianWed, 11 Ma🤖 cs.AI

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

Il modello QUSR propone una soluzione innovativa per la super-risoluzione delle immagini in scenari reali complessi, integrando un prior di qualità basato su modelli linguistici multimodali e una generazione di rumore guidata dall'incertezza per preservare i dettagli e ridurre gli artefatti.

Junjie Yin, Jiaju Li, Hanfa XingWed, 11 Ma🤖 cs.AI

Chaotic Dynamics in Multi-LLM Deliberation

Lo studio dimostra che i sistemi deliberativi multi-LLM, anche in condizioni deterministiche, possono esibire dinamiche caotiche e instabilità imprevedibili a causa della differenziazione dei ruoli e dell'eterogeneità dei modelli, rendendo essenziale l'audit di stabilità come requisito fondamentale per la loro progettazione.

Hajime Shimao, Warut Khern-am-nuai, Sung Joo KimWed, 11 Ma🤖 cs.AI

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Il paper propone un metodo di regolarizzazione basato sulla Probabilità di Necessità e Sufficienza (PNS), esteso al contesto di apprendimento incrementale di classe (CIL), che utilizza un generatore controfattuale per mitigare le collisioni tra feature causate da correlazioni spurie intra- e inter-task, garantendo così la completezza causale e la separabilità delle rappresentazioni.

Zhen Zhang, Jielei Chu, Tianrui LiWed, 11 Ma🤖 cs.AI

Deep Tabular Research via Continual Experience-Driven Execution

Il paper propone un nuovo framework agenziale per la "Deep Tabular Research" che affronta la complessità dei dati tabellari non strutturati tramite un processo decisionale in ciclo chiuso, caratterizzato da un grafo meta gerarchico, una politica di selezione consapevole delle aspettative e una memoria strutturata per l'apprendimento continuo.

Junnan Dong, Chuang Zhou, Zheng Yuan, Yifei Yu, Siyu An, Di Yin, Xing Sun, Feiyue HuangWed, 11 Ma🤖 cs.AI

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

Il paper presenta DataFactory, un framework collaborativo multi-agente che supera le limitazioni dei modelli linguistici esistenti nelle risposte a domande su tabelle, combinando un coordinatore ReAct, team specializzati per database e grafi della conoscenza, e strategie di ingegneria del contesto per ottenere significativi miglioramenti di accuratezza e riduzione delle allucinazioni su diversi benchmark.

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang ZhaoWed, 11 Ma🤖 cs.AI

← Precedente Successivo →