Automating Detection and Root-Cause Analysis of Flaky Tests in Quantum Software

Questo lavoro presenta una pipeline automatizzata che utilizza modelli linguistici di grandi dimensioni (LLM) per rilevare e analizzare le cause profonde dei test flaky nel software quantistico, espandendo un dataset esistente e dimostrando l'efficacia di modelli come Google Gemini nel classificare tali problemi con elevata precisione.

Janakan Sivaloganathan, Ainaz Jamshidi, Andriy Miranskyy, Lei ZhangWed, 11 Ma🤖 cs.AI

PlayWorld: Learning Robot World Models from Autonomous Play

Il paper presenta PlayWorld, un sistema autonomo e scalabile che apprende modelli di mondo video ad alta fedeltà attraverso l'auto-gioco robotico non supervisionato, superando i limiti dei dati umani per prevedere interazioni fisiche complesse e migliorare le prestazioni delle politiche di controllo robotico nel mondo reale.

Tenny Yin, Zhiting Mei, Zhonghe Zheng, Miyu Yamane, David Wang, Jade Sceats, Samuel M. Bateman, Lihan Zha, Apurva Badithela, Ola Shorinwa, Anirudha MajumdarWed, 11 Ma🤖 cs.AI

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

Il documento presenta WS-Net, un framework di deep learning che combina modellazione a spazio di stato (Mamba) e un meccanismo di attenzione per segnali deboli, al fine di migliorare l'accuratezza della stima delle abbondanze nell'unmixing iperspettrale, specialmente in presenza di risposte spettrali deboli e rumore.

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun ZhouWed, 11 Ma🤖 cs.AI

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

Il paper presenta Sentinel, un agente AI autonomo che supera i limiti di scalabilità della sorveglianza clinica tradizionale analizzando i dati dei pazienti remoti con una sensibilità superiore a quella dei singoli medici e a un costo irrisorio, offrendo così una soluzione praticabile per ridurre la mortalità.

Seunghwan Kim (AnsibleHealth Inc., San Francisco, USA), Tiffany H. Kung (AnsibleHealth Inc., San Francisco, USA, Stanford School of Medicine, Stanford, USA), Heena Verma (AnsibleHealth Inc., San Francisco, USA), Dilan Edirisinghe (AnsibleHealth Inc., San Francisco, USA), Kaveh Sedehi (AnsibleHealth Inc., San Francisco, USA), Johanna Alvarez (AnsibleHealth Inc., San Francisco, USA), Diane Shilling (AnsibleHealth Inc., San Francisco, USA), Audra Lisa Doyle (AnsibleHealth Inc., San Francisco, USA), Ajit Chary (AnsibleHealth Inc., San Francisco, USA), William Borden (AnsibleHealth Inc., San Francisco, USA, George Washington University, Washington, D.C., USA), Ming Jack Po (AnsibleHealth Inc., San Francisco, USA)Wed, 11 Ma🤖 cs.AI

Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation

Il paper propone Sim2Act, un framework robusto per l'apprendimento simulazione-decisione che combina una calibrazione avversariale e una strategia di perturbazione relativa ai gruppi per migliorare l'affidabilità delle politiche in contesti critici come le catene di approvvigionamento, superando i limiti degli approcci esistenti che spesso sacrificano azioni ad alto rischio e alto rendimento.

Hongyu Cao, Jinghan Zhang, Kunpeng Liu, Dongjie Wang, Feng Xia, Haifeng Chen, Xiaohua Hu, Yanjie FuWed, 11 Ma🤖 cs.AI

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

Il paper presenta GST-VLA, un modello Vision-Language-Action che introduce un Tokenizzatore Spaziale Gaussiano per rappresentare le osservazioni visive come primitive 3D anisotrope e un meccanismo di ragionamento CoT sensibile alla profondità, ottenendo prestazioni superiori su compiti robotici complessi grazie a una rappresentazione geometrica strutturata e a un'architettura di azione basata sul flow-matching.

Md Selim Sarowar, Omer Tariq, Sungho KimWed, 11 Ma🤖 cs.AI

Not All News Is Equal: Topic- and Event-Conditional Sentiment from Finetuned LLMs for Aluminum Price Forecasting

Questo studio dimostra che l'integrazione di dati di sentiment estratti da un modello LLM finetunato (Qwen3) da notizie in inglese e cinese migliora significativamente la previsione dei prezzi dell'alluminio, specialmente durante i periodi di alta volatilità, superando i modelli basati esclusivamente su dati tabulari tradizionali.

Alvaro Paredes Amorin, Andre Python, Christoph WeisserWed, 11 Ma🤖 cs.AI

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

Questo articolo propone un quadro unificato per i modelli di mondo latenti nella guida automatizzata, presentando una tassonomia che organizza le rappresentazioni latenti, delineando cinque meccanismi interni fondamentali, introducendo un framework di valutazione per colmare il divario tra scenari open-loop e closed-loop e identificando le sfide aperte per sistemi decisionali verificabili ed efficienti.

Rongxiang Zeng, Yongqi DongWed, 11 Ma🤖 cs.AI

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Il paper propone un framework basato su transformer per la ricerca di casi di cancro della pelle mediante query composte da immagine e testo, che migliora le prestazioni attraverso un allineamento congiunto di rappresentazioni globali e locali, ottenendo risultati superiori rispetto agli stati dell'arte sul dataset Derm7pt.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. LeeWed, 11 Ma🤖 cs.AI

PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

Il paper propone PM-Nav, un sistema di navigazione embodied guidato da mappe prioritarie che, trasformando le mappe ambientali in rappresentazioni semantiche e utilizzando prompt gerarchici con ragionamento a catena, risolve le sfide della navigazione in edifici funzionali con caratteristiche simili ottenendo miglioramenti significativi rispetto agli approcci esistenti.

Jiang Gao, Xiangyu Dong, Haozhou Li, Haoran Zhao, Yaoming Zhou, Xiaoguang MaWed, 11 Ma🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

Il paper presenta DexHiL, un innovativo framework "human-in-the-loop" che integra teleoperazione e campionamento dati intelligente per il post-addestramento di modelli Vision-Language-Action, migliorando significativamente l'affidabilità e il successo delle manipolazioni destre dei robot rispetto alle tecniche di affinamento offline tradizionali.

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao LianWed, 11 Ma🤖 cs.AI

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Il paper propone un metodo di regolarizzazione basato sulla Probabilità di Necessità e Sufficienza (PNS), esteso al contesto di apprendimento incrementale di classe (CIL), che utilizza un generatore controfattuale per mitigare le collisioni tra feature causate da correlazioni spurie intra- e inter-task, garantendo così la completezza causale e la separabilità delle rappresentazioni.

Zhen Zhang, Jielei Chu, Tianrui LiWed, 11 Ma🤖 cs.AI

Deep Tabular Research via Continual Experience-Driven Execution

Il paper propone un nuovo framework agenziale per la "Deep Tabular Research" che affronta la complessità dei dati tabellari non strutturati tramite un processo decisionale in ciclo chiuso, caratterizzato da un grafo meta gerarchico, una politica di selezione consapevole delle aspettative e una memoria strutturata per l'apprendimento continuo.

Junnan Dong, Chuang Zhou, Zheng Yuan, Yifei Yu, Siyu An, Di Yin, Xing Sun, Feiyue HuangWed, 11 Ma🤖 cs.AI

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

Il paper presenta DataFactory, un framework collaborativo multi-agente che supera le limitazioni dei modelli linguistici esistenti nelle risposte a domande su tabelle, combinando un coordinatore ReAct, team specializzati per database e grafi della conoscenza, e strategie di ingegneria del contesto per ottenere significativi miglioramenti di accuratezza e riduzione delle allucinazioni su diversi benchmark.

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang ZhaoWed, 11 Ma🤖 cs.AI