Integrating a Causal Foundation Model into a Prescriptive Maintenance Framework for Optimising Production-Line OEE

Questo articolo propone l'integrazione di un modello fondazionale causale pre-addestrato in un framework di manutenzione prescrittiva per simulare interventi e ottimizzare l'efficienza complessiva degli impianti (OEE), superando i limiti delle sole correlazioni statistiche per identificare le vere cause radice dei guasti.

Felix Saretzky, Lucas Andersen, Thomas Engel, Fazel Ansari2026-03-10💻 cs

HiconAgent: History Context-aware Policy Optimization for GUI Agents

Il paper introduce HiconAgent, un agente GUI che utilizza l'ottimizzazione della politica consapevole del contesto storico (HCPO) per migliorare l'efficienza e le prestazioni nei compiti di navigazione riducendo il carico computazionale attraverso il campionamento dinamico del contesto e la compressione della storia guidata da ancoraggi.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Questo studio rivela che nei modelli linguistici visivi profondi le informazioni dei token visivi si esauriscono oltre una certa "orizzonte informativo", rendendo la rimozione casuale dei token nelle fasi avanzate più efficace dei metodi di pruning esistenti e permettendo di ottenere risultati all'avanguardia riducendo del 50% i token visivi.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

Questo studio analizza le discrepanze tra la percezione soggettiva e la misurazione oggettiva del verde urbano in cinque paesi, rivelando che, sebbene i dati demografici e la personalità non influenzino significativamente la percezione, il luogo di residenza dell'individuo è il fattore determinante che modella come le persone osservano il verde nelle città.

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

VOIC: Visible-Occluded Integrated Guidance for 3D Semantic Scene Completion

Il paper presenta VOIC, un nuovo framework a doppio decodificatore che risolve il problema della diluizione delle caratteristiche nella completazione semantica di scene 3D da singola immagine separando esplicitamente la percezione delle regioni visibili dal ragionamento sulle regioni occluse, ottenendo così prestazioni state-of-the-art sui benchmark SemanticKITTI e SSCBench-KITTI360.

Zaidao Han, Risa Higashita, Jiang Liu2026-03-10💻 cs

Cost Trade-offs of Reasoning and Non-Reasoning Large Language Models in Text-to-SQL

Questo studio dimostra che, nel contesto delle query Text-to-SQL su Google BigQuery, i modelli di ragionamento offrono un'efficienza dei costi superiore rispetto ai modelli non di ragionamento, poiché riducono significativamente il consumo di dati mantenendo un'accuratezza equivalente, mentre evidenzia che l'ottimizzazione della velocità non garantisce l'efficienza economica a causa di una debole correlazione tra tempo di esecuzione e costi cloud.

Saurabh Deochake, Debajyoti Mukhopadhyay2026-03-10💻 cs

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

Il paper presenta DrivingGen, il primo benchmark completo per i modelli di mondo generativi nella guida autonoma, che combina un dataset diversificato e nuove metriche per valutare realisticamente la coerenza temporale, la plausibilità delle traiettorie e il controllo, colmando le lacune delle valutazioni attuali e guidando lo sviluppo di simulatori affidabili.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

Il paper presenta R^4, un framework agenziale auto-migliorante che, attraverso le fasi di instradamento, recupero, riflessione e riparazione, potenzia significativamente l'accuratezza e la sicurezza dei modelli visione-linguaggio nell'analisi delle immagini mediche senza richiedere alcun fine-tuning basato su gradienti.

Md. Faiyaz Abdullah Sayeedi, Rashedur Rahman, Siam Tahsin Bhuiyan, Sefatul Wasi, Ashraful Islam, Saadia Binte Alam, AKM Mahbubur Rahman2026-03-10💻 cs

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Questo studio rivela come il predittore LAION-Aesthetics, ampiamente utilizzato per addestrare modelli di generazione di immagini, perpetui pregiudizi culturali e di genere attraverso un "sguardo algoritmico" che privilegia canoni estetici occidentali e maschili, escludendo altre prospettive e richiedendo un passaggio verso valutazioni più pluralistiche.

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

Questo paper introduce un'architettura di sicurezza per gli agenti di uso informatico basata sulla pianificazione "single-shot" e sull'isolamento strutturale, che garantisce l'integrità del flusso di controllo contro gli attacchi di iniezione di prompt e di deviazione dei rami, permettendo di conciliare sicurezza rigorosa e utilità operativa senza compromettere le prestazioni.

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao2026-03-10💻 cs