cs.AI articoli | Gist.Science

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

Il paper presenta BlackMirror, un framework innovativo e senza addestramento per il rilevamento di backdoor nei modelli text-to-image in scenari black-box, che individua anomalie semantiche tramite l'allineamento tra istruzioni e risposte visive invece di basarsi sulla similarità delle immagini generate.

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang2026-03-09🤖 cs.AI

RAC: Rectified Flow Auto Coder

Il paper introduce RAC (Rectified Flow Auto Coder), un'architettura ispirata al Rectified Flow che sostituisce i VAE tradizionali offrendo decodifica multi-passo correggibile, inferenza bidirezionale con riduzione dei parametri e una qualità generativa superiore a costi computazionali inferiori.

Sen Fang, Yalin Feng, Yanxin Zhang, Dimitris N. Metaxas2026-03-09🤖 cs.AI

Addressing the Ecological Fallacy in Larger LMs with Human Context

Questo studio dimostra che modellare il contesto linguistico dell'autore, affrontando la fallacia ecologica tramite tecniche come HuLM e HuFT, migliora significativamente le prestazioni di un modello Llama da 8 miliardi di parametri rispetto ai metodi di addestramento standard.

Nikita Soni, Dhruv Vijay Kunjadiya, Pratham Piyush Shah, Dikshya Mohanty, H. Andrew Schwartz, Niranjan Balasubramanian2026-03-09🤖 cs.AI

Facial Expression Recognition Using Residual Masking Network

Questo articolo propone una nuova Rete di Mascheramento Residuale che combina reti neurali residue e un'architettura simile a Unet per migliorare il riconoscimento delle espressioni facciali, ottenendo risultati all'avanguardia sui dataset FER2013 e VEMO.

Luan Pham, The Huynh Vu, Tuan Anh Tran2026-03-09🤖 cs.AI

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

Questo lavoro presenta un approccio sistematico di XAI che trasforma le tracce di esecuzione grezze degli agenti di codifica basati su LLM in spiegazioni strutturate e visuali, migliorando significativamente la velocità e l'accuratezza con cui gli utenti identificano le cause degli errori e propongono soluzioni rispetto all'uso di tracce non elaborate o spiegazioni ad hoc.

Arun Joshi2026-03-09🤖 cs.AI

Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models

Il paper presenta E-AdaPrune, un framework di pruning adattivo guidato dall'energia che ottimizza l'efficienza dei modelli visione-linguaggio allocando dinamicamente il budget dei token in base alla densità informativa delle immagini, ottenendo prestazioni superiori senza parametri aggiuntivi.

Jialuo He, Huangxun Chen2026-03-09🤖 cs.AI

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

Il paper presenta modelli interpretabili che integrano tratti psicologici individuali e contesti situazionali, derivati da dati social media e teorie psicologiche, per prevedere il benessere mentale e identificare stati di sé adattivi o maladattivi, dimostrando che gli approcci basati sulla teoria offrono prestazioni competitive e maggiore trasparenza rispetto alle sole rappresentazioni vettoriali dei modelli linguistici.

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Domain-Adaptive Model Merging across Disconnected Modes

Il paper presenta DMM, un framework di fusione di modelli privo di dati che, attraverso la sintesi di pseudo-dati e la distillazione della conoscenza, integra efficacemente modelli addestrati su domini diversi preservando le informazioni critiche senza necessità di condividere i dati originali.

Junming Liu, Yusen Zhang, Rongchao Zhang, Wenkai Zhu, Tian Wu2026-03-09🤖 cs.AI

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

Il paper introduce S2I (Skeleton-to-Image Encoding), un nuovo metodo che trasforma le sequenze scheletriche in dati simili a immagini per sfruttare modelli di visione pre-addestrati su larga scala, permettendo così un apprendimento di rappresentazione auto-supervisionato efficace e generalizzabile per l'analisi dello scheletro umano.

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

Il paper presenta ProCap, un nuovo framework che rivoluziona la descrizione dei cambiamenti (change captioning) passando dal confronto statico di coppie di immagini alla modellazione dinamica delle procedure di trasformazione, utilizzando un encoder addestrato su fotogrammi chiave intermedi e query apprendibili per generare descrizioni testuali che spiegano non solo cosa è cambiato, ma anche come è avvenuto.

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

An Interactive Multi-Agent System for Evaluation of New Product Concepts

Questo studio propone un sistema multi-agente basato su modelli linguistici di grandi dimensioni, composto da otto agenti virtuali specializzati che utilizzano RAG e strumenti di ricerca per valutare oggettivamente la fattibilità tecnica e commerciale di nuovi concetti di prodotto, dimostrando attraverso un caso studio che i risultati sono allineati con il giudizio di esperti del settore.

Bin Xuan, Ruo Ai, Hakyeon Lee2026-03-09🤖 cs.AI

Technical Report: Automated Optical Inspection of Surgical Instruments

Questo rapporto presenta un sistema di ispezione ottica automatizzata basato su architetture di deep learning (YOLOv8, ResNet-152 ed EfficientNet-b4) e un nuovo dataset di 4.414 immagini, sviluppato in collaborazione con leader dell'industria di Sialkot per rilevare difetti critici negli strumenti chirurgici pakistani e garantire la sicurezza dei pazienti.

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

TADPO: Reinforcement Learning Goes Off-road

Il paper introduce TADPO, un nuovo sistema di apprendimento per rinforzo basato su visione che combina traiettorie on-policy e off-policy per la guida off-road ad alta velocità, dimostrando per la prima volta il trasferimento zero-shot da simulazione a un veicolo reale a pieno scala.

Zhouchonghao Wu, Raymond Song, Vedant Mundheda, Luis E. Navarro-Serment, Christof Schoenborn, Jeff Schneider2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

Il paper presenta MM-ISTS, un framework multimodale che sfrutta modelli linguistici visione-testo per migliorare le previsioni delle serie temporali a campionamento irregolare integrando dati temporali, visivi e testuali attraverso un meccanismo di codifica innovativo e un modulo di allineamento adattivo.

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

Questo paper introduce ICBench per diagnosticare la "cecità linguistica" nei modelli VLA, che ignorano le istruzioni contraddittorie favorendo le priorità visive, e propone IGAR, un metodo senza riaddestramento che ripristina l'attenzione alle istruzioni durante l'inferenza per prevenire azioni errate.

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

Demystifying KAN for Vision Tasks: The RepKAN Approach

Il paper presenta RepKAN, una nuova architettura per la classificazione di immagini di telerilevamento che combina l'efficienza delle CNN con la potenza rappresentativa dei KAN per ottenere modelli ad alte prestazioni e fisicamente interpretabili, superando lo stato dell'arte su dataset come EuroSAT e NWPU-RESISC45.

Minjong Cheon2026-03-09🤖 cs.AI

MASFactory: A Graph-centric Framework for Orchestrating LLM-Based Multi-Agent Systems with Vibe Graphing

Il paper presenta MASFactory, un framework centrato sui grafi per orchestrare sistemi multi-agente basati su LLM che introduce il "Vibe Graphing", un approccio interattivo che traduce intenti in linguaggio naturale in flussi di lavoro eseguibili, facilitando la riutilizzabilità, l'integrazione di contesti eterogenei e la visualizzazione del processo.

Yang Liu, Jinxuan Cai, Yishen Li, Qi Meng, Zedi Liu, Xin Li, Chen Qian, Chuan Shi, Cheng Yang2026-03-09🤖 cs.AI

Sensitivity-Aware Retrieval-Augmented Intent Clarification

Questo articolo propone un approccio in tre fasi per sviluppare agenti conversazionali di chiarimento dell'intento potenziati dalla ricerca, che agiscano come mediatori sicuri per collezioni di dati sensibili (come in ambito sanitario o legale) definendo modelli di attacco, progettando difese specifiche e valutando il compromesso tra protezione e utilità del sistema.

Maik Larooij2026-03-09🤖 cs.AI

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Questo studio analizza le attivazioni intermedie dei modelli visione-linguaggio per l'automazione stradale, identificando che i fallimenti derivano sia da incapacità percettive (mancata codifica lineare di concetti visivi come l'orientamento) sia da errori cognitivi (mancato allineamento tra informazioni visive e semantica linguistica), con una ridotta separabilità dei concetti all'aumentare della distanza degli oggetti.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Il paper introduce TempoSyncDiff, un framework di diffusione latente basato su distillazione che genera volti parlanti guidati dall'audio con alta fedeltà temporale e bassa latenza, rendendo possibile il loro utilizzo su dispositivi edge.

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

← Precedente Successivo →