cs.AI articoli | Gist.Science

MHDash: An Online Platform for Benchmarking Mental Health-Aware AI Assistants

Il paper presenta MHDash, una piattaforma open-source progettata per il benchmarking e l'audit di assistenti AI consapevoli della salute mentale, evidenziando come le valutazioni aggregate tradizionali siano insufficienti per rilevare i fallimenti critici nei casi ad alto rischio e nelle interazioni multi-turno.

Yihe Zhang, Cheyenne N Mohawk, Kaiying Han + 3 more2026-03-12🤖 cs.AI

Hallucination is a Consequence of Space-Optimality: A Rate-Distortion Theorem for Membership Testing

Questo lavoro teorizza che l'allucinazione nei modelli linguistici è una conseguenza inevitabile dell'ottimizzazione dello spazio di memoria, dimostrando attraverso un teorema di rate-distorsione che, in condizioni di capacità limitata, la strategia informazionalmente ottimale richiede di assegnare alta confidenza a fatti non veri piuttosto che astenersi o dimenticare.

Anxin Guo, Jingwei Li2026-03-12💬 cs.CL

Evaluating Long-Horizon Memory for Multi-Party Collaborative Dialogues

Il paper introduce EverMemBench, il primo benchmark progettato per valutare la memoria a lungo termine nei dialoghi collaborativi multi-attore, rivelando le limitazioni fondamentali dei sistemi attuali nell'attribuzione multi-attore, nel ragionamento temporale e nella consapevolezza della memoria in contesti realistici complessi.

Chuanrui Hu, Tong Li, Xingze Gao, Hongda Chen, Yi Bai, Dannong Xu, Tianwei Lin, Xiaohong Li, Yunyun Han, Jian Pei, Yafeng Deng2026-03-12💬 cs.CL

Moving On, Even When You're Broken: Fail-Active Trajectory Generation via Diffusion Policies Conditioned on Embodiment and Task

Il paper presenta DEFT, un generatore di traiettorie basato su diffusione che permette ai robot di completare i compiti in modo sicuro anche in caso di guasti agli attuatori, superando significativamente i metodi classici sia in simulazione che nel mondo reale grazie alla sua capacità di generalizzare a condizioni di malfunzionamento non viste durante l'addestramento.

Gilberto G. Briscoe-Martinez, Yaashia Gautam, Rahul Shetty, Anuj Pasricha, Marco M. Nicotra, Alessandro Roncone2026-03-12🤖 cs.AI

DMS2F-HAD: A Dual-branch Mamba-based Spatial-Spectral Fusion Network for Hyperspectral Anomaly Detection

Il paper presenta DMS2F-HAD, una rete innovativa basata su Mamba con due rami e fusione dinamica che supera le tecniche esistenti per la rilevazione di anomalie iperspettrali, offrendo prestazioni all'avanguardia e un'efficienza computazionale significativamente superiore.

Aayushma Pant, Lakpa Tamang, Tsz-Kwan Lee + 1 more2026-03-12🤖 cs.AI

Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

Questo articolo presenta FGO, un algoritmo di apprendimento per rinforzo che comprime in modo efficiente il ragionamento a catena di pensiero (CoT) nei modelli linguistici di grandi dimensioni, risolvendo al contempo le limitazioni di GRPO relative all'uso dei dati e al collasso dell'entropia senza compromettere le prestazioni.

Xinchen Han, Hossam Afifi, Michel Marot, Xilu Wang, Lu Yin2026-03-12🤖 cs.LG

UniWeTok: An Unified Binary Tokenizer with Codebook Size $\mathit{2^{128}}$ for Unified Multimodal Large Language Model

Il paper presenta UniWeTok, un tokenizzatore binario unificato con un codice di dimensione $2^{128}$ e un'architettura ibrida che, grazie a nuove tecniche di distillazione e formazione, supera lo stato dell'arte nella ricostruzione ad alta fedeltà, nell'estrazione semantica e nella generazione di immagini con un costo computazionale significativamente inferiore.

Shaobin Zhuang, Yuang Ai, Jiaming Han, Weijia Mao, Xiaohui Li, Fangyikang Wang, Xiao Wang, Yan Li, Shanchuan Lin, Kun Xu, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen, Yali Wang2026-03-12🤖 cs.AI

TikArt: Stabilizing Aperture-Guided Fine-Grained Visual Reasoning with Reinforcement Learning

Il paper presenta TikArt, un agente multimodale basato su reinforcement learning che stabilizza il ragionamento visivo fine-granulare attraverso un ciclo "Pensa-Apertura-Osserva" che combina zoom e segmentazione per acquisire evidenze locali in modo sequenziale e interpretabile.

Hao Ding, Zhichuan Yang, Weijie Ge, Ziqin Gao, Chaoyi Lu, Lei Zhao2026-03-12🤖 cs.AI

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

Il paper presenta GOT-JEPA, un framework di pre-addestramento basato su un'architettura predittiva a embedding congiunto che migliora la generalizzazione e la gestione delle occlusioni nel tracciamento generico di oggetti, integrando un modulo chiamato OccuSolver per stimare la visibilità e affinare i modelli di tracciamento in ambienti dinamici.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-12🤖 cs.AI

Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

Questo studio dimostra che gli analisti AI autonomi possono replicare a basso costo la diversità analitica umana, rivelando come le scelte metodologiche influenzino i risultati e proponendo nuove norme di trasparenza che includano la segnalazione multiverso e la divulgazione completa dei prompt.

Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu2026-03-12🤖 cs.AI

No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection

Il paper presenta LAVIDA, un framework end-to-end per la rilevazione di anomalie video in zero-shot che utilizza un Multimodal Large Language Model (MLLM) e un campionatore di esposizione alle anomalie addestrato esclusivamente su dati sintetici per raggiungere prestazioni all'avanguardia su diversi benchmark.

Zunkai Dai, Ke Li, Jiajia Liu, Jie Yang, Yuanyuan Qiao2026-03-12🤖 cs.AI

PatchDenoiser: Parameter-efficient multi-scale patch learning and fusion denoiser for Low-dose CT imaging

Il paper presenta PatchDenoiser, un framework di denoising ultra-leggero ed efficiente basato su patch multi-scala che, superando i limiti dei metodi tradizionali e delle architetture profonde, elimina il rumore nelle immagini TC a bassa dose preservando i dettagli anatomici con una ridotta complessità computazionale e un consumo energetico significativamente inferiore.

Jitindra Fartiyal, Pedro Freire, Sergei K. Turitsyn, Sergei G. Solovski2026-03-12🤖 cs.AI

Adversarial Hubness Detector: Detecting Hubness Poisoning in Retrieval-Augmented Generation Systems

Il paper introduce Hubscan, uno scanner di sicurezza open-source progettato per rilevare il "hubness poisoning" nei sistemi Retrieval-Augmented Generation (RAG) attraverso un'architettura multi-rilevatore che combina analisi statistiche, valutazioni di stabilità e adattabilità a diversi database vettoriali, ottenendo prestazioni elevate nel identificare contenuti dannosi su benchmark e dataset reali.

Idan Habler, Vineeth Sai Narajala, Stav Koren, Amy Chang, Tiffany Saade2026-03-12🤖 cs.AI

AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation

Il paper presenta AMLRIS, una strategia di apprendimento mascherato consapevole dell'allineamento che migliora la segmentazione di immagini riferite filtrando i pixel non allineati durante l'addestramento senza richiedere modifiche architetturali o overhead inferenziale.

Tongfei Chen, Shuo Yang, Yuguang Yang, Linlin Yang, Runtang Guo, Changbai Li, He Long, Chunyu Xie, Dawei Leng, Baochang Zhang2026-03-12🤖 cs.AI

A Minimal Agent for Automated Theorem Proving

Il paper propone un agente minimale per la dimostrazione automatica di teoremi che, pur adottando un'architettura semplificata rispetto agli stati dell'arte, ottiene prestazioni competitive grazie a un approccio iterativo che migliora l'efficienza dei campioni e riduce i costi, rendendo il codice sorgente disponibile come riferimento open-source per la comunità.

Borja Requena, Austin Letson, Krystian Nowakowski, Izan Beltran Ferreiro, Leopoldo Sarra2026-03-12🤖 cs.AI

Defensive Refusal Bias: How Safety Alignment Fails Cyber Defenders

Il documento rivela che l'allineamento alla sicurezza dei modelli linguistici di grandi dimensioni genera un "pregiudizio di rifiuto difensivo", portandoli a negare ingiustificatamente assistenza a compiti legittimi di cybersecurity quando questi contengono termini sensibili, un problema che peggiora con le autorizzazioni esplicite e che richiede un approccio basato sull'intento piuttosto che sulla semplice similarità semantica.

David Campbell, Neil Kale, Udari Madhushani Sehwag, Bert Herring, Nick Price, Dan Borges, Alex Levinson, Christina Q Knight2026-03-12🤖 cs.AI

CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework

Il paper introduce CARE, un framework agentico che migliora l'accountability clinica nel ragionamento medico multimodale decomponendo il compito in moduli specializzati per l'estrazione di evidenze visive e l'uso di ricompense verificabili, ottenendo prestazioni superiori rispetto agli stati dell'arte.

Yuexi Du, Jinglu Wang, Shujie Liu, Nicha C. Dvornek, Yan Lu2026-03-12🤖 cs.AI

SEED-SET: Scalable Evolving Experimental Design for System-level Ethical Testing

Il paper propone SEED-SET, un framework di progettazione sperimentale bayesiana che combina valutazioni oggettive e giudizi soggettivi degli stakeholder per testare in modo scalabile ed efficiente l'allineamento etico dei sistemi autonomi in ambiti ad alto rischio.

Anjali Parashar, Yingke Li, Eric Yang Yu, Fei Chen, James Neidhoefer, Devesh Upadhyay, Chuchu Fan2026-03-12📊 stat

BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation

Il paper introduce BrandFusion, un innovativo framework multi-agente che risolve le sfide dell'integrazione di marchi nei video generati da testo, garantendo al contempo la fedeltà semantica, il riconoscimento del brand e un inserimento contestuale naturale per abilitare la monetizzazione commerciale.

Zihao Zhu, Ruotong Wang, Siwei Lyu, Min Zhang, Baoyuan Wu2026-03-12🤖 cs.AI

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Questo studio presenta la prima valutazione completa del fine-tuning efficiente dei parametri (PEFT) per l'analisi del codice multitasking, dimostrando che un singolo modulo PEFT condiviso può eguagliare o superare il fine-tuning completo offrendo un ottimo compromesso tra prestazioni e efficienza, pur essendo il successo dipendente da fattori come la stabilità del compito e la complementarità, e superando le capacità di modelli LLM generici di grandi dimensioni in compiti di analisi.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

← Precedente Successivo →

cs.AI