cs articoli | Gist.Science

Cluster-Aware Attacks on Graph Watermarks

Questo articolo introduce la prima valutazione sistematica di attacchi consapevoli dei cluster contro i filigrane dei grafi, dimostrando che gli avversari che sfruttano la struttura comunitaria possono compromettere l'accuratezza dell'attribuzione con una distorsione strutturale inferiore rispetto alle perturbazioni casuali, rivelando così la vulnerabilità degli attuali schemi di protezione.

Alexander Nemecek, Emre Yilmaz, Erman Ayday2026-03-12💻 cs

Unsupervised training of keypoint-agnostic descriptors for flexible retinal image registration

Questo lavoro propone un nuovo metodo di apprendimento non supervisionato per descrittori di immagini retiniche agnostici rispetto al rilevatore di punti chiave, ottenendo prestazioni di registrazione accurate e paragonabili ai metodi supervisionati senza richiedere dati etichettati.

David Rivas-Villar, Álvaro S. Hervella, José Rouco, Jorge Novo2026-03-12💻 cs

Average Calibration Losses for Reliable Uncertainty in Medical Image Segmentation

Questo lavoro propone l'uso di formulazioni differenziabili dell'errore medio di calibrazione L1 (mL1-ACE) come funzione di perdita ausiliaria per migliorare l'affidabilità e la calibrazione delle reti neurali nella segmentazione di immagini mediche, offrendo un controllo esplicito sul compromesso tra accuratezza e calibrazione senza compromettere significativamente le prestazioni di segmentazione.

Theodore Barfoot, Luis C. Garcia-Peraza-Herrera, Samet Akcay, Ben Glocker, Tom Vercauteren2026-03-12💻 cs

SOTA: Self-adaptive Optimal Transport for Zero-Shot Classification with Multiple Foundation Models

Il paper propone SOTA, un framework di ensemble senza addestramento che integra in modo auto-adattivo le uscite di molteplici modelli fondazionali (VLM e VFM) tramite trasporto ottimo per migliorare la classificazione zero-shot sfruttando i punti di forza complementari di ciascun modello.

Zhanxuan Hu, Qiyu Xu, Yu Duan, Yonghang Tai, Huafeng Li2026-03-12💻 cs

Community Notes undermoderate polarizing content by design creating risks in electoral processes

Lo studio rivela che, sebbene l'algoritmo di Community Notes di X riesca a identificare le dimensioni polarizzanti e selezionare note trasversali, il suo stesso meccanismo di progettazione porta a una sistematica sottoregolamentazione dei contenuti polarizzanti, creando rischi significativi per i processi elettorali in diversi paesi.

Paul Bouchaud, Pedro Ramaciotti2026-03-12💻 cs

Shiksha Copilot: Teacher-AI Collaboration for Curating and Customizing Lesson Plans in Low-Resource Schools

Questo studio analizza l'impatto di Shiksha Copilot, uno strumento di intelligenza artificiale collaborativa per la creazione di piani di lezione, nelle scuole governative del Karnataka, India, evidenziando come esso riduca il carico burocratico e lo stress degli insegnanti promuovendo al contempo una didattica basata sulle attività, pur rimanendo limitato da sfide sistemiche come la carenza di personale.

Deepak Varuvel Dennison, Bakhtawar Ahtisham, Kavyansh Chourasia, Nirmit Arora, Rahul Singh, Rene F. Kizilcec, Akshay Nambi, Tanuja Ganu, Aditya Vashistha2026-03-12💻 cs

A Survey on Interpretability in Visual Recognition

Questo articolo offre una panoramica sistematica sull'interpretabilità nei modelli di riconoscimento visivo, presentando una tassonomia multidimensionale centrata sull'uomo, valutazioni qualitative e quantitative, e un'analisi delle prospettive future nell'ambito dell'IA spiegabile e dei modelli linguistici multimodali.

Qiyang Wan, Chengzhi Gao, Ruiping Wang, Xilin Chen2026-03-12💻 cs

Getting Python Types Right with RightTyper

Il documento presenta RightTyper, un approccio ibrido innovativo che genera annotazioni di tipo Python precise e affidabili basandosi sul comportamento effettivo del programma, superando i limiti dei metodi statici, dinamici e basati sull'IA con un sovraccarico di esecuzione ridotto a circa il 27%.

Juan Altmayer Pizzorno, Emery D. Berger2026-03-12💻 cs

Recommender systems, representativeness, and online music: a psychosocial analysis of Italian listeners

Questo studio analizza le percezioni di ascoltatori italiani riguardo ai sistemi di raccomandazione musicale, rivelando una mancanza di consapevolezza critica sul funzionamento degli algoritmi e sulle questioni di rappresentazione di genere, e sottolineando la necessità di integrare prospettive psicosociali nella progettazione di sistemi più affidabili e culturalmente sensibili.

Lorenzo Porcaro, Chiara Monaldi2026-03-12💻 cs

Content-Aware Mamba for Learned Image Compression

Il paper presenta Content-Aware Mamba (CAM), un nuovo modello di stato-spazio che supera i limiti delle scansioni rigide tradizionali adattando dinamicamente l'elaborazione al contenuto dell'immagine, permettendo al sistema di compressione CMIC di raggiungere prestazioni state-of-the-art superiori a VTM-21.0 su diversi dataset.

Yunuo Chen, Zezheng Lyu, Bing He, Hongwei Hu, Qi Wang, Yuan Tian, Li Song, Wenjun Zhang, Guo Lu2026-03-12💻 cs

Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

Questo lavoro presenta il primo dataset open-source su larga scala e nuovi modelli per la conversione di equazioni e frasi matematiche parlate in LaTeX, superando significativamente le prestazioni dei metodi precedenti su benchmark specifici per l'inglese e il russo.

Dmitrii Korzh, Dmitrii Tarasov, Artyom Iudin, Elvir Karimov, Matvey Skripkin, Nikita Kuzmin, Andrey Kuznetsov, Oleg Y. Rogov, Ivan Oseledets2026-03-12💻 cs

What Do Agents Think One Another Want? Level-2 Inverse Games for Inferring Agents' Estimates of Others' Objectives

Questo articolo propone un nuovo quadro di inferenza di livello 2 per dedurre le credenze degli agenti sugli obiettivi altrui, superando i limiti dei metodi tradizionali di livello 1 che assumono una conoscenza completa e condivisa, e dimostra la sua efficacia nel rilevare disallineamenti strategici in scenari reali come la guida urbana.

Hamzah I. Khan, Jingqi Li, David Fridovich-Keil2026-03-12💻 cs

DSER: Spectral Epipolar Representation for Efficient Light Field Depth Estimation

Il paper propone DSER, un framework geometrico-aware che utilizza la regolarizzazione spettrale nel dominio epipolare e un'architettura ibrida di inferenza per ottenere una stima della profondità da campi luminosi densa, precisa ed efficiente, superando le sfide legate a campionamento angolare sparso, occlusioni e regioni senza texture.

Noor Islam S. Mohammad, Md Muntaqim Meherab2026-03-12💻 cs

From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations

Questo studio presenta la prima valutazione sistematica su soggetti umani che dimostra come i modelli linguistici di grandi dimensioni (LLM) possano assistere efficacemente nella derivazione di specifiche comportamentali Gherkin da normative sulla sicurezza alimentare, pur richiedendo una revisione umana sistematica per correggere omissioni e allucinazioni.

Shabnam Hassani, Mehrdad Sabetzadeh, Daniel Amyot2026-03-12💻 cs

Pixel Motion Diffusion is What We Need for Robot Control

Il paper presenta DAWN, un framework unificato basato sulla diffusione che utilizza una rappresentazione strutturata del movimento dei pixel per il controllo robotico guidato dal linguaggio, ottenendo risultati all'avanguardia su benchmark come CALVIN e MetaWorld e dimostrando una efficace trasferibilità nel mondo reale con un minimo fine-tuning.

E-Ro Nguyen, Yichi Zhang, Kanchana Ranasinghe, Xiang Li, Michael S. Ryoo2026-03-12💻 cs

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

Il paper presenta Dolphin, un metodo efficiente per la separazione del parlato audio-visivo che utilizza un codificatore video leggero basato su semantica labiale discreta e un meccanismo di attenzione globale-locale multi-scala, ottenendo prestazioni superiori allo stato dell'arte con una significativa riduzione dei parametri e del tempo di inferenza.

Kai Li, Kejun Gao, Xiaolin Hu2026-03-12💻 cs

PD-Diag-Net: Clinical-Priors guided Network on Brain MRI for Auxiliary Diagnosis of Parkinson's Disease

Il paper presenta PD-Diag-Net, un metodo di diagnosi automatica end-to-end per il morbo di Parkinson basato su risonanza magnetica cerebrale che integra conoscenze cliniche prioritarie per migliorare l'accuratezza diagnostica e l'interpretabilità, ottenendo risultati superiori rispetto agli stati dell'arte sia su dati esterni che nella diagnosi precoce.

Shuai Shao, Yan Wang, Shu Jiang, Shiyuan Zhao, Di Yang, Jiangtao Wang, Yutong Bai, Jianguo Zhang2026-03-12💻 cs

Seeing Space and Motion: Enhancing Latent Actions with Geometric and Dynamic Awareness for Vision-Language-Action Models

Il paper presenta Farsighted-LAM e SSM-VLA, nuovi framework che migliorano i modelli Vision-Language-Action integrando codifica spaziale geometrica, modellazione temporale multi-scala e un modulo di ragionamento visivo per superare le limitazioni nella comprensione spaziale e temporale, ottenendo prestazioni state-of-the-art in simulazione e nel mondo reale.

Zhejia Cai, Yandan Yang, Xinyuan Chang, Shiyi Liang, Ronghan Chen, Feng Xiong, Mu Xu, Ruqi Huang2026-03-12💻 cs

Adaptive Event Stream Slicing for Open-Vocabulary Event-Based Object Detection via Vision-Language Knowledge Distillation

Il paper propone un framework di distillazione della conoscenza che combina modelli visione-linguaggio, reti neurali convoluzionali e una rete neurale a impulsi adattiva per abilitare il rilevamento di oggetti a vocabolario aperto su dati di eventi, superando la mancanza di informazioni testurali e preservando le caratteristiche temporali critiche.

Jinchang Zhang, Zijun Li, Jiakai Lin, Guoyu Lu2026-03-12💻 cs

Equivariant Splitting: Self-supervised learning from incomplete data

Il paper propone una nuova strategia di apprendimento auto-supervisionato basata su una definizione di equivarianza e su perdite di splitting, che permette di ottenere stime imparziali della funzione di perdita supervisionata e raggiungere prestazioni all'avanguardia in problemi inversi con dati incompleti, come la tomografia computerizzata e la risonanza magnetica accelerata.

Victor Sechaud, Jérémy Scanvic, Quentin Barthélemy, Patrice Abry, Julián Tachella2026-03-12💻 cs

← Precedente Successivo →