cs articoli | Gist.Science

Prompt-Driven Color Accessibility Evaluation in Diffusion-based Image Generation Models

Questo lavoro valuta sistematicamente l'accessibilità cromatica nei modelli di generazione di immagini basati su diffusione, introducendo la nuova metrica "CVDLoss" per misurare le modifiche strutturali e rivelando che i modelli attuali faticano a rispondere efficacemente a prompt focalizzati sull'accessibilità.

Xinyao Zhuang, Jose Echevarria, Kaan Aksit2026-03-11💻 cs

Gap-ETH-Tight Algorithms for Hyperbolic TSP and Steiner Tree

Il paper presenta uno schema di approssimazione Gap-ETH-ottimale per il TSP e il problema dell'albero di Steiner nello spazio iperbolico $d$ -dimensionale, basato su una nuova decomposizione gerarchica chiamata "hybrid hyperbolic quadtree" e su un'analisi di attraversamento pesata.

Sándor Kisfaludi-Bak, Saeed Odak, Satyam Singh, Geert van Wordragen2026-03-11💻 cs

RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation

Il paper presenta RecThinker, un framework agenziale che trasforma i sistemi di raccomandazione da un approccio passivo a uno di indagine autonoma, utilizzando un paradigma di analisi-pianificazione-azione e strumenti specializzati per colmare le lacune informative e ottimizzare le raccomandazioni attraverso un addestramento ibrido supervisionato e per rinforzo.

Haobo Zhang, Yutao Zhu, Kelong Mao, Tianhao Li, Zhicheng Dou2026-03-11💻 cs

Almost-Optimal Upper and Lower Bounds for Clustering in Low Dimensional Euclidean Spaces

Questo lavoro migliora i tempi di esecuzione degli algoritmi di approssimazione per i problemi di clustering $k$ -median e $k$ -means in spazi euclidei a bassa dimensione e dimostra che tale miglioramento è quasi ottimale, fornendo un limite inferiore corrispondente basato sull'ipotesi Gap Exponential Time.

Vincent Cohen-Addad, Karthik C. S., David Saulpic, Chris Schwiegelshohn2026-03-11💻 cs

MissBench: Benchmarking Multimodal Affective Analysis under Imbalanced Missing Modalities

Il paper introduce MissBench, un benchmark e framework che standardizza protocolli di dati mancanti sbilanciati e definisce nuovi metrici diagnostici per valutare l'equità e l'ottimizzazione nei modelli di analisi affettiva multimodale in scenari realistici.

Tien Anh Pham, Phuong-Anh Nguyen, Duc-Trong Le, Cam-Van Thi Nguyen2026-03-11💻 cs

The Bureaucracy of Speed: Structural Equivalence Between Memory Consistency Models and Multi-Agent Authorization Revocation

Il documento propone un sistema di coerenza delle capacità (CCS) che mappa i modelli di consistenza della memoria sui meccanismi di revoca dell'autorizzazione, dimostrando tramite simulazione che la strategia RCC riduce drasticamente le operazioni non autorizzate rispetto ai metodi basati su TTL, eliminando la dipendenza dalla velocità di esecuzione degli agenti.

Vladyslav Parakhin2026-03-11💻 cs

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Il paper presenta InternVL-U, un modello multimodale unificato leggero da 4 miliardi di parametri che, grazie a un'architettura modulare e una pipeline di sintesi dati basata sul ragionamento, democratizza le capacità di comprensione, ragionamento, generazione e editing superando modelli unificati molto più grandi.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Il paper introduce DISPLAY, un framework per la generazione di video di interazioni uomo-oggetto ad alta fedeltà e controllabili, che utilizza una guida di movimento sparsa (coordinate del polso e bounding box dell'oggetto), un meccanismo di attenzione focalizzato sull'oggetto e una strategia di training multi-task per superare le limitazioni dei metodi esistenti.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Robust Cooperative Localization in Featureless Environments: A Comparative Study of DCL, StCL, CCL, CI, and Standard-CL

Questo studio propone una valutazione comparativa di cinque approcci per la localizzazione cooperativa in ambienti privi di caratteristiche, evidenziando i compromessi tra accuratezza e consistenza del filtro per guidare la selezione dell'algoritmo in base ai requisiti applicativi.

Nivand Khosravi, Meysam Basiri, Rodrigo Ventura2026-03-11💻 cs

Overview of the TREC 2025 Retrieval Augmented Generation (RAG) Track

La seconda edizione della traccia TREC 2025 RAG promuove la ricerca su sistemi che integrano recupero e generazione per rispondere a complesse esigenze informative reali, introducendo query narrative e valutando la trasparenza e la correttezza fattuale delle risposte su oltre 150 contributi.

Shivani Upadhyay, Nandan Thakur, Ronak Pradeep, Nick Craswell, Daniel Campos, Jimmy Lin2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Questo articolo presenta CourtSI, il primo dataset su larga scala e il relativo benchmark per valutare l'intelligenza spaziale dei modelli visione-linguaggio negli sport di rete, dimostrando come l'addestramento su questo nuovo corpus colmi il divario prestazionale tra AI e umani e migliori la capacità di ragionamento spaziale e generazione di commenti.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

The 802.11 MAC protocol leads to inefficient equilibria

Questo articolo dimostra, attraverso modelli teorici e simulazioni, che il protocollo MAC distribuito 802.11 porta a equilibri di Nash inefficienti in ambienti non cooperativi, mentre un protocollo ideale che separa l'allocazione della risorsa condivisa dalle strategie di trasmissione permetterebbe ai nodi razionali di raggiungere un throughput superiore.

Godfrey Tan, John Guttag2026-03-11💻 cs

Role Classification of Hosts within Enterprise Networks Based on Connection Patterns

Questo articolo presenta due algoritmi pratici per la classificazione dei ruoli degli host nelle reti aziendali basati sui modelli di connessione, i quali, riducendo drasticamente il numero di gruppi identificati, semplificano la gestione di rete e migliorano il monitoraggio e l'analisi della sicurezza.

Godfrey Tan, Massimiliano Poletto, John Guttag, Frans Kaashoek2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

Il paper presenta WikiCLIP, un framework contrastivo efficiente che supera i metodi generativi per il riconoscimento di entità visive in dominio aperto, ottenendo prestazioni superiori su benchmark come OVEN e riducendo la latenza di inferenza di circa 100 volte grazie all'uso di embedding di modelli linguistici potenziati da un adattatore guidato dalla visione e da una sintesi di negativi difficili.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

Questo paper dimostra che la distanza di Chamfer fallisce strutturalmente nell'ottimizzazione di forme 3D a causa di un collasso indotto dal gradiente che può essere risolto solo introducendo un accoppiamento non locale, come illustrato attraverso deformazioni a base condivisa e un prior MPM differenziabile.

Chang-Yong Song, David Hyde2026-03-11💻 cs

How to Write to SSDs

Questo articolo dimostra che l'adozione di scritture fuori luogo (out-of-place) è fondamentale per massimizzare le prestazioni e prolungare la durata degli SSD nei sistemi di database, proponendo un redesign di LeanStore che riduce significativamente l'amplificazione delle scritture e migliora il throughput rispetto alle tradizionali scritture in luogo.

Bohyun Lee, Tobias Ziegler, Viktor Leis2026-03-11💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Il paper propone un metodo interpretabile per il recupero fine-granularità di movimenti 3D tramite immagini di angoli articolari e un'interazione tardiva token-patch, superando i limiti dei metodi basati su embedding globali e ottenendo risultati superiori su HumanML3D e KIT-ML.

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao2026-03-11💻 cs

Unsupervised Domain Adaptation with Target-Only Margin Disparity Discrepancy

Il paper propone un nuovo framework di adattamento di dominio non supervisionato basato sulla discrepanza del margine di disparità (MDD) per migliorare la segmentazione del fegato nelle immagini CBCT interventistiche, sfruttando dati CT annotati e dati CBCT non annotati proprietari per colmare il divario tra le due modalità di imaging.

Gauthier Miralles, Loïc Le Folgoc, Vincent Jugnon, Pietro Gori2026-03-11💻 cs

A Voronoi Cell Formulation for Principled Token Pruning in Late-Interaction Retrieval Models

Questo lavoro introduce un approccio di potatura dei token per i modelli di recupero a interazione tardiva, fondato sulla geometria iperspaziale e sulla stima delle celle di Voronoi, che riduce l'overhead di archiviazione dell'indice mantenendo la qualità del recupero e offrendo nuove intuizioni sul comportamento dei token.

Yash Kankanampati, Yuxuan Zong, Nadi Tomeh, Benjamin Piwowarksi, Joseph Le Roux2026-03-11💻 cs

Leveraging whole slide difficulty in Multiple Instance Learning to improve prostate cancer grading

Questo articolo introduce il concetto di "difficoltà della vetrina intera" (WSD), basato sul disaccordo tra patologi esperti e non esperti, e dimostra che integrare questa metrica nell'addestramento di modelli di Multiple Instance Learning migliora significativamente la precisione nella classificazione del cancro alla prostata, in particolare per i gradi Gleason più elevati.

Marie Arrivat, Rémy Peyret, Elsa Angelini, Pietro Gori2026-03-11💻 cs

← Precedente Successivo →