RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation

Il paper presenta RecThinker, un framework agenziale che trasforma i sistemi di raccomandazione da un approccio passivo a uno di indagine autonoma, utilizzando un paradigma di analisi-pianificazione-azione e strumenti specializzati per colmare le lacune informative e ottimizzare le raccomandazioni attraverso un addestramento ibrido supervisionato e per rinforzo.

Haobo Zhang, Yutao Zhu, Kelong Mao, Tianhao Li, Zhicheng Dou2026-03-11💻 cs

The Bureaucracy of Speed: Structural Equivalence Between Memory Consistency Models and Multi-Agent Authorization Revocation

Il documento propone un sistema di coerenza delle capacità (CCS) che mappa i modelli di consistenza della memoria sui meccanismi di revoca dell'autorizzazione, dimostrando tramite simulazione che la strategia RCC riduce drasticamente le operazioni non autorizzate rispetto ai metodi basati su TTL, eliminando la dipendenza dalla velocità di esecuzione degli agenti.

Vladyslav Parakhin2026-03-11💻 cs

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Il paper presenta InternVL-U, un modello multimodale unificato leggero da 4 miliardi di parametri che, grazie a un'architettura modulare e una pipeline di sintesi dati basata sul ragionamento, democratizza le capacità di comprensione, ragionamento, generazione e editing superando modelli unificati molto più grandi.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Il paper introduce DISPLAY, un framework per la generazione di video di interazioni uomo-oggetto ad alta fedeltà e controllabili, che utilizza una guida di movimento sparsa (coordinate del polso e bounding box dell'oggetto), un meccanismo di attenzione focalizzato sull'oggetto e una strategia di training multi-task per superare le limitazioni dei metodi esistenti.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Questo articolo presenta CourtSI, il primo dataset su larga scala e il relativo benchmark per valutare l'intelligenza spaziale dei modelli visione-linguaggio negli sport di rete, dimostrando come l'addestramento su questo nuovo corpus colmi il divario prestazionale tra AI e umani e migliori la capacità di ragionamento spaziale e generazione di commenti.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

Il paper presenta WikiCLIP, un framework contrastivo efficiente che supera i metodi generativi per il riconoscimento di entità visive in dominio aperto, ottenendo prestazioni superiori su benchmark come OVEN e riducendo la latenza di inferenza di circa 100 volte grazie all'uso di embedding di modelli linguistici potenziati da un adattatore guidato dalla visione e da una sintesi di negativi difficili.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

A Voronoi Cell Formulation for Principled Token Pruning in Late-Interaction Retrieval Models

Questo lavoro introduce un approccio di potatura dei token per i modelli di recupero a interazione tardiva, fondato sulla geometria iperspaziale e sulla stima delle celle di Voronoi, che riduce l'overhead di archiviazione dell'indice mantenendo la qualità del recupero e offrendo nuove intuizioni sul comportamento dei token.

Yash Kankanampati, Yuxuan Zong, Nadi Tomeh, Benjamin Piwowarksi, Joseph Le Roux2026-03-11💻 cs

Leveraging whole slide difficulty in Multiple Instance Learning to improve prostate cancer grading

Questo articolo introduce il concetto di "difficoltà della vetrina intera" (WSD), basato sul disaccordo tra patologi esperti e non esperti, e dimostra che integrare questa metrica nell'addestramento di modelli di Multiple Instance Learning migliora significativamente la precisione nella classificazione del cancro alla prostata, in particolare per i gradi Gleason più elevati.

Marie Arrivat, Rémy Peyret, Elsa Angelini, Pietro Gori2026-03-11💻 cs