VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

Il paper presenta VideoTemp-o3, un framework unificato di pensiero agenziale che armonizza l'individuazione temporale e la comprensione video, risolvendo le inefficienze dei metodi attuali attraverso un meccanismo di mascheramento unificato, ricompense dedicate per il reinforcement learning e un nuovo benchmark per la valutazione su video lunghi.

Wenqi Liu, Yunxiao Wang, Shijie Ma + 14 more2026-03-04🤖 cs.AI

WristMIR: Coarse-to-Fine Region-Aware Retrieval of Pediatric Wrist Radiographs with Radiology Report-Driven Learning

Il paper presenta WristMIR, un framework di recupero di radiografie del polso pediatriche che sfrutta report radiologici strutturati e localizzazione specifica delle ossa per migliorare l'accuratezza diagnostica e la rilevanza clinica attraverso un processo di recupero a due stadi, superando le prestazioni dei modelli di base senza richiedere annotazioni manuali delle immagini.

Mert Sonmezer, Serge Vasylechko, Duygu Atasoy + 2 more2026-03-04💻 cs

CRAFT-LoRA: Content-Style Personalization via Rank-Constrained Adaptation and Training-Free Fusion

Il paper presenta CRAFT-LoRA, un metodo che migliora la personalizzazione della generazione di immagini bilanciando fedeltà al contenuto e coerenza stilistica attraverso un adattamento a basso rango vincolato, un'aggregazione selettiva degli adapter guidata dal prompt e uno schema di guida senza classifier addestrato, ottenendo risultati ad alta fedeltà senza necessità di riaddestramento aggiuntivo.

Yu Li, Yujun Cai, Chi Zhang2026-03-04💻 cs

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Il paper introduce CFE-Bench, un benchmark multimodale basato su esami universitari reali che valuta le capacità di ragionamento dei modelli linguistici in oltre 20 ambiti STEM, rivelando che, nonostante le buone prestazioni complessive, i modelli avanzati faticano a mantenere stati intermedi corretti durante soluzioni complesse e mostrano un'efficienza di passaggio inferiore rispetto alle soluzioni degli istruttori.

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

Uni-Animator: Towards Unified Visual Colorization

Il paper presenta Uni-Animator, un nuovo framework basato su Diffusion Transformer che unifica la colorizzazione di schizzi sia per immagini che per video, risolvendo le sfide della precisione cromatica, della conservazione dei dettagli fisici e della coerenza temporale attraverso innovazioni come l'embedding di patch di riferimento, il rinforzo dei dettagli fisici e una codifica RoPE dinamica basata sugli schizzi.

Xinyuan Chen, Yao Xu, Shaowen Wang + 2 more2026-03-04💻 cs

Leveraging GenAI for Segmenting and Labeling Centuries-old Technical Documents

Questo articolo presenta un approccio innovativo che combina modelli di intelligenza generativa come SAM2, Florence2 e ChatGPT con un'ontologia specializzata per segmentare e etichettare trattati storici sulla costruzione navale del XVI e XVII secolo, superando le sfide legate alla scarsità di dati di addestramento e alla specializzazione del dominio per migliorare la curatela e l'accessibilità di documenti storici preziosi.

Carlos Monroy, Benjamin Navarro2026-03-04⚡ eess

A Novel Evolutionary Method for Automated Skull-Face Overlay in Computer-Aided Craniofacial Superimposition

Questo articolo presenta Lilium, un nuovo metodo evolutivo automatizzato che migliora l'accuratezza e la robustezza della sovrapposizione cranio-facciale forense modellando esplicitamente la variabilità dei tessuti molli tramite un algoritmo di evoluzione differenziale e vincoli di plausibilità anatomica.

Práxedes Martínez-Moreno, Andrea Valsecchi, Pablo Mesejo + 3 more2026-03-04🤖 cs.AI