VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

Il paper presenta VideoTemp-o3, un framework unificato di pensiero agenziale che armonizza l'individuazione temporale e la comprensione video, risolvendo le inefficienze dei metodi attuali attraverso un meccanismo di mascheramento unificato, ricompense dedicate per il reinforcement learning e un nuovo benchmark per la valutazione su video lunghi.

Wenqi Liu, Yunxiao Wang, Shijie Ma + 14 more2026-03-04🤖 cs.AI

WristMIR: Coarse-to-Fine Region-Aware Retrieval of Pediatric Wrist Radiographs with Radiology Report-Driven Learning

Il paper presenta WristMIR, un framework di recupero di radiografie del polso pediatriche che sfrutta report radiologici strutturati e localizzazione specifica delle ossa per migliorare l'accuratezza diagnostica e la rilevanza clinica attraverso un processo di recupero a due stadi, superando le prestazioni dei modelli di base senza richiedere annotazioni manuali delle immagini.

Mert Sonmezer, Serge Vasylechko, Duygu Atasoy + 2 more2026-03-04💻 cs

CRAFT-LoRA: Content-Style Personalization via Rank-Constrained Adaptation and Training-Free Fusion

Il paper presenta CRAFT-LoRA, un metodo che migliora la personalizzazione della generazione di immagini bilanciando fedeltà al contenuto e coerenza stilistica attraverso un adattamento a basso rango vincolato, un'aggregazione selettiva degli adapter guidata dal prompt e uno schema di guida senza classifier addestrato, ottenendo risultati ad alta fedeltà senza necessità di riaddestramento aggiuntivo.

Yu Li, Yujun Cai, Chi Zhang2026-03-04💻 cs

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Il paper introduce CFE-Bench, un benchmark multimodale basato su esami universitari reali che valuta le capacità di ragionamento dei modelli linguistici in oltre 20 ambiti STEM, rivelando che, nonostante le buone prestazioni complessive, i modelli avanzati faticano a mantenere stati intermedi corretti durante soluzioni complesse e mostrano un'efficienza di passaggio inferiore rispetto alle soluzioni degli istruttori.

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

Uni-Animator: Towards Unified Visual Colorization

Il paper presenta Uni-Animator, un nuovo framework basato su Diffusion Transformer che unifica la colorizzazione di schizzi sia per immagini che per video, risolvendo le sfide della precisione cromatica, della conservazione dei dettagli fisici e della coerenza temporale attraverso innovazioni come l'embedding di patch di riferimento, il rinforzo dei dettagli fisici e una codifica RoPE dinamica basata sugli schizzi.

Xinyuan Chen, Yao Xu, Shaowen Wang + 2 more2026-03-04💻 cs

Leveraging GenAI for Segmenting and Labeling Centuries-old Technical Documents

Questo articolo presenta un approccio innovativo che combina modelli di intelligenza generativa come SAM2, Florence2 e ChatGPT con un'ontologia specializzata per segmentare e etichettare trattati storici sulla costruzione navale del XVI e XVII secolo, superando le sfide legate alla scarsità di dati di addestramento e alla specializzazione del dominio per migliorare la curatela e l'accessibilità di documenti storici preziosi.

Carlos Monroy, Benjamin Navarro2026-03-04⚡ eess

A Novel Evolutionary Method for Automated Skull-Face Overlay in Computer-Aided Craniofacial Superimposition

Questo articolo presenta Lilium, un nuovo metodo evolutivo automatizzato che migliora l'accuratezza e la robustezza della sovrapposizione cranio-facciale forense modellando esplicitamente la variabilità dei tessuti molli tramite un algoritmo di evoluzione differenziale e vincoli di plausibilità anatomica.

Práxedes Martínez-Moreno, Andrea Valsecchi, Pablo Mesejo + 3 more2026-03-04🤖 cs.AI

BornoViT: A Novel Efficient Vision Transformer for Bengali Handwritten Basic Characters Classification

Il paper presenta BornoViT, un modello Vision Transformer leggero ed efficiente con soli 0,65 milioni di parametri, che classifica con successo i caratteri e le cifre scritti a mano in bengalese raggiungendo un'accuratezza del 95,77% sul dataset BanglaLekha e del 91,51% su un dataset autonomo, offrendo una soluzione ottimizzata per ambienti con risorse limitate.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04🤖 cs.LG