cs.CV articoli | Gist.Science

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

Il documento presenta MedXIAOHE, un modello fondazionale medico visivo-linguistico che, grazie a un framework di pre-addestramento continuo orientato alle entità e a tecniche di apprendimento per rinforzo, raggiunge prestazioni all'avanguardia nel ragionamento diagnostico e nella generazione di report clinici affidabili, superando i sistemi multimodali chiusi esistenti.

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

UniTAF: A Modular Framework for Joint Text-to-Speech and Audio-to-Face Modeling

Il paper presenta UniTAF, un framework modulare che unifica i modelli Text-to-Speech e Audio-to-Face per abilitare il trasferimento interno delle caratteristiche e migliorare la coerenza tra audio ed espressioni facciali, validando la fattibilità del riutilizzo delle rappresentazioni intermedie per la progettazione congiunta di voce ed espressioni.

Qiangong Zhou, Nagasaka Tomohiro2026-03-04⚡ eess

CRAFT-LoRA: Content-Style Personalization via Rank-Constrained Adaptation and Training-Free Fusion

Il paper presenta CRAFT-LoRA, un metodo che migliora la personalizzazione della generazione di immagini bilanciando fedeltà al contenuto e coerenza stilistica attraverso un adattamento a basso rango vincolato, un'aggregazione selettiva degli adapter guidata dal prompt e uno schema di guida senza classifier addestrato, ottenendo risultati ad alta fedeltà senza necessità di riaddestramento aggiuntivo.

Yu Li, Yujun Cai, Chi Zhang2026-03-04💻 cs

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Il paper introduce CFE-Bench, un benchmark multimodale basato su esami universitari reali che valuta le capacità di ragionamento dei modelli linguistici in oltre 20 ambiti STEM, rivelando che, nonostante le buone prestazioni complessive, i modelli avanzati faticano a mantenere stati intermedi corretti durante soluzioni complesse e mostrano un'efficienza di passaggio inferiore rispetto alle soluzioni degli istruttori.

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

From Pairs to Sequences: Track-Aware Policy Gradients for Keypoint Detection

Il paper introduce TraqPoint, un innovativo framework di apprendimento per rinforzo che riformula il rilevamento di punti chiave come un problema decisionale sequenziale per ottimizzare direttamente la qualità delle tracce su sequenze di immagini, superando i limiti dei metodi basati su coppie di immagini.

Yepeng Liu, Hao Li, Liwen Yang + 8 more2026-03-04💻 cs

Training-Free Multi-Concept Image Editing

Il paper propone Concept Distillation Sampling (CDS), un innovativo framework unificato e senza addestramento che supera i limiti linguistici dei metodi precedenti permettendo l'editing multi-concetto e la composizione di adattatori LoRA mantenendo la fedeltà dell'identità e i dettagli visivi complessi.

Niki Foteinopoulou, Ignas Budvytis, Stephan Liwicki2026-03-04💻 cs

Uni-Animator: Towards Unified Visual Colorization

Il paper presenta Uni-Animator, un nuovo framework basato su Diffusion Transformer che unifica la colorizzazione di schizzi sia per immagini che per video, risolvendo le sfide della precisione cromatica, della conservazione dei dettagli fisici e della coerenza temporale attraverso innovazioni come l'embedding di patch di riferimento, il rinforzo dei dettagli fisici e una codifica RoPE dinamica basata sugli schizzi.

Xinyuan Chen, Yao Xu, Shaowen Wang + 2 more2026-03-04💻 cs

3D Modality-Aware Pre-training for Vision-Language Model in MRI Multi-organ Abnormality Detection

Il paper presenta MedMAP, un framework di pre-addestramento modale-agnostico per modelli visione-linguaggio che, sfruttando il nuovo dataset MedMoM-MRI3D, supera le prestazioni degli stati dell'arte nel rilevamento di anomalie multi-organo in risonanza magnetica 3D.

Haowen Zhu, Ning Yin, Xiaogen Zhou2026-03-04🤖 cs.AI

APPO: Attention-guided Perception Policy Optimization for Video Reasoning

Il paper presenta APPO, un algoritmo di ottimizzazione della politica guidato dall'attenzione che migliora la capacità di percezione fine-granularità nei modelli di ragionamento video tramite ricompense dense a livello di token, dimostrando che potenziare la percezione è più efficace dell'aumento delle capacità di ragionamento puro.

Henghui Du, Chang Zhou, Xi Chen + 1 more2026-03-04💻 cs

Leveraging GenAI for Segmenting and Labeling Centuries-old Technical Documents

Questo articolo presenta un approccio innovativo che combina modelli di intelligenza generativa come SAM2, Florence2 e ChatGPT con un'ontologia specializzata per segmentare e etichettare trattati storici sulla costruzione navale del XVI e XVII secolo, superando le sfide legate alla scarsità di dati di addestramento e alla specializzazione del dominio per migliorare la curatela e l'accessibilità di documenti storici preziosi.

Carlos Monroy, Benjamin Navarro2026-03-04⚡ eess

A Novel Evolutionary Method for Automated Skull-Face Overlay in Computer-Aided Craniofacial Superimposition

Questo articolo presenta Lilium, un nuovo metodo evolutivo automatizzato che migliora l'accuratezza e la robustezza della sovrapposizione cranio-facciale forense modellando esplicitamente la variabilità dei tessuti molli tramite un algoritmo di evoluzione differenziale e vincoli di plausibilità anatomica.

Práxedes Martínez-Moreno, Andrea Valsecchi, Pablo Mesejo + 3 more2026-03-04🤖 cs.AI

GLIDE-Reg: Global-to-Local Deformable Registration Using Co-Optimized Foundation and Handcrafted Features

Il paper presenta GLIDE-Reg, un metodo di registrazione deformabile che combina ottimizzata co-occorrenza di caratteristiche fondazionali e manuali per superare i limiti di robustezza e generalizzabilità delle tecniche attuali, ottenendo prestazioni superiori su diverse coorti di imaging polmonare.

Yunzheng Zhu, Aichi Chien, Kimaya kulkarni + 5 more2026-03-04⚡ eess

IDER: IDempotent Experience Replay for Reliable Continual Learning

Il paper propone IDER, un nuovo approccio basato sulla proprietà di idempotenza che, integrando una distillazione dell'idempotenza con i metodi di replay esistenti, risolve il problema della dimenticanza catastrofica migliorando al contempo l'accuratezza e l'affidabilità delle previsioni nell'apprendimento continuo.

Zhanwang Liu, Yuting Li, Haoyuan Gao + 4 more2026-03-04🤖 cs.AI

BornoViT: A Novel Efficient Vision Transformer for Bengali Handwritten Basic Characters Classification

Il paper presenta BornoViT, un modello Vision Transformer leggero ed efficiente con soli 0,65 milioni di parametri, che classifica con successo i caratteri e le cifre scritti a mano in bengalese raggiungendo un'accuratezza del 95,77% sul dataset BanglaLekha e del 91,51% su un dataset autonomo, offrendo una soluzione ottimizzata per ambienti con risorse limitate.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04🤖 cs.LG

ShiftLUT: Spatial Shift Enhanced Look-Up Tables for Efficient Image Restoration

Il paper propone ShiftLUT, un nuovo framework per il ripristino efficiente delle immagini che combina un modulo di spostamento spaziale apprendibile, un'architettura a due rami asimmetrici e una strategia di compressione dei LUT per ottenere un campo ricettivo più ampio e prestazioni superiori rispetto agli stati dell'arte, mantenendo al contempo bassi costi computazionali e di memoria.

Xiaolong Zeng, Yitong Yu, Shiyao Xiong + 4 more2026-03-04💻 cs

Learning to Weigh Waste: A Physics-Informed Multimodal Fusion Framework and Large-Scale Dataset for Commercial and Industrial Applications

Questo lavoro presenta il framework Multimodal Weight Predictor (MWP) e il dataset Waste-Weight-10K, che combinano immagini RGB e metadati fisici tramite fusione multimodale per stimare con alta precisione il peso dei rifiuti industriali, fornendo anche spiegazioni interpretabili.

Md. Adnanul Islam, Wasimul Karim, Md Mahbub Alam + 7 more2026-03-04💻 cs

PreciseCache: Precise Feature Caching for Efficient and High-fidelity Video Generation

Il paper presenta PreciseCache, un framework plug-and-play che accelera l'inferenza dei modelli di generazione video identificando e saltando con precisione i calcoli ridondanti a livello di step e di blocco tramite la differenza a bassa frequenza, ottenendo così un significativo aumento di velocità senza compromettere la qualità visiva.

Jiangshan Wang, Kang Zhao, Jiayi Guo + 5 more2026-03-04💻 cs

Flow Matching-enabled Test-Time Refinement for Unsupervised Cardiac MR Registration

Il paper presenta FlowReg, un framework di registrazione non supervisionata per risonanza magnetica cardiaca basato sul flow matching che, grazie a una strategia di training "warmup-reflow" e a un meccanismo di "Initial Guess", raggiunge prestazioni superiori allo stato dell'arte con una sola o due inferenze, eliminando la necessità di modelli pre-addestrati o etichette di segmentazione.

Yunguan Fu, Wenjia Bai, Wen Yan + 3 more2026-03-04💻 cs

HeroGS: Hierarchical Guidance for Robust 3D Gaussian Splatting under Sparse Views

HeroGS è un framework unificato che utilizza una guida gerarchica a livello di immagine, caratteristica e parametro per migliorare la robustezza e la qualità del rendering del 3D Gaussian Splatting in condizioni di visione sparsa.

Jiashu Li, Xumeng Han, Zhaoyang Wei + 5 more2026-03-04💻 cs

Continuous Exposure-Time Modeling for Realistic Atmospheric Turbulence Synthesis

Questo lavoro presenta ET-Turb, un ampio dataset sintetico che introduce un modello di MTF dipendente dal tempo di esposizione per generare turbolenza atmosferica realistica, migliorando significativamente la generalizzazione dei modelli di restauro rispetto alle metodologie esistenti.

Junwei Zeng, Dong Liang, Sheng-Jun Huang + 2 more2026-03-04💻 cs

← Precedente Successivo →