cs.CV articoli | Gist.Science

Beyond Calibration: Confounding Pathology Limits Foundation Model Specificity in Abdominal Trauma CT

Lo studio rivela che, sebbene i modelli fondazionali per la TC del trauma addominale raggiungano una discriminazione paragonabile a quella dei modelli specifici per il compito, la loro scarsa specificità è determinata principalmente dall'eterogeneità delle classi negative (lesioni d'organo solido concomitanti) piuttosto che dalla sola prevalenza della patologia, indicando la necessità di un adattamento tramite training etichettato prima dell'implementazione clinica.

Jineel H Raythatha, Shuchang Ye, Jeremy Hsu + 1 more2026-02-26⚡ eess

Extracting and Analyzing Rail Crossing Behavior Signatures from Videos using Tensor Methods

Il paper propone un framework di decomposizione tensoriale multi-vista che, analizzando video di passaggi a livello tramite embedding TimeSformer, identifica firme comportamentali latenti rivelando che la posizione geografica è un determinante più forte dell'ora del giorno e consentendo il raggruppamento delle intersezioni per interventi di sicurezza mirati.

Dawon Ahn, Het Patel, Aemal Khattak + 2 more2026-02-26🤖 cs.LG

MALLVI: A Multi-Agent Framework for Integrated Generalized Robotics Manipulation

Il paper presenta MALLVI, un framework multi-agente basato su modelli linguistici e visivi che abilita la manipolazione robotica in ciclo chiuso attraverso la coordinazione di agenti specializzati per la pianificazione, la percezione e il recupero dagli errori, migliorando così la generalizzazione e il successo nei compiti di manipolazione a zero-shot.

Iman Ahmadi, Mehrshad Taji, Arad Mahdinezhad Kashani + 3 more2026-02-26🤖 cs.AI

Tracing Copied Pixels and Regularizing Patch Affinity in Copy Detection

Questo articolo presenta un nuovo metodo per la rilevazione di copie di immagini che combina il tracciamento esplicito delle coordinate dei pixel (PixTrace) con una funzione di perdita contrastiva geometricamente guidata (CopyNCE) per migliorare l'apprendimento delle corrispondenze a livello di patch e raggiungere prestazioni all'avanguardia.

Yichen Lu, Siwei Nie, Minlong Lu + 3 more2026-02-26🤖 cs.AI

Dual-Channel Attention Guidance for Training-Free Image Editing Control in Diffusion Transformers

Questo articolo presenta DCAG, un framework di editing delle immagini senza addestramento per i Diffusion Transformer che, sfruttando simultaneamente i canali Key e Value per guidare l'attenzione, supera i metodi esistenti offrendo un controllo più preciso sull'intensità e sulla fedeltà delle modifiche.

Guandong Li2026-02-26🤖 cs.AI

Hyperbolic Busemann Neural Networks

Questo lavoro introduce le Reti Neurali Iperboliche Busemann, che elevano i componenti fondamentali delle reti neurali allo spazio iperbolico tramite funzioni di Busemann per ottenere parametri compatti, un'interpretazione geometrica unificata e prestazioni superiori su dati gerarchici rispetto ai metodi precedenti.

Ziheng Chen, Bernhard Schölkopf, Nicu Sebe2026-02-26🤖 cs.AI

GS-CLIP: Zero-shot 3D Anomaly Detection by Geometry-Aware Prompt and Synergistic View Representation Learning

Il paper presenta GS-CLIP, un framework per il rilevamento di anomalie 3D zero-shot che supera i limiti delle proiezioni 2D tradizionali integrando prompt testuali ricchi di informazioni geometriche e un'apprendimento sinergico delle rappresentazioni visive per migliorare l'identificazione delle anomalie.

Zehao Deng, An Liu, Yan Wang2026-02-26💻 cs

TherA: Thermal-Aware Visual-Language Prompting for Controllable RGB-to-Thermal Infrared Translation

Il paper presenta TherA, un framework di traduzione controllabile da RGB a infrarossi termici che, sfruttando un modello visivo-linguistico per generare embedding termicamente consapevoli e un traduttore basato su diffusione latente, supera i limiti degli approcci esistenti producendo immagini termiche realistiche e fisicamente plausibili con un controllo fine su condizioni ambientali e stati degli oggetti.

Dong-Guw Lee, Tai Hyoung Rhee, Hyunsoo Jang + 3 more2026-02-26💻 cs

Exploiting Label-Independent Regularization from Spatial Dependencies for Whole Slide Image Analysis

Il paper propone un framework MIL regolarizzato spazialmente che sfrutta le relazioni spaziali intrinseche tra le patch delle immagini intere di vetrino come segnali di regolarizzazione indipendenti dalle etichette, superando così le limitazioni della supervisione scarsa e migliorando significativamente le prestazioni rispetto agli stati dell'arte.

Weiyi Wu, Xinwen Xu, Chongyang Gao + 3 more2026-02-26💻 cs

RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space

RAYNOVA è un modello fondazionale del mondo per scenari di guida che, utilizzando un framework autoregressivo duale e una codifica posizionale basata sui raggi di Plücker, genera video multiview 4D fisicamente plausibili con alta generalizzazione a diverse configurazioni di telecamere e movimenti dell'auto senza richiedere rappresentazioni 3D esplicite.

Yichen Xie, Chensheng Peng, Mazen Abdelfattah + 6 more2026-02-26💻 cs

Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

Il lavoro presenta MMHNet, una rete gerarchica multimodale potenziata che utilizza Mamba non causale per superare le sfide della generalizzazione temporale, permettendo la generazione di audio coerente da video di oltre 5 minuti senza richiedere addestramento su sequenze lunghe.

Christian Simon, Masato Ishii, Wei-Yao Wang + 8 more2026-02-26🤖 cs.AI

Uncertainty-Aware Diffusion Model for Multimodal Highway Trajectory Prediction via DDIM Sampling

Il lavoro presenta cVMDx, un modello di diffusione avanzato che, sfruttando il campionamento DDIM e un modello a mistura gaussiana, risolve le inefficienze e le limitazioni di cVMD per fornire previsioni di traiettoria multimodali accurate e consapevoli dell'incertezza nel contesto della guida autonoma.

Marion Neumeier, Niklas Roßberg, Michael Botsch + 1 more2026-02-26🤖 cs.LG

Scaling View Synthesis Transformers

Il paper presenta uno studio sistematico sulle leggi di scalabilità per i transformer di sintesi di viste, introducendo il modello SVSM che dimostra come un'architettura encoder-decoder possa raggiungere prestazioni superiori rispetto agli approcci decoder-only con un costo computazionale ridotto.

Evan Kim, Hyunwoo Ryu, Thomas W. Mitchel + 1 more2026-02-26🤖 cs.AI

RelA-Diffusion: Relativistic Adversarial Diffusion for Multi-Tracer PET Synthesis from Multi-Sequence MRI

Il paper propone RelA-Diffusion, un framework di diffusione avversaria relativistica che utilizza risonanze magnetiche multi-sequenza (T1 e T2-FLAIR) per sintetizzare immagini PET multi-traccianti con alta fedeltà, superando le limitazioni delle metodologie esistenti nella cattura di dettagli anatomici e patologici.

Minhui Yu, Yongheng Sun, David S. Lalush + 3 more2026-02-26⚡ eess

Towards Controllable Video Synthesis of Routine and Rare OR Events

Questo lavoro presenta un framework di sintesi video basato su diffusione che, trasformando le scene chirurgiche in rappresentazioni geometriche astratte, permette di generare in modo controllato eventi rari e critici per la sicurezza in sala operatoria, superando le limitazioni dei dataset reali e supportando lo sviluppo di modelli di intelligenza artificiale per il rilevamento di violazioni del campo sterile.

Dominik Schneider, Lalithkumar Seenivasan, Sampath Rapuri + 8 more2026-02-26⚡ eess

MMLoP: Multi-Modal Low-Rank Prompting for Efficient Vision-Language Adaptation

Il paper propone MMLoP, un framework di prompting multi-modale a basso rango che adatta efficientemente i modelli visione-linguaggio come CLIP a compiti downstream con soli 11.5K parametri, ottenendo prestazioni superiori rispetto ai metodi esistenti grazie a tecniche di regolarizzazione, correzione della deriva e allineamento cross-modale.

Sajjad Ghiasvand, Haniyeh Ehsani Oskouie, Mahnoosh Alizadeh + 1 more2026-02-26🤖 cs.LG

Exploring Vision-Language Models for Open-Vocabulary Zero-Shot Action Segmentation

Questo lavoro introduce un approccio senza addestramento per la segmentazione temporale delle azioni a vocabolario aperto (OVTAS) sfruttando le capacità zero-shot dei modelli visione-linguaggio, proponendo una pipeline che combina l'adattamento delle embedding e la coerenza temporale, e fornendo la prima analisi sistematica di 14 diversi VLM su benchmark standard.

Asim Unmesh, Kaki Ramesh, Mayank Patel + 2 more2026-02-26💻 cs

WildSVG: Towards Reliable SVG Generation Under Real-Word Conditions

Il paper introduce WildSVG, un nuovo benchmark composto da dataset reali e sintetici per valutare l'estrazione di SVG da immagini naturali, evidenziando le attuali limitazioni dei modelli multimodali in scenari complessi e il potenziale delle tecniche di raffinamento iterativo.

Marco Terral, Haotian Zhang, Tianyang Zhang + 8 more2026-02-26💻 cs

Automating Timed Up and Go Phase Segmentation and Gait Analysis via the tugturn Markerless 3D Pipeline

Il documento presenta *tugturn.py*, un flusso di lavoro Python open-source per l'analisi biomeccanica 3D senza marcatori del test Timed Up and Go, che automatizza la segmentazione delle fasi, il rilevamento degli eventi del passo e il calcolo di metriche di stabilità dinamica, garantendo risultati riproducibili attraverso report HTML e tabelle CSV.

Abel Gonçalves Chinaglia, Guilherme Manna Cesar, Paulo Roberto Pereira Santiago2026-02-26💻 cs

PSF-Med: Measuring and Explaining Paraphrase Sensitivity in Medical Vision Language Models

Il paper introduce PSF-Med, un benchmark che rivela come i modelli medico-visuali cambino le risposte a riformulazioni di domande, e dimostra che l'identificazione e la soppressione di specifiche caratteristiche sparse nel modello riducono significativamente questa instabilità, migliorando l'affidabilità clinica.

Binesh Sadanandan, Vahid Behzadan2026-02-26🤖 cs.LG

← Precedente Successivo →