cs.CV articoli | Gist.Science

Moral Preferences of LLMs Under Directed Contextual Influence

Questo studio dimostra che le preferenze morali dei modelli linguistici, spesso valutate in contesti privi di riferimenti, sono significativamente e talvolta imprevedibilmente influenzate da segnali contestuali direzionali, rivelando asimmetrie di manipolabilità e effetti controintuitivi che richiedono nuove metodologie di valutazione.

Phil Blandfort, Tushar Karayil, Urja Pawar + 3 more2026-02-27💬 cs.CL

A data- and compute-efficient chest X-ray foundation model beyond aggressive scaling

Il paper presenta CheXficient, un modello fondazionale per radiografie toraciche che, grazie a una curatela attiva e selettiva dei dati, raggiunge prestazioni superiori o comparabili a modelli su larga scala utilizzando solo una frazione del dataset e della potenza di calcolo.

Chong Wang, Yabin Zhang, Yunhe Gao + 9 more2026-02-27💻 cs

From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

Il paper propone DPE, un metodo di addestramento iterativo guidato dalla diagnosi che utilizza agenti multipli per generare dati mirati alle debolezze specifiche dei modelli multimodali, ottenendo miglioramenti continui e scalabili su diversi benchmark.

Hongrui Jia, Chaoya Jiang, Shikun Zhang + 1 more2026-02-27💻 cs

GraspLDP: Towards Generalizable Grasping Policy via Latent Diffusion

Il paper "GraspLDP" propone un approccio basato su diffusione latente che integra conoscenze a priori sulla presa e un obiettivo di ricostruzione auto-supervisionato per migliorare la precisione e la generalizzazione delle politiche di manipolazione robotica, superando le limitazioni delle tecniche di apprendimento per imitazione esistenti.

Enda Xiang, Haoxiang Ma, Xinzhu Ma + 2 more2026-02-27💻 cs

SO3UFormer: Learning Intrinsic Spherical Features for Rotation-Robust Panoramic Segmentation

Il paper introduce SO3UFormer, un'architettura di segmentazione semantica panoramica che supera i limiti dei modelli attuali rispetto alle rotazioni 3D, grazie all'apprendimento di caratteristiche sferiche intrinseche e a meccanismi geometrici specifici che garantiscono una stabilità eccezionale anche sotto rotazioni arbitrarie.

Qinfeng Zhu, Yunxi Jiang, Lei Fan2026-02-27💻 cs

Towards Multimodal Domain Generalization with Few Labels

Il paper introduce un nuovo problema di generalizzazione di dominio multimodale semi-supervisionata (SSMDG) e propone un quadro unificato che combina regolarizzazione basata sul consenso, gestione delle discrepanze e allineamento dei prototipi cross-modali per apprendere modelli robusti con pochi dati etichettati, superando i limiti degli approcci esistenti e stabilendo nuovi benchmark.

Hongzhao Li, Hao Dong, Hualei Wan + 3 more2026-02-27💻 cs

Chain of Flow: A Foundational Generative Framework for ECG-to-4D Cardiac Digital Twins

Il paper presenta Chain of Flow (COF), un framework generativo fondamentale che ricostruisce gemelli digitali cardiaci 4D personalizzati, integrando anatomia, fisiologia e dinamiche di movimento a partire da un singolo ciclo ECG, trasformando così i modelli predittivi tradizionali in cuori virtuali completi e manipolabili.

Haofan Wu, Nay Aung, Theodoros N. Arvanitis + 3 more2026-02-27💻 cs

OSDaR-AR: Enhancing Railway Perception Datasets via Multi-modal Augmented Reality

Questo articolo presenta OSDaR-AR, un nuovo dataset pubblico creato integrando oggetti virtuali fotorealistici in sequenze ferroviarie reali tramite un framework di realtà aumentata multi-modale basato su Unreal Engine 5, al fine di colmare il divario tra simulazione e realtà e migliorare l'addestramento dei sistemi di percezione ferroviaria.

Federico Nesti, Gianluca D'Amico, Mauro Marinoni + 1 more2026-02-27💻 cs

WaterVideoQA: ASV-Centric Perception and Rule-Compliant Reasoning via Multi-Modal Agents

Il paper presenta WaterVideoQA, il primo benchmark su larga scala per il Video Question Answering in ambienti acquatici, e NaviMind, un sistema neuro-simbolico multi-agente che potenzia le capacità cognitive e decisionali delle imbarcazioni autonome garantendo il rispetto delle normative marittime.

Runwei Guan, Shaofeng Liang, Ningwei Ouyang + 9 more2026-02-27💻 cs

MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding

Il paper presenta MSJoE, un framework innovativo che evolve congiuntamente un modello linguistico multimodale (MLLM) e un campionatore di fotogrammi chiave tramite apprendimento per rinforzo per migliorare l'efficienza e l'accuratezza nella comprensione di video lunghi, ottenendo risultati superiori rispetto agli stati dell'arte su diversi benchmark.

Wenhui Tan, Xiaoyi Yu, Jiaze Li + 5 more2026-02-27💻 cs

pMoE: Prompting Diverse Experts Together Wins More in Visual Adaptation

Il paper presenta pMoE, un innovativo metodo di prompt tuning basato su un mix di esperti che integra conoscenze da diversi domini tramite token specializzati e un dispatcher dinamico, ottenendo prestazioni superiori ed efficienti su 47 compiti di adattamento visivo.

Shentong Mo, Xufang Luo, Dongsheng Li2026-02-27🤖 cs.AI

Velocity and stroke rate reconstruction of canoe sprint team boats based on panned and zoomed video recordings

Questo studio presenta un framework automatizzato basato su video che, utilizzando tecniche di deep learning come YOLOv8 e U-net, ricostruisce con alta precisione velocità e frequenza di remata di canoe da sprint di varie configurazioni, offrendo un'alternativa affidabile al GPS per l'analisi delle prestazioni senza necessità di sensori a bordo.

Julian Ziegler, Daniel Matthes, Finn Gerdts + 5 more2026-02-27💻 cs

Cross-Task Benchmarking of CNN Architectures

Questo studio confronta diverse varianti di reti neurali convoluzionali dinamiche basate su ResNet-18, dimostrando che i meccanismi di attenzione e la convoluzione dinamica, in particolare l'ODConv, superano le CNN convenzionali in termini di accuratezza ed efficienza su compiti di classificazione, segmentazione e analisi di serie temporali.

Kamal Sherawat, Vikrant Bhati2026-02-27💻 cs

MM-NeuroOnco: A Multimodal Benchmark and Instruction Dataset for MRI-Based Brain Tumor Diagnosis

Il paper introduce MM-NeuroOnco, un ampio dataset multimodale e un benchmark per l'addestramento e la valutazione di modelli di intelligenza artificiale nel diagnosticare tumori cerebrali tramite risonanza magnetica, dimostrando come l'uso di istruzioni semantiche arricchite e un processo di controllo qualità automatizzato permettano di sviluppare sistemi (come NeuroOnco-GPT) in grado di fornire ragionamenti diagnostici clinicamente interpretabili con prestazioni significativamente superiori rispetto agli attuali modelli di base.

Feng Guo, Jiaxiang Liu, Yang Li + 2 more2026-02-27🤖 cs.AI

Can Agents Distinguish Visually Hard-to-Separate Diseases in a Zero-Shot Setting? A Pilot Study

Questo studio pilota valuta le prestazioni zero-shot di agenti multimodali nel distinguere malattie clinicamente distinte ma visivamente simili, dimostrando che un nuovo framework di adjudicazione contrastiva migliora l'accuratezza diagnostica e riduce le affermazioni non supportate, sebbene le prestazioni complessive non siano ancora sufficienti per il deploy clinico.

Zihao Zhao, Frederik Hauke, Juliana De Castilhos + 2 more2026-02-27💻 cs

UCM: Unifying Camera Control and Memory with Time-aware Positional Encoding Warping for World Models

Il paper presenta UCM, un nuovo framework che unifica il controllo della telecamera e la memoria a lungo termine nei modelli del mondo tramite un meccanismo di deformazione temporale dei codici posizionali, permettendo una generazione video ad alta fedeltà con coerenza scenica superiore e controllo preciso della telecamera.

Tianxing Xu, Zixuan Wang, Guangyuan Wang + 5 more2026-02-27💻 cs

An automatic counting algorithm for the quantification and uncertainty analysis of the number of microglial cells trainable in small and heterogeneous datasets

Questo lavoro presenta un algoritmo automatico basato su un contatore a kernel non parametrico e non lineare per la quantificazione e l'analisi dell'incertezza del numero di cellule microgliali, progettato per essere addestrato efficacemente su piccoli e eterogenei dataset senza richiedere la rilevazione individuale delle cellule.

L. Martino, M. M. Garcia, P. S. Paradas + 1 more2026-02-27⚡ eess

SubspaceAD: Training-Free Few-Shot Anomaly Detection via Subspace Modeling

Il paper introduce SubspaceAD, un metodo senza addestramento per il rilevamento di anomalie few-shot che, sfruttando le features di DINOv2 e un modello PCA per modellare lo spazio delle variazioni normali, raggiunge prestazioni state-of-the-art su MVTec-AD e VisA senza ricorrere a banche memoria o tuning aggiuntivo.

Camile Lendering, Erkut Akdag, Egor Bondarev2026-02-27🤖 cs.LG

Small Object Detection Model with Spatial Laplacian Pyramid Attention and Multi-Scale Features Enhancement in Aerial Images

Questo articolo propone un modello di rilevamento di piccoli oggetti nelle immagini aeree che integra un modulo di attenzione a piramide di Laplace spaziale, un potenziamento delle caratteristiche multi-scala e convoluzioni deformabili per allineare le feature, ottenendo risultati superiori rispetto agli algoritmi originali sui dataset VisDrone e DOTA.

Zhangjian Ji, Huijia Yan, Shaotong Qiao + 2 more2026-02-27💻 cs

D-FINE-seg: Object Detection and Instance Segmentation Framework with multi-backend deployment

Il paper presenta D-FINE-seg, un'estensione open-source per la segmentazione di istanze basata su D-FINE che integra un nuovo head leggero e tecniche di addestramento avanzate, offrendo prestazioni superiori su TACO rispetto a YOLO26 e un pipeline completo per il deployment ottimizzato su ONNX, TensorRT e OpenVINO.

Argo Saakyan, Dmitry Solntsev2026-02-27💻 cs

← Precedente Successivo →