cs.CV articoli | Gist.Science

Human-Object Interaction via Automatically Designed VLM-Guided Motion Policy

Questo lavoro presenta un nuovo framework unificato per la sintesi di interazioni uomo-oggetto che sfrutta i modelli visione-linguaggio per generare automaticamente politiche di movimento e funzioni di ricompensa, superando la necessità di dati di motion capture costosi o di ingegneria manuale delle ricompense.

Zekai Deng, Ye Shi, Kaiyang Ji + 3 more2026-03-05💻 cs

Generating Fine Details of Entity Interactions

Questo paper presenta \data, un dataset focalizzato sulle interazioni tra entità, e \model, un metodo che sfrutta i Modelli Linguistici Multimodali per decomporre le interazioni e raffinare le immagini generate, migliorando significativamente la qualità delle relazioni spaziali e funzionali tra gli oggetti.

Xinyi Gu, Jiayuan Mao2026-03-05🤖 cs.LG

When Memory Becomes a Vulnerability: Towards Multi-turn Jailbreak Attacks against Text-to-Image Generation Systems

Il paper propone "Inception", il primo attacco di jailbreak multi-turno che sfrutta i meccanismi di memoria dei sistemi di generazione testo-immagine per aggirare i filtri di sicurezza suddividendo e ricorsivamente elaborando le intenzioni malevole, ottenendo un tasso di successo superiore del 20% rispetto alle tecniche esistenti.

Shiqian Zhao, Jiayang Liu, Yiming Li + 9 more2026-03-05💻 cs

Intelligent Diagnosis Using Dual-Branch Attention Network for Rare Thyroid Carcinoma Recognition with Ultrasound Imaging

Questo studio propone la CSASN, una rete di apprendimento multitask basata su un'architettura a doppio ramo con meccanismi di attenzione canale-spaziale, che migliora l'accuratezza nella diagnosi delle rare carcinomi tiroidei mediante immagini ecografiche superando gli squilibri dei dati e le sfide morfologiche.

Peiqi Li, Yincheng Gao, Renxing Li + 10 more2026-03-05💻 cs

Apple's Synthetic Defocus Noise Pattern: Characterization and Forensic Applications

Questo articolo caratterizza il "Pattern di Rumore di Sfocatura Sintetica" (SDNP) introdotto da Apple nelle foto in modalità ritratto, proponendo un metodo per la sua stima precisa e dimostrando come il suo utilizzo per mascherare le aree interessate migliori l'accuratezza della verifica forense della fonte della fotocamera, riducendo significativamente i falsi positivi.

David Vázquez-Padín, Fernando Pérez-González, Pablo Pérez-Miguélez2026-03-05💻 cs

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

Il paper propone MoB, un metodo di pruning dei token visivi basato sulla teoria della copertura multi-obiettivo che risolve il compromesso tra allineamento e preservazione visiva garantendo prestazioni superiori e scalabilità lineare nei modelli MLLM.

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

From Press to Pixels: Evolving Urdu Text Recognition

Questo studio presenta un'analisi comparativa tra modelli linguistici di grandi dimensioni e sistemi OCR tradizionali per il riconoscimento del testo in caratteri Nastaliq sui giornali urdu, introducendo il dataset UNB e dimostrando che l'addestramento di modelli LLM su dati specifici migliora significativamente l'accuratezza rispetto alle soluzioni convenzionali.

Samee Arif, Sualeha Farid2026-03-05💻 cs

Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation

Questo lavoro propone "Feature Mixing", un metodo semplice e veloce per la sintesi di outlier multimodali che, insieme al nuovo dataset CARLA-OOD, raggiunge prestazioni all'avanguardia nella rilevazione e segmentazione di dati fuori distribuzione con un significativo aumento di velocità rispetto alle tecniche esistenti.

Moru Liu, Hao Dong, Jessica Kelly + 2 more2026-03-05🤖 cs.AI

BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Digital Behavioural Change

Questo paper introduce il dataset BAH, un nuovo insieme di dati multimodale composto da 1.427 video annotati da esperti per il riconoscimento automatico dell'ambivalenza e dell'esitazione nei contesti di cambiamento comportamentale digitale, fornendo anche risultati preliminari che evidenziano la necessità di modelli spaziotemporali avanzati.

Manuela González-González, Soufiane Belharbi, Muhammad Osama Zeeshan + 6 more2026-03-05🤖 cs.LG

Do We Need All the Synthetic Data? Targeted Image Augmentation via Diffusion Models

Il paper presenta TADA, un framework che utilizza modelli di diffusione per generare dati sintetici mirati solo su un sottogruppo di esempi non appresi durante l'addestramento, migliorando significativamente la generalizzazione dei classificatori di immagini con un costo computazionale ridotto rispetto alle tecniche di aumento tradizionali.

Dang Nguyen, Jiping Li, Jinghao Zheng + 1 more2026-03-05🤖 cs.LG

Structural Vibration Monitoring with Diffractive Optical Processors

Gli autori presentano un sistema di monitoraggio delle vibrazioni strutturali basato su un processore ottico diffrattivo e una rete neurale leggera che, eliminando la necessità di array di sensori densi, permette di ricostruire in tempo reale gli spettri di vibrazione 3D con maggiore precisione, basso consumo energetico e costi ridotti.

Yuntian Wang, Zafer Yilmaz, Yuhang Li + 5 more2026-03-05🔬 physics.optics

EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations

Il paper introduce EgoWorld, un nuovo framework che ricostruisce una visione in prima persona a partire da osservazioni esocentriche ricche (come nuvole di punti, pose 3D delle mani e descrizioni testuali) superando i limiti dei metodi attuali e ottenendo prestazioni all'avanguardia su diversi dataset.

Junho Park, Andrew Sangwoo Ye, Taein Kwon2026-03-05🤖 cs.AI

Partial Weakly-Supervised Oriented Object Detection

Il paper propone il primo framework PWOOD per la rilevazione di oggetti orientati con supervisione parziale debole, che combina un modello OS-Student e una strategia di filtraggio CPF per sfruttare dati non etichettati e ridurre i costi di annotazione, ottenendo prestazioni competitive rispetto agli algoritmi semi-supervisionati su diversi dataset.

Mingxin Liu, Peiyuan Zhang, Yuan Liu + 8 more2026-03-05💻 cs

Fast Equivariant Imaging: Acceleration for Unsupervised Learning via Augmented Lagrangian and Auxiliary PnP Denoisers

Il lavoro propone Fast Equivariant Imaging (FEI), un nuovo framework di apprendimento non supervisionato che, sfruttando il metodo dei moltiplicatori di Lagrange e denoiser Plug-and-Play, accelera di dieci volte l'addestramento di reti per la ricostruzione di immagini (come nella tomografia computerizzata e nel completamento) senza dati di riferimento, migliorando al contempo le prestazioni e abilitando l'adattamento al momento del test.

Guixian Xu, Jinglai Li, Junqi Tang2026-03-05🤖 cs.LG

D2Dewarp: Dual Dimensions Geometric Representation Learning Based Document Image Dewarping

Il paper presenta D2Dewarp, un modello di apprendimento profondo che migliora la distorsione delle immagini documentali percependo le deformazioni lungo due dimensioni (orizzontale e verticale) e introduce un nuovo dataset di addestramento su larga scala chiamato DocDewarpHV.

Heng Li, Xiangping Wu, Qingcai Chen2026-03-05💻 cs

VITA: Vision-to-Action Flow Matching Policy

Il paper presenta VITA, un framework di apprendimento per politiche di flusso che mappano direttamente le rappresentazioni visive in azioni latenti senza rumore o condizionamento visivo iterativo, ottenendo un'inferenza più rapida e prestazioni competitive rispetto ai metodi tradizionali.

Dechen Gao, Boqi Zhao, Andrew Lee + 6 more2026-03-05🤖 cs.AI

Classification of Histopathology Slides with Persistent Homology Convolutions

Questo articolo presenta un metodo innovativo basato sulle convoluzioni di omologia persistente che, catturando le caratteristiche topologiche locali dei campioni istopatologici, supera le limitazioni delle architetture CNN tradizionali migliorando l'accuratezza diagnostica e riducendo la sensibilità agli iperparametri.

Shrunal Pothagoni, Benjamin Schweinhart2026-03-05💻 cs

Towards Generalizable AI-Generated Image Detection via Image-Adaptive Prompt Learning

Il paper propone IAPL, un nuovo paradigma di apprendimento che adatta dinamicamente i prompt in base a ogni immagine di test per migliorare la generalizzabilità e la robustezza nella rilevazione di immagini generate dall'IA, ottenendo prestazioni all'avanguardia su dataset universali.

Yiheng Li, Zichang Tan, Guoqing Xu + 3 more2026-03-05💻 cs

GaitSnippet: Gait Recognition Beyond Unordered Sets and Ordered Sequences

Il paper presenta GaitSnippet, un nuovo approccio al riconoscimento dell'andatura che supera i limiti dei metodi basati su set o sequenze rappresentando il passo come una composizione di "snippet" (brevi segmenti di fotogrammi) per catturare contesti temporali multi-scala, ottenendo risultati superiori su diversi dataset di riferimento.

Saihui Hou, Chenye Wang, Wenpeng Lang + 2 more2026-03-05💻 cs

Reinforcing Video Reasoning Segmentation to Think Before It Segments

Il paper presenta Veason-R1, un modello LVLM specializzato per la segmentazione video basata sul ragionamento che, grazie all'addestramento con Chain-of-Thought e l'ottimizzazione GRPO, supera lo stato dell'arte migliorando significativamente la coerenza spaziotemporale e riducendo le allucinazioni.

Sitong Gong, Lu Zhang, Yunzhi Zhuge + 3 more2026-03-05💻 cs

← Precedente Successivo →