cs.CV articoli | Gist.Science

Shape vs. Context: Examining Human--AI Gaps in Ambiguous Japanese Character Recognition

Questo studio evidenzia le differenze comportamentali tra esseri umani e modelli visione-linguaggio nel riconoscere caratteri giapponesi ambigui, dimostrando che, sebbene i loro confini decisionali differiscano nella sola analisi della forma, il contesto può migliorare l'allineamento in alcune condizioni.

Daichi Haraguchi2026-03-02💻 cs

Unsupervised Causal Prototypical Networks for De-biased Interpretable Dermoscopy Diagnosis

Il paper propone CausalProto, una rete prototipale causale non supervisionata che, sfruttando un modello causale strutturale e un collo di bottiglia informativo, disaccoppia le caratteristiche patologiche dai fattori ambientali confondenti nelle immagini dermoscopiche per ottenere diagnosi più accurate, interpretabili e prive di bias senza compromettere le prestazioni.

Junhao Jia, Yueyi Wu, Huangwei Chen + 4 more2026-03-02⚡ eess

Neural Image Space Tessellation

Il paper presenta NIST, un approccio di post-processing neurale leggero che ricrea l'effetto visivo della tassellazione geometrica deformando i contorni nello spazio immagine e preservando la coerenza delle texture, offrendo così silhouettes lisce e fedeli a un costo costante indipendentemente dalla complessità geometrica.

Youyang Du, Junqiu Zhu, Zheng Zeng + 2 more2026-03-02💻 cs

Learning Accurate Segmentation Purely from Self-Supervision

Il lavoro presenta Selfment, un framework completamente auto-supervisionato che raggiunge nuovi risultati di stato dell'arte nella segmentazione degli oggetti senza alcuna annotazione manuale, superando i metodi esistenti e dimostrando un'eccezionale capacità di generalizzazione zero-shot.

Zuyao You, Zuxuan Wu, Yu-Gang Jiang2026-03-02💻 cs

OPTIAGENT: A Physics-Driven Agentic Framework for Automated Optical Design

Il paper presenta OPTIAGENT, un framework agentico basato su LLM che, grazie a un dataset specializzato, a un addestramento ibrido e a un'ottimizzazione della politica guidata da ricompense fisiche, permette a utenti non esperti di progettare sistemi ottici complessi superando i metodi tradizionali.

Yuyu Geng, Lei Sun, Yao Gao + 6 more2026-03-02🤖 cs.LG

VideoPulse: Neonatal heart rate and peripheral capillary oxygen saturation (SpO2) estimation from contact free video

Il paper presenta VideoPulse, un dataset neonatale e una pipeline end-to-end che stimano con precisione la frequenza cardiaca e la saturazione di ossigeno (SpO2) da video facciali senza contatto, offrendo una soluzione non invasiva e a basso costo per il monitoraggio in terapia intensiva neonatale.

Deependra Dewagiri, Kamesh Anuradha, Pabadhi Liyanage + 6 more2026-03-02⚡ eess

Breaking the Data Barrier: Robust Few-Shot 3D Vessel Segmentation using Foundation Models

Il paper propone un nuovo framework che adatta il modello fondazionale DINOv3 per la segmentazione vascolare 3D in regime few-shot, ottenendo prestazioni superiori rispetto agli stati dell'arte su dataset in-domain e out-of-distribution grazie a un adattatore 3D leggero e a strategie di aggregazione multi-scala che garantiscono coerenza volumetrica con dati di addestramento limitati.

Kirato Yoshihara, Yohei Sugawara, Yuta Tokuoka + 1 more2026-03-02⚡ eess

FluoCLIP: Stain-Aware Focus Quality Assessment in Fluorescence Microscopy

Il paper introduce FluoCLIP, un nuovo dataset (FluoMix) e un framework visione-linguaggio che affronta la valutazione della qualità della messa a fuoco nella microscopia a fluorescenza considerando le specifiche caratteristiche delle colorazioni, superando così i limiti degli approcci esistenti che ignorano tale variabilità.

Hyejin Park, Jiwon Yoon, Sumin Park + 5 more2026-03-02⚡ eess

EMO-R3: Reflective Reinforcement Learning for Emotional Reasoning in Multimodal Large Language Models

Il paper propone EMO-R3, un framework di apprendimento per rinforzo riflessivo che migliora il ragionamento emotivo e l'interpretabilità dei Modelli Linguistici Multimodali attraverso un pensiero emotivo strutturato e un meccanismo di ricompensa basato sulla coerenza visivo-testuale.

Yiyang Fang, Wenke Huang, Pei Fu + 5 more2026-03-02🤖 cs.AI

BiM-GeoAttn-Net: Linear-Time Depth Modeling with Geometry-Aware Attention for 3D Aortic Dissection CTA Segmentation

Il paper presenta BiM-GeoAttn-Net, un framework leggero che combina la modellazione dello stato spaziale bidirezionale in profondità con un'attenzione vascolare consapevole della geometria per migliorare l'accurata segmentazione 3D delle dissezioni aortiche nelle immagini CTA, ottenendo prestazioni superiori rispetto alle tecniche esistenti.

Yuan Zhang, Lei Liu, Jialin Zhang + 3 more2026-03-02⚡ eess

See, Act, Adapt: Active Perception for Unsupervised Cross-Domain Visual Adaptation via Personalized VLM-Guided Agent

Il paper propone Sea², un approccio attivo di percezione che adatta l'uso di modelli pre-addestrati in nuovi ambienti indoor tramite un agente guidato da un VLM personalizzato, migliorando le prestazioni in compiti visivi senza richiedere annotazioni o riaddestramento dei modelli di percezione.

Tianci Tang, Tielong Cai, Hongwei Wang + 1 more2026-03-02🤖 cs.AI

Action-Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation

Il paper propone un framework per la manipolazione bimanuale che sfrutta un modello fondazionale geometrico 3D pre-addestrato per prevedere simultaneamente azioni e l'evoluzione della scena 3D partendo solo da immagini RGB, superando così i limiti dei metodi basati su features 2D o nuvole di punti esplicite e ottenendo prestazioni superiori sia in simulazione che nel mondo reale.

Chongyang Xu, Haipeng Li, Shen Cheng + 4 more2026-03-02💻 cs

Footprint-Guided Exemplar-Free Continual Histopathology Report Generation

Il paper presenta un framework di apprendimento continuo senza esempi per la generazione di referti istopatologici da immagini gigapixel, che utilizza impronte digitali di dominio compatte e un replay generativo per mitigare l'oblio catastrofico e adattarsi alle nuove convenzioni cliniche senza memorizzare dati storici.

Pratibha Kumari, Daniel Reisenbüchler, Afshin Bozorgpour + 3 more2026-03-02💻 cs

Denoising-Enhanced YOLO for Robust SAR Ship Detection

Il paper propone CPN-YOLO, un framework di rilevamento navale SAR ad alta precisione basato su YOLOv8 che integra un modulo di denoising, un meccanismo di attenzione PPA e una funzione di perdita NWD per migliorare la robustezza in scenari complessi e la rilevazione di piccole imbarcazioni, ottenendo risultati superiori rispetto agli stati dell'arte sui dataset HRSID e SSDD.

Xiaojing Zhao, Shiyang Li, Zena Chu + 5 more2026-03-02💻 cs

Revisiting Integration of Image and Metadata for DICOM Series Classification: Cross-Attention and Dictionary Learning

Il paper propone un framework multimodale end-to-end che integra immagini e metadati DICOM mediante meccanismi di attenzione incrociata e apprendimento dizionario per classificare serie di immagini mediche in modo robusto, superando le sfide legate all'eterogeneità dei dati e alla sparsità dei metadati senza richiedere imputazione.

Tuan Truong, Melanie Dohmen, Sara Lorio + 1 more2026-03-02⚡ eess

Polarization Uncertainty-Guided Diffusion Model for Color Polarization Image Demosaicking

Il paper propone un modello di diffusione guidato dall'incertezza di polarizzazione che, integrando un prior generativo da modelli testo-immagine, supera i limiti dei metodi esistenti nel ricostruire con alta fedeltà le caratteristiche di polarizzazione (DOP e AOP) dalle immagini grezze a filtro colorato-polarizzato.

Chenggong Li, Yidong Luo, Junchao Zhang + 1 more2026-03-02⚡ eess

NAU-QMUL: Utilizing BERT and CLIP for Multi-modal AI-Generated Image Detection

Il paper presenta un modello multi-modale e multi-task che combina BERT e CLIP con una strategia di pseudo-etichettatura per rilevare immagini generate dall'IA e identificarne i modelli sottostanti, ottenendo il quinto posto nelle competizioni CT2 con punteggi F1 rispettivamente del 83,16% e del 48,88%.

Xiaoyu Guo, Arkaitz Zubiaga2026-03-02💬 cs.CL

Open-Vocabulary Semantic Segmentation in Remote Sensing via Hierarchical Attention Masking and Model Composition

Il paper propone ReSeg-CLIP, un metodo senza addestramento per la segmentazione semantica open-vocabulary in ambito di telerilevamento che combina un meccanismo di mascheramento gerarchico basato su SAM con una composizione di modelli CLIP specifici per il settore, ottenendo risultati all'avanguardia su tre benchmark.

Mohammadreza Heidarianbaei, Mareike Dorozynski, Hubert Kanyamahanga + 2 more2026-03-02💻 cs

Bandwidth-adaptive Cloud-Assisted 360-Degree 3D Perception for Autonomous Vehicles

Il paper propone un sistema ibrido cloud-veicolo che, sfruttando la comunicazione V2X e modelli transformer per la fusione dei dati sensoriali, adatta dinamicamente il carico computazionale e la quantizzazione delle feature per garantire una percezione 3D a 360 gradi con latenza ridotta e maggiore accuratezza rispetto alle soluzioni puramente onboard.

Faisal Hawladera, Rui Meireles, Gamal Elghazaly + 2 more2026-03-02🤖 cs.LG

Altitude-Aware Visual Place Recognition in Top-Down View

Questo studio propone un metodo di riconoscimento visivo dei luoghi aereo adattivo all'altitudine che, analizzando la densità delle caratteristiche del suolo per stimare l'altitudine relativa e generare immagini query canoniche, raggiunge una localizzazione robusta e ad alta precisione senza richiedere sensori aggiuntivi.

Xingyu Shao, Mengfan He, Chunyu Li + 2 more2026-03-02💻 cs

← Precedente Successivo →