cs.CV articoli | Gist.Science

LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding

Il paper presenta LongVideo-R1, un agente multimodale basato su ragionamento che ottimizza la comprensione di video lunghi a basso costo navigando in modo attivo e selettivo attraverso i contenuti, riducendo così la ridondanza computazionale senza compromettere l'accuratezza.

Jihao Qiu, Lingxi Xie, Xinyue Huo + 2 more2026-02-25💻 cs

LST-SLAM: A Stereo Thermal SLAM System for Kilometer-Scale Dynamic Environments

Il paper presenta LST-SLAM, un innovativo sistema di localizzazione e mappatura simultanea (SLAM) stereo termico progettato per ambienti dinamici su larga scala, che combina apprendimento auto-supervisionato delle caratteristiche termiche, tracciamento del movimento a doppio livello e vincoli ibridi semantico-geometrici per ottenere prestazioni robuste e precise in condizioni di illuminazione e meteo avverse.

Zeyu Jiang, Kuan Xu, Changhao Chen2026-02-25💻 cs

Dropping Anchor and Spherical Harmonics for Sparse-view Gaussian Splatting

Il paper propone DropAnSH-GS, un metodo innovativo per lo Splatting Gaussiano 3D che combina una strategia di dropout basata su "ancore" per eliminare i vicini spaziali e il dropout di armoniche sferiche di alto grado, superando così l'effetto di compensazione tra vicini e l'overfitting nelle condizioni sparse.

Shuangkang Fang, I-Chao Shen, Xuanyang Zhang + 5 more2026-02-25💻 cs

UFO: Unifying Feed-Forward and Optimization-based Methods for Large Driving Scene Modeling

Il paper presenta UFO, un nuovo paradigma ricorrente che unisce metodi feed-forward e basati su ottimizzazione per ricostruire efficientemente e con alta precisione scene di guida dinamiche su lunghe distanze, superando i limiti computazionali delle tecniche esistenti.

Kaiyuan Tan, Yingying Shen, Mingfei Tu + 5 more2026-02-25💻 cs

Estimation of Confidence Bounds in Binary Classification using Wilson Score Kernel Density Estimation

Il paper presenta il "Wilson Score Kernel Density Classification", un metodo innovativo basato su kernel per stimare limiti di confidenza affidabili nella classificazione binaria, offrendo prestazioni paragonabili ai Processi Gaussiani ma con una complessità computazionale inferiore.

Thorbjørn Mosekjær Iversen, Zebin Duan, Frederik Hagelskjær2026-02-25🤖 cs.LG

Are Multimodal Large Language Models Good Annotators for Image Tagging?

Questo lavoro propone TagLLM, un nuovo framework che riduce drasticamente i costi di annotazione delle immagini sfruttando i Modelli Linguistici Multimodali (MLLM) e colma il divario tra le loro annotazioni e quelle umane, ottenendo prestazioni superiori nel 60-80% dei compiti di addestramento a valle.

Ming-Kun Xie, Jia-Hao Xiao, Zhiqiang Kou + 3 more2026-02-25💻 cs

Multimodal MRI Report Findings Supervised Brain Lesion Segmentation with Substructures

Il paper propone MS-RSuper, un metodo di segmentazione delle lesioni cerebrali supervisionato dai referti radiologici che, attraverso una formulazione unificata e consapevole dell'incertezza, integra efficacemente indicazioni qualitative modali e vincoli quantitativi parziali per migliorare le prestazioni su dataset multimodali complessi.

Yubin Ge, Yongsong Huang, Xiaofeng Liu2026-02-25⚡ eess

Le-DETR: Revisiting Real-Time Detection Transformer with Efficient Encoder Design

Il paper presenta Le-DETR, un nuovo modello di rilevamento oggetti in tempo reale che combina un design efficiente del backbone (EfficientNAT) e un codificatore ibrido ridisegnato per raggiungere prestazioni all'avanguardia (SOTA) con costi di pre-addestramento ridotti dell'80% rispetto ai metodi precedenti.

Jiannan Huang, Aditya Kane, Fengzhe Zhou + 2 more2026-02-25💻 cs

From Perception to Action: An Interactive Benchmark for Vision Reasoning

Il paper introduce CHAIN, un nuovo benchmark interattivo 3D basato sulla fisica che valuta la capacità dei modelli Vision-Language di pianificare azioni complesse vincolate da strutture fisiche, rivelando che gli attuali modelli avanzati faticano ancora a comprendere e tradurre in modo affidabile tali vincoli causali in piani d'azione a lungo termine.

Yuhao Wu, Maojia Song, Yihuai Lan + 8 more2026-02-25💻 cs

MIP Candy: A Modular PyTorch Framework for Medical Image Processing

Il paper presenta MIP Candy, un framework PyTorch open-source e modulare progettato per l'elaborazione di immagini mediche, che offre una pipeline completa e flessibile per il training, l'inferenza e la valutazione, permettendo agli utenti di personalizzare facilmente i componenti del modello e integrare strumenti di tracciamento sperimentale.

Tianhao Fu, Yucheng Chen2026-02-25🤖 cs.AI

Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning

Il paper presenta CLIPGlasses, un framework plug-and-play che migliora la capacità di CLIP di comprendere descrizioni visive negate senza fine-tuning, utilizzando moduli "Lens" e "Frame" per disentanglare i significati negati e penalizzare le corrispondenze errate, ottenendo così prestazioni superiori, specialmente in scenari cross-domain e con risorse limitate.

Junhao Xiao, Zhiyu Wu, Hao Lin + 5 more2026-02-25💻 cs

OmniOCR: Generalist OCR for Ethnic Minority Languages

OmniOCR è un framework universale basato su Dynamic LoRA che supera le limitazioni dei modelli esistenti nel riconoscimento ottico dei caratteri per le lingue delle minoranze etniche, ottenendo risultati all'avanguardia su script complessi e a risorse scarse con un'efficienza parametrica superiore.

Bonan Liu, Zeyu Zhang, Bingbing Meng + 5 more2026-02-25💻 cs

OCR-Agent: Agentic OCR with Capability and Memory Reflection

Il paper presenta OCR-Agent, un nuovo framework iterativo di auto-correzione che potenzia i modelli Vision-Language attraverso la riflessione sulle capacità e sulla memoria, permettendo loro di superare i bias cognitivi e raggiungere risultati all'avanguardia nel benchmark OCRBench v2 senza necessità di ulteriore addestramento.

Shimin Wen, Zeyu Zhang, Xingdou Bian + 5 more2026-02-25💻 cs

VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

Il paper presenta VAUQ, un framework di quantificazione dell'incertezza consapevole della visione che, misurando quanto l'output di un modello LVLM dipenda dalle evidenze visive tramite un punteggio di informazione sull'immagine e una strategia di mascheramento non supervisionata, offre una valutazione autonoma dell'accuratezza delle risposte superiore ai metodi esistenti.

Seongheon Park, Changdae Oh, Hyeong Kyu Choi + 2 more2026-02-25💬 cs.CL

Motivation is Something You Need

Questo lavoro propone un nuovo paradigma di addestramento ispirato alla neuroscienza affettiva, che utilizza un framework a doppio modello con aggiornamenti condivisi e attivazione selettiva per migliorare le prestazioni di un modello di base e di uno più grande, riducendo al contempo i costi computazionali.

Mehdi Acheli, Walid Gaaloul2026-02-25🤖 cs.AI

ProxyFL: A Proxy-Guided Framework for Federated Semi-Supervised Learning

Il paper propone ProxyFL, un framework guidato da proxy che utilizza i pesi apprendibili del classificatore come proxy unificati per mitigare simultaneamente l'eterogeneità esterna tra i client e quella interna tra dati etichettati e non etichettati nel contesto dell'apprendimento federato semi-supervisionato.

Duowen Chen, Yan Wang2026-02-25🤖 cs.LG

Optimizing Occupancy Sensor Placement in Smart Environments

Questo articolo propone un metodo automatico basato sulla programmazione lineare intera per determinare il posizionamento ottimale dei sensori di profondità a tempo di volo (ToF) negli uffici, al fine di massimizzare l'accuratezza nel rilevamento dell'occupazione delle zone preservando la privacy e ottimizzando il risparmio energetico.

Hao Lu, Richard J. Radke2026-02-25💻 cs

UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics

Questo lavoro presenta UDVideoQA, un nuovo dataset e benchmark per il Question Answering su video del traffico urbano, progettato per valutare e migliorare la capacità dei modelli linguistici visivi di eseguire ragionamenti spaziotemporali complessi su dinamiche multi-agente in scenari reali, garantendo al contempo la privacy attraverso tecniche di offuscamento dinamico.

Joseph Raj Vishal, Nagasiri Poluri, Katha Naik + 7 more2026-02-25💻 cs

SynthRender and IRIS: Open-Source Framework and Dataset for Bidirectional Sim-Real Transfer in Industrial Object Perception

Gli autori presentano SynthRender, un framework open-source per la generazione di immagini sintetiche con randomizzazione di dominio guidata, e IRIS, un nuovo dataset industriale, dimostrando come questa combinazione superi le tecniche esistenti per il trasferimento bidirezionale Sim-Real nella percezione di oggetti industriali, raggiungendo prestazioni superiori su diversi benchmark.

Jose Moises Araya-Martinez, Thushar Tom, Adrián Sanchis Reig + 3 more2026-02-25💻 cs

LUMEN: Longitudinal Multi-Modal Radiology Model for Prognosis and Diagnosis

Il paper presenta LUMEN, un nuovo framework di addestramento per modelli visione-linguaggio ottimizzato per l'interpretazione longitudinale di radiografie toraciche che, sfruttando il fine-tuning multi-immagine e multi-task su dataset come MIMIC-CXR, migliora significativamente le prestazioni diagnostiche e dimostra un potenziale promettente per la prognosi.

Zhifan Jiang, Dong Yang, Vishwesh Nath + 7 more2026-02-25🤖 cs.LG

← Precedente Successivo →