cs.CV articoli | Gist.Science

TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering

Il paper presenta TextPecker, una strategia di apprendimento per rinforzo plug-and-play che risolve il problema della valutazione delle anomalie strutturali nella generazione di testo visivo, migliorando significativamente la fedeltà strutturale e l'allineamento semantico nei modelli text-to-image.

Hanshen Zhu, Yuliang Liu, Xuecheng Wu + 7 more2026-02-27💻 cs

NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning

Il paper presenta NoRD, un modello visione-linguaggio-azione efficiente dal punto di vista dei dati che, grazie all'adozione dell'algoritmo Dr. GRPO per mitigare il bias di difficoltà, raggiunge prestazioni competitive nella guida autonoma utilizzando meno del 60% dei dati di addestramento e senza richiedere annotazioni di ragionamento.

Ishaan Rawal, Shubh Gupta, Yihan Hu + 1 more2026-02-27🤖 cs.AI

Enhancing Multi-Modal LLMs Reasoning via Difficulty-Aware Group Normalization

Il paper propone Durian, un metodo di normalizzazione di gruppo consapevole della difficoltà che, raggruppando i campioni in base alla complessità percettiva e all'incertezza di ragionamento, risolve l'instabilità delle tecniche di ottimizzazione RLVR/GRPO nei modelli LLM multi-modali, migliorando significativamente le prestazioni di ragionamento.

Jinghan Li, Junfeng Fang, Jinda Lu + 5 more2026-02-27💻 cs

EndoDDC: Learning Sparse to Dense Reconstruction for Endoscopic Robotic Navigation via Diffusion Depth Completion

Il paper presenta EndoDDC, un metodo innovativo basato su modelli di diffusione che integra immagini, mappe di profondità sparse e gradienti per migliorare la ricostruzione 3D e la navigazione robotica in ambienti endoscopici complessi, superando le limitazioni legate alla scarsa texture e alle riflessioni luminose.

Yinheng Lin, Yiming Huang, Beilei Cui + 4 more2026-02-27💻 cs

CoLoGen: Progressive Learning of Concept-Localization Duality for Unified Image Generation

Il paper introduce CoLoGen, un framework di diffusione unificato che risolve il conflitto tra rappresentazioni concettuali e di localizzazione attraverso un apprendimento progressivo e un modulo di "tessitura" delle rappresentazioni, ottenendo prestazioni superiori nella generazione, modifica e personalizzazione di immagini.

YuXin Song, Yu Lu, Haoyuan Sun + 6 more2026-02-27💻 cs

Solaris: Building a Multiplayer Video World Model in Minecraft

Il paper introduce Solaris, un modello video mondiale multiplayer per Minecraft che supera i limiti delle prospettive singole grazie a un sistema di raccolta dati automatizzato, un framework di valutazione completo e una strategia di addestramento ibrido, permettendo la simulazione coerente di osservazioni multi-vista e interazioni tra agenti.

Georgy Savva, Oscar Michel, Daohan Lu + 6 more2026-02-27💻 cs

Adaptive Prefiltering for High-Dimensional Similarity Search: A Frequency-Aware Approach

Il paper presenta un framework di prefiltraggio adattivo che, sfruttando i pattern di frequenza delle query e le metriche di coerenza dei cluster, ottimizza l'allocazione del budget computazionale per la ricerca di similarità in spazi ad alta dimensionalità, riducendo le operazioni di calcolo del 20,4% rispetto ai metodi statici mantenendo prestazioni sub-millisecondo.

Teodor-Ioan Calin2026-02-27💻 cs

CrossLLM-Mamba: Multimodal State Space Fusion of LLMs for RNA Interaction Prediction

Il paper presenta CrossLLM-Mamba, un nuovo framework che utilizza encoder Mamba bidirezionali per modellare le interazioni RNA come transizioni dinamiche di stato, superando le strategie di fusione statiche e ottenendo prestazioni all'avanguardia nella previsione di interazioni RNA-proteina, RNA-molecola piccola e RNA-RNA.

Rabeya Tus Sadia, Qiang Ye, Qiang Cheng2026-02-27🧬 q-bio

Enabling clinical use of foundation models in histopathology

Questo studio dimostra che l'introduzione di nuove funzioni di perdita per la robustezza durante l'addestramento di modelli specifici per compiti, senza dover riaddestrare i modelli fondazionali, riduce la sensibilità alla variabilità tecnica e migliora sia la robustezza che l'accuratezza predittiva, rendendo i modelli di patologia computazionale basati su foundation models adatti all'uso clinico routinario.

Audun L. Henriksen, Ole-Johan Skrede, Lisa van der Schee + 31 more2026-02-27🤖 cs.AI

Optimizing Neural Network Architecture for Medical Image Segmentation Using Monte Carlo Tree Search

Questo articolo presenta MNAS-Unet, un innovativo framework per la segmentazione di immagini mediche che integra la Ricerca di Architetture Neurali con la Ricerca ad Albero Monte Carlo per ottenere modelli più leggeri, efficienti e accurati rispetto agli stati dell'arte, riducendo significativamente il budget di ricerca e il consumo di risorse.

Liping Meng, Fan Nie, Yunyun Zhang + 1 more2026-02-27💻 cs

AeroDGS: Physically Consistent Dynamic Gaussian Splatting for Single-Sequence Aerial 4D Reconstruction

Il paper presenta AeroDGS, un framework di splatting gaussiano 4D guidato dalla fisica che risolve le ambiguità nella ricostruzione dinamica aerea da singola vista incorporando vincoli di stabilità e traiettoria, ottenendo risultati superiori rispetto agli stati dell'arte su nuovi dataset reali e sintetici.

Hanyang Liu, Rongjun Qin2026-02-27🤖 cs.AI

Enhancing Renal Tumor Malignancy Prediction: Deep Learning with Automatic 3D CT Organ Focused Attention

Questo studio presenta un framework di deep learning che utilizza una funzione di perdita "Organ Focused Attention" per prevedere la malignità dei tumori renali tramite immagini TC 3D senza necessità di segmentazione manuale, ottenendo prestazioni superiori ai modelli tradizionali e offrendo un metodo più efficiente per la diagnosi clinica.

Zhengkang Fan, Chengkun Sun, Russell Terry + 2 more2026-02-27🤖 cs.AI

Vision Transformers Need More Than Registers

Questo lavoro dimostra che gli artefatti nei Vision Transformers derivano da un comportamento di aggregazione pigro che sfrutta patch di sfondo irrilevanti come scorciatoie semantiche, e propone una soluzione che integra selettivamente le caratteristiche delle patch nel token CLS per migliorare le prestazioni su diversi compiti di supervisione.

Cheng Shi, Yizhou Yu, Sibei Yang2026-02-27💻 cs

MolFM-Lite: Multi-Modal Molecular Property Prediction with Conformer Ensemble Attention and Cross-Modal Fusion

Il paper presenta MolFM-Lite, un modello multi-modale che migliora la previsione delle proprietà molecolari integrando sequenze, grafi ed ensemble conformazionali tramite meccanismi di attenzione incrociata e fusione contestuale, ottenendo significativi guadagni prestazionali rispetto ai metodi a modalità singola.

Syed Omer Shah, Mohammed Maqsood Ahmed, Danish Mohiuddin Mohammed + 2 more2026-02-27🤖 cs.LG

SimpleOCR: Rendering Visualized Questions to Teach MLLMs to Read

Il paper introduce SimpleOCR, una strategia di formazione plug-and-play che, rendendo le domande testuali direttamente sulle immagini, costringe i modelli linguistici multimodali a superare la loro "pigrizia modale" e a migliorare significativamente le capacità di lettura visiva con un'efficienza dei dati senza precedenti.

Yibo Peng, Peng Xia, Ding Zhong + 6 more2026-02-27🤖 cs.LG

Exploring Multimodal LMMs for Online Episodic Memory Question Answering on the Edge

Questo studio dimostra che l'implementazione di modelli linguistici multimodali su dispositivi edge, attraverso un'architettura asincrona che trasforma il video in memoria testuale, consente di ottenere risposte a domande sull'episodio visivo in tempo reale con prestazioni competitive rispetto alle soluzioni cloud, garantendo al contempo privacy e bassa latenza.

Giuseppe Lando, Rosario Forte, Antonino Furnari2026-02-27💻 cs

MammoWise: Multi-Model Local RAG Pipeline for Mammography Report Generation

Il paper presenta MammoWise, un pipeline locale multi-modello basato su VLM open source e RAG che trasforma le immagini di mammografia in report strutturati e classifiche BI-RADS, dimostrando come il fine-tuning efficiente e il prompting avanzato migliorino significativamente l'accuratezza e la qualità della generazione dei referti radiologici.

Raiyan Jahangir, Nafiz Imtiaz Khan, Amritanand Sudheerkumar + 1 more2026-02-27💻 cs

Space Syntax-guided Post-training for Residential Floor Plan Generation

Questo articolo propone la Space Syntax-guided Post-training (SSPT), un paradigma di post-addestramento che integra la conoscenza della sintassi spaziale nella generazione di planimetrie residenziali tramite un oracolo non differenziabile e tecniche di reinforcement learning, migliorando significativamente la dominanza degli spazi pubblici e la gerarchia funzionale rispetto ai modelli basati puramente sulla distribuzione dei dati.

Zhuoyang Jiang, Dongqing Zhang2026-02-27🤖 cs.LG

Pix2Key: Controllable Open-Vocabulary Retrieval with Semantic Decomposition and Self-Supervised Visual Dictionary Learning

Il paper presenta Pix2Key, un metodo per il recupero di immagini composte che utilizza dizionari visivi open-vocabulary e un preaddestramento auto-supervisionato per allineare con precisione l'intento dell'utente mantenendo alta la diversità dei risultati, ottenendo miglioramenti significativi sul benchmark DFMM-Compose.

Guoyizhe Wei, Yang Jiao, Nan Xi + 4 more2026-02-27💻 cs

HARU-Net: Hybrid Attention Residual U-Net for Edge-Preserving Denoising in Cone-Beam Computed Tomography

Il paper propone l'HARU-Net, una nuova architettura di rete neurale basata su meccanismi di attenzione ibrida e residui, che supera i metodi esistenti nel ridurre il rumore nelle immagini CBCT dentali preservando i dettagli anatomici con un costo computazionale inferiore.

Khuram Naveed, Ruben Pauwels2026-02-27⚡ eess

← Precedente Successivo →