cs articoli | Gist.Science

AnyPcc: Compressing Any Point Cloud with a Single Universal Model

Il paper introduce AnyPcc, un framework universale per la compressione di nuvole di punti che supera i limiti di generalizzazione degli metodi esistenti grazie a un modello di contesto robusto e a una strategia di fine-tuning adattivo per istanza, ottenendo prestazioni state-of-the-art su dataset diversificati con un basso overhead computazionale.

Kangli Wang, Qianxi Yi, Yuqi Ye, Shihao Li, Wei Gao2026-03-10💻 cs

Automated Pest Counting in Water Traps through Active Robotic Stirring for Occlusion Handling

Questo articolo propone un metodo automatizzato per il conteggio dei parassiti nelle trappole ad acqua che utilizza un sistema di agitazione robotica attiva e adattiva per ridurre l'occlusione, migliorando significativamente l'accuratezza e riducendo i tempi di esecuzione rispetto ai metodi tradizionali basati su immagini statiche.

Xumin Gao, Mark Stevens, Grzegorz Cielniak2026-03-10💻 cs

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

Il paper introduce CountFormer, un framework basato su DINOv2 che, sostituendo l'encoder di immagini con rappresentazioni foundation auto-supervisionate, mira a migliorare la consistenza strutturale nel conteggio di oggetti senza esempi, ottenendo risultati competitivi su FSC-147 e riducendo gli errori di sovrastima legati a componenti simmetriche o strutture complesse.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

LagMemo: Language 3D Gaussian Splatting Memory for Multi-modal Open-vocabulary Multi-goal Visual Navigation

Il paper presenta LagMemo, un sistema di navigazione robotica che utilizza una memoria 3D basata su Gaussian Splatting arricchita da informazioni linguistiche per gestire in modo efficace la navigazione multi-obiettivo con query a vocabolario aperto, dimostrando prestazioni superiori rispetto agli stati dell'arte su un nuovo benchmark curato chiamato GOAT-Core.

Haotian Zhou, Xiaole Wang, He Li, Zhuo Qi, Jinrun Yin, Haiyu Kong, Jianghuan Xu, Huijing Zhao2026-03-10💻 cs

SAGE: Structure-Aware Generative Video Transitions between Diverse Clips

Il paper presenta SAGE, un approccio zero-shot che genera transizioni video strutturalmente coerenti tra clip diverse combinando guida strutturale e sintesi generativa, superando le limitazioni dei metodi tradizionali e generativi attuali senza richiedere addestramento su dati specifici.

Mia Kan, Yilin Liu, Niloy Mitra2026-03-10💻 cs

MobiDock: Design and Control of A Modular Self Reconfigurable Bimanual Mobile Manipulator via Robotic Docking

Il paper presenta MobiDock, un sistema mobile manipolatore bimanuale modulare e auto-ricostituibile che, grazie a una strategia di aggancio autonoma basata su visione artificiale e un meccanismo di bloccaggio a vite, trasforma il controllo complesso di due robot indipendenti in un'unica piattaforma stabile e più efficiente.

Xuan-Thuan Nguyen, Khac Nam Nguyen, Ngoc Duy Tran, Thi Thoa Mac, Anh Nguyen, Hoang Hiep Ly, Tung D. Ta2026-03-10💻 cs

Vectorized Online POMDP Planning

Il paper presenta VOPP, un nuovo pianificatore POMDP online vettorializzato che sfrutta il calcolo massivamente parallelo per eliminare le dipendenze e le sincronizzazioni, risultando fino a 20 volte più efficiente dei solutori paralleli esistenti e superiore ai solutori sequenziali con un budget di pianificazione 1000 volte inferiore.

Marcus Hoerger, Muhammad Sudrajat, Hanna Kurniawati2026-03-10💻 cs

Detecting AI-Generated Images via Diffusion Snap-Back Reconstruction: A Forensic Approach

Questo studio propone un metodo forense per rilevare immagini generate dall'IA analizzando il "rimbalzo diffusivo", ovvero come le immagini reagiscono a una leggera perturbazione e ricostruzione tramite modelli di diffusione, ottenendo un'accuratezza eccezionale (AUROC 0,993) nel distinguere foto reali da sintetiche anche in presenza di distorsioni comuni.

Mohd Ruhul Ameen, Akif Islam2026-03-10💻 cs

PhantomFetch: Obfuscating Loads against Prefetcher Side-Channel Attacks

Il paper presenta PhantomFetch, la prima difesa hardware-agnostica che protegge i prefetcher IP-stride da attacchi side-channel offuscando i carichi sensibili senza disabilitare il prefetching né richiedere modifiche all'hardware.

Xingzhi Zhang, Buyi Lv, Yimin Lu, Kai Bu2026-03-10💻 cs

MUGSQA: Novel Multi-Uncertainty-Based Gaussian Splatting Quality Assessment Method, Dataset, and Benchmarks

Il paper presenta MUGSQA, un nuovo metodo, dataset e benchmark basati su una valutazione soggettiva multi-distanza che tiene conto di diverse incertezze dei dati di input per analizzare la qualità percettiva e la robustezza dei metodi di ricostruzione 3D tramite Gaussian Splatting.

Tianang Chen, Jian Jin, Shilv Cai, Zhuangzi Li, Weisi Lin2026-03-10💻 cs

Counting Through Occlusion: Framework for Open World Amodal Counting

Il paper presenta CountOCC, un framework innovativo per il conteggio amodale in scenari open world che supera i limiti delle attuali metodologie sotto occlusione ricostruendo le caratteristiche degli oggetti nascosti tramite guida multimodale gerarchica e un obiettivo di equivalenza visiva, ottenendo risultati allo stato dell'arte su dataset appositamente creati come FSC-147-OCC e CARPK-OCC.

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs

Think, Speak, Decide: Language-Augmented Multi-Agent Reinforcement Learning for Economic Decision-Making

Il paper presenta LAMP, un framework di apprendimento per rinforzo multi-agente che integra l'elaborazione del linguaggio in un flusso "Pensare-Parlare-Decidere" per migliorare significativamente la redditività, la robustezza e l'interpretabilità delle decisioni economiche rispetto alle metodologie tradizionali.

Heyang Ma, Qirui Mi, Qipeng Yang, Zijun Fan, Bo Li, Haifeng Zhang2026-03-10💻 cs

Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning

Il paper presenta Video2Layout, un framework che supera i limiti delle mappe cognitive a griglia ricostruendo layout spaziali metrici basati su coordinate continue dei bordi degli oggetti, migliorando significativamente il ragionamento spaziale nei modelli multimodali.

Yibin Huang, Wang Xu, Wanyue Zhang, Helu Zhi, Jingjing Huang, Yangbin Xu, Yangang Sun, Conghui Zhu, Tiejun Zhao2026-03-10💻 cs

Multi-Order Matching Network for Alignment-Free Depth Super-Resolution

Il paper presenta MOMNet, una rete innovativa per la super-risoluzione della profondità che supera i limiti delle allineamenti RGB-D imperfetti attraverso un meccanismo di corrispondenza multi-ordine e un'aggregazione adattiva, ottenendo prestazioni all'avanguardia in scenari reali.

Zhengxue Wang, Zhiqiang Yan, Yuan Wu, Guangwei Gao, Xiang Li, Jian Yang2026-03-10💻 cs

Learning to Think Fast and Slow for Visual Language Models

Il paper presenta DualMindVLM, un modello di linguaggio visivo che implementa un meccanismo di pensiero duale adattivo, imitando la capacità umana di alternare risposte intuitive rapide a ragionamenti deliberati lenti in base alla complessità del compito, ottenendo così prestazioni di ragionamento all'avanguardia con un'efficienza dei token significativamente superiore rispetto ai modelli esistenti.

Chenyu Lin, Cheng Chi, Jinlin Wu, Sharon Li, Kaiyang Zhou2026-03-10💻 cs

Radiative-Structured Neural Operator for Continuous and Extrapolative Spectral Super-Resolution

Il paper propone il Radiative-Structured Neural Operator (RSNO), un approccio che integra principi fisici e operatori neurali per ricostruire immagini iperspettrali continue da osservazioni multispettrali, garantendo coerenza fisica e riducendo le distorsioni cromatiche attraverso fasi di upsampling, ricostruzione e raffinamento.

Ziye Zhang, Bin Pan, Zhenwei Shi2026-03-10💻 cs

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

Il paper presenta UnfoldLDM, un nuovo approccio per il ripristino cieco delle immagini che integra le reti di deep unfolding con un modello di diffusione latente, superando le limitazioni delle metodologie esistenti grazie a un modulo di stima della degradazione e a un meccanismo di correzione per i dettagli ad alta frequenza.

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

Privacy Concerns and ChatGPT: Exploring Online Discourse through the Lens of Information Practice on Reddit

Questo studio analizza come gli utenti di Reddit negoziano collettivamente le preoccupazioni sulla privacy di ChatGPT tra il 2022 e il 2025, identificando attraverso un'analisi tematica e BERTopic pratiche discorsive come la segnalazione dei rischi e l'adozione di alternative che preservano la privacy.

S M Mehedi Zaman, Saubhagya Joshi, Yiyi Wu2026-03-10💻 cs

Stable Multi-Drone GNSS Tracking System for Marine Robots

Questo lavoro presenta un sistema di tracciamento GNSS basato su droni multipli che integra rilevamento visivo, allineamento degli ID e un filtro di Kalman esteso per garantire un tracciamento stabile e accurato dei robot marini in superficie e in prossimità della superficie.

Shuo Wen, Edwin Meriaux, Mariana Sosa Guzmán, Zhizun Wang, Junming Shi, Gregory Dudek2026-03-10💻 cs

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

Il paper presenta Yo'City, un innovativo framework agentic che utilizza modelli di grandi dimensioni per generare scene urbane 3D realistiche, personalizzabili e infinitamente espandibili attraverso una pianificazione gerarchica e un meccanismo di espansione guidato dall'utente, superando le prestazioni degli stati dell'arte esistenti.

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li2026-03-10💻 cs

← Precedente Successivo →