cs articoli | Gist.Science

IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation

Il paper presenta IMTBench, un nuovo benchmark di 2.500 campioni che valuta la traduzione automatica end-to-end di testo nelle immagini attraverso scenari reali e metriche multimodali, rivelando significative lacune nelle prestazioni attuali dei modelli.

Jiahao Lyu, Pei Fu, Zhenhang Li, Weichao Zeng, Shaojie Zhan, Jiahui Yang, Can Ma, Yu Zhou, Zhenbo Luo, Jian Luan2026-03-12💻 cs

Efficiency vs Demand in AI Electricity: Implications for Post-AGI Scaling

Questo studio integra il settore del calcolo AI nel modello GCAM per dimostrare che la futura domanda elettrica dell'AI negli Stati Uniti non seguirà una crescita lineare, ma dipenderà criticamente dal bilanciamento tra i progressi nell'efficienza energetica e la crescita del reddito, suggerendo che i meccanismi basati sui prezzi hanno un impatto limitato rispetto alle dinamiche economiche.

Doyi Kim, Jiseok Ahn, Haewon McJeon, Changick Kim2026-03-12💻 cs

UHD Image Deblurring via Autoregressive Flow with Ill-conditioned Constraints

Il paper propone un nuovo metodo di flusso autoregressivo con vincoli mal condizionati che scompone il ripristino di immagini UHD in un processo progressivo da grossolano a fine, utilizzando il Flow Matching e una regolarizzazione numerica per bilanciare il recupero di dettagli fini e l'efficienza computazionale.

Yucheng Xin, Dawei Zhao, Xiang Chen, Chen Wu, Pu Wang, Dianjie Lu, Guijuan Zhang, Xiuyi Jia, Zhuoran Zheng2026-03-12💻 cs

Visually-Guided Controllable Medical Image Generation via Fine-Grained Semantic Disentanglement

Il paper propone un framework di disaccoppiamento semantico guidato visivamente che, allineando i prior visivi con i testi clinici e utilizzando un modulo di fusione ibrida in un Diffusion Transformer, supera le limitazioni dei modelli generativi attuali per produrre immagini mediche di alta qualità con un controllo fine-granulare della struttura anatomica.

Xin Huang, Junjie Liang, Qingshan Hou, Peng Cao, Jinzhu Yang, Xiaoli Liu, Osmar R. Zaiane2026-03-12💻 cs

Sparse Task Vector Mixup with Hypernetworks for Efficient Knowledge Transfer in Whole-Slide Image Prognosis

Il paper propone STEPH, un nuovo metodo che utilizza mixup di vettori di task sparsi e iperreti per trasferire efficientemente conoscenze prognostiche tra diversi tipi di cancro nelle immagini whole-slide, migliorando le prestazioni senza richiedere addestramenti congiunti su larga scala o inferenze multiple.

Pei Liu, Xiangxiang Zeng, Tengfei Ma, Yucheng Xing, Xuanbai Ren, Yiping Liu2026-03-12💻 cs

BinWalker: Development and Field Evaluation of a Quadruped Manipulator Platform for Sustainable Litter Collection

Il paper presenta BinWalker, un sistema robotico quadrupede con braccio manipolatore progettato per la raccolta autonoma di rifiuti in ambienti esterni difficili, dimostrando attraverso valutazioni sul campo la fattibilità di integrare locomozione, percezione e manipolazione per supportare operazioni di pulizia su larga scala.

Giulio Turrisi, Angelo Bratta, Giovanni Minelli, Gabriel Fischer Abati, Amir H. Rad, João Carlos Virgolino Soares, Claudio Semini2026-03-12💻 cs

Graphing Inline: Understanding Word-scale Graphics Use in Scientific Papers

Questo studio analizza l'uso raro ma significativo dei grafici in scala tipografica nei documenti scientifici attraverso un corpus di oltre 126.000 articoli, proponendo un framework che ne descrive posizione, funzione comunicativa e rappresentazione visiva per migliorare la comunicazione accademica.

Siyu Lu, Yanhan Liu, Shiyu Xu, Ruishi Zou, Chen Ye2026-03-12💻 cs

An Event-Driven E-Skin System with Dynamic Binary Scanning and real time SNN Classification

Questo articolo presenta un sistema di pelle elettronica (e-skin) basato su eventi che integra un array tattile piezoresistivo con una strategia di scansione binaria dinamica e una rete neurale a impulsi (SNN) su FPGA, ottenendo un'elaborazione ad alta efficienza energetica e un'accuratezza del 92,11% nel riconoscimento di cifre scritte a mano in tempo reale.

Gaishan Li, Zhengnan Fu, Anubhab Tripathi, Junyi Yang, Arindam Basu2026-03-12💻 cs

DSFlash: Comprehensive Panoptic Scene Graph Generation in Realtime

DSFlash è un modello a bassa latenza per la generazione di grafi di scena panottici che, pur garantendo prestazioni all'avanguardia e una ricca informazione contestuale, raggiunge un'elaborazione in tempo reale di 56 fps ed è addestrabile con risorse computazionali limitate, rendendolo ideale per dispositivi edge e ricercatori con budget ridotti.

Julian Lorenz, Vladyslav Kovganko, Elias Kohout, Mrunmai Phatak, Daniel Kienzle, Rainer Lienhart2026-03-12💻 cs

In-Memory ADC-Based Nonlinear Activation Quantization for Efficient In-Memory Computing

Questo articolo presenta la quantizzazione K-Means a soppressione dei bordi (BS-KMQ), un nuovo metodo di quantizzazione non lineare che riduce i requisiti di risoluzione degli ADC e migliora l'efficienza energetica e le prestazioni nei sistemi di calcolo in memoria, ottenendo significativi guadagni di velocità ed energia rispetto alle tecniche esistenti.

Shuai Dong, Junyi Yang, Biyan Zhou, Hongyang Shang, Gourav Datta, Arindam Basu2026-03-12💻 cs

P-GSVC: Layered Progressive 2D Gaussian Splatting for Scalable Image and Video

Il lavoro presenta P-GSVC, un nuovo framework di splatting gaussiano 2D progressivo e stratificato che offre una soluzione unificata per la rappresentazione scalabile di immagini e video, ottenendo miglioramenti significativi nella qualità della ricostruzione grazie a una strategia di addestramento congiunto delle layer.

Longan Wang, Yuang Shi, Wei Tsang Ooi2026-03-12💻 cs

CD-Raft: Reducing the Latency of Distributed Consensus in Cross-Domain Sites

Il paper presenta CD-Raft, un protocollo Raft ottimizzato per ridurre la latenza del consenso nei siti cross-dominio attraverso la minimizzazione del RTT e il posizionamento strategico del leader, garantendo la coerenza forte e dimostrando sperimentalmente una significativa riduzione della latenza rispetto all'implementazione classica.

Yangyang Wang, Ziqian Cheng, Yucong Dong, Zichen Xu2026-03-12💻 cs

FP-Predictor - False Positive Prediction for Static Analysis Reports

Il paper presenta FP-Predictor, un modello basato su Graph Convolutional Network che utilizza i Code Property Graphs per prevedere con alta accuratezza i falsi positivi negli report di analisi statica della sicurezza, dimostrando una forte capacità di ragionamento orientato alla sicurezza pur presentando limitazioni nella rappresentazione del flusso di controllo interprocedurale.

Tom Ohlmer, Michael Schlichtig, Eric Bodden2026-03-12💻 cs

PET-F2I: A Comprehensive Benchmark and Parameter-Efficient Fine-Tuning of LLMs for PET/CT Report Impression Generation

Il paper introduce PET-F2I-41K, un ampio benchmark basato su 41.000 report reali, e PET-F2I-7B, un modello efficiente ottimizzato per la generazione di impressioni diagnostiche da immagini PET/CT, dimostrando che il fine-tuning specifico supera le prestazioni dei modelli generici e medici in zero-shot grazie a metriche cliniche innovative.

Yuchen Liu, Wenbo Zhang, Liling Peng, Yichi Zhang, Yu Fu, Xin Guo, Chao Qu, Yuan Qi, Le Xue2026-03-12💻 cs

TacLoc: Global Tactile Localization on Objects from a Registration Perspective

Il paper presenta TacLoc, un nuovo framework per la localizzazione tattile che formula il problema come registrazione di nuvole di punti one-shot, utilizzando un metodo basato su grafi e senza richiedere dati renderizzati o modelli pre-addestrati per ottenere una stima della posa precisa ed efficiente.

Zirui Zhang, Boyang Zhang, Fumin Zhang, Huan Yin2026-03-12💻 cs

UniStitch: Unifying Semantic and Geometric Features for Image Stitching

Il paper presenta UniStitch, un framework innovativo che unifica le caratteristiche geometriche tradizionali e quelle semantiche apprese tramite reti neurali, utilizzando un Neural Point Transformer e un Adaptive Mixture of Experts per superare le limitazioni dei metodi esistenti e ottenere prestazioni superiori nella creazione di panorami.

Yuan Mei, Lang Nie, Kang Liao, Yunqiu Xu, Chunyu Lin, Bin Xiao2026-03-12💻 cs

Safety-critical Control Under Partial Observability: Reach-Avoid POMDP meets Belief Space Control

Questo lavoro propone un'architettura di controllo stratificata e basata su certificati per POMDP critici per la sicurezza, che disaccoppia la ricerca dell'obiettivo, la raccolta di informazioni e la sicurezza in componenti modulari utilizzando funzioni di Lyapunov e barriera nello spazio delle credenze per garantire prestazioni in tempo reale e garanzie probabilistiche di sicurezza.

Matti Vahs, Joris Verhagen, Jana Tumova2026-03-12💻 cs

R4-CGQA: Retrieval-based Vision Language Models for Computer Graphics Image Quality Assessment

Il paper propone R4-CGQA, un framework basato sul recupero di informazioni che potenzia i modelli Vision Language Model per la valutazione della qualità delle immagini di computer grafica, affrontando la carenza di dataset descrittivi e migliorando la capacità di fornire spiegazioni testuali accurate attraverso l'analisi di sei dimensioni percettive chiave.

Zhuangzi Li, Jian Jin, Shilv Cai, Weisi Lin2026-03-12💻 cs

Attribution as Retrieval: Model-Agnostic AI-Generated Image Attribution

Il paper presenta LIDA, un framework model-agnostic che affronta l'attribuzione delle immagini generate dall'AI formulandola come problema di recupero di istanze e ottenendo prestazioni all'avanguardia in scenari zero-shot e few-shot.

Hongsong Wang, Renxi Cheng, Chaolei Han, Jie Gui2026-03-12💻 cs

Need for Speed: Zero-Shot Depth Completion with Single-Step Diffusion

Il paper presenta Marigold-SSD, un framework di completamento della profondità in zero-shot che utilizza un processo di diffusione a singolo passo per ottenere un'inferenza rapida ed efficiente, spostando il carico computazionale dal tempo di test al fine-tuning e garantendo prestazioni robuste su diversi benchmark senza necessità di ottimizzazione durante l'inferenza.

Jakub Gregorek, Paraskevas Pegios, Nando Metzger, Konrad Schindler, Theodora Kontogianni, Lazaros Nalpantidis2026-03-12💻 cs

← Precedente Successivo →