cs articoli | Gist.Science

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

Il paper introduce OmniEarth, un benchmark completo per valutare le capacità di percezione, ragionamento e robustezza dei modelli visione-linguaggio applicati all'osservazione della Terra, evidenziando attraverso una rigorosa valutazione su 9.275 immagini e 44.210 istruzioni che le attuali soluzioni faticano ancora a gestire compiti geospaziali complessi.

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo YangWed, 11 Ma💻 cs

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

Il paper presenta MORE-R1, un modello innovativo che guida i Large Vision-Language Model nell'estrazione di relazioni tra oggetti visivi ed entità testuali attraverso un ragionamento passo-passo ottimizzato con l'apprendimento per rinforzo, ottenendo prestazioni all'avanguardia sul benchmark MORE.

Xiang Yuan, Xu Chu, Xinrong Chen, Haochen Li, Zonghong Dai, Hongcheng Fan, Xiaoyue Yuan, Weiping Li, Tong MoWed, 11 Ma💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Il paper introduce PruneSID, un metodo senza addestramento per la compressione dei token visivi nei modelli visione-linguaggio che, combinando analisi delle componenti semantiche e soppressione non massima, preserva l'essenza delle informazioni riducendo drasticamente il carico computazionale e migliorando le prestazioni rispetto agli approcci esistenti.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie PeiWed, 11 Ma💻 cs

StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving

Il paper presenta StyleVLA, un modello Vision-Language-Action basato su Qwen3-VL-4B e arricchito da vincoli fisici, che supera i modelli proprietari più grandi generando traiettorie di guida autonome non solo sicure ma anche fisicamente plausibili e adattate a diversi stili di guida.

Yuan Gao, Dengyuan Hua, Mattia Piccinini, Finn Rasmus Schäfer, Korbinian Moller, Lin Li, Johannes BetzWed, 11 Ma💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Questo paper propone un nuovo framework a due stadi per la generazione di immagini fotorealistiche da schizzi, basato su un autoencoder con attenzione self-attention, un modulo di fusione che preserva le coordinate e un revisore di affinamento spaziale, che supera le tecniche attuali in fedeltà e coerenza semantica su diversi dataset.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz QureshiWed, 11 Ma💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

Il paper propone la "Diagonal Distillation", un metodo innovativo che supera i limiti delle tecniche di distillazione esistenti per la generazione video in streaming, combinando una strategia di generazione asimmetrica e la modellazione del flusso ottico per ottenere video coerenti e ad alta fedeltà con un'accelerazione fino a 31 FPS.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang LiuWed, 11 Ma💻 cs

Towards Viewpoint-centric Artifact-based Regulatory Requirements Engineering for Compliance by Design

Questo articolo presenta il modello AM4RRE, un approccio basato su artefatti e prospettive multiple per integrare sistematicamente l'ingegneria dei requisiti normativi nel ciclo di vita dello sviluppo software, al fine di realizzare una conformità "by design" e raccogliere feedback per la fase finale di uno studio dottorale.

Oleksandr KosenkovWed, 11 Ma💻 cs

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

Il paper presenta SurgFed, un framework di apprendimento federato multi-task guidato dal linguaggio che, attraverso la selezione dei canali e l'aggregazione iper-parametrica basate su input testuali, supera le sfide della diversità dei tessuti e dei compiti per migliorare la segmentazione e la stima della profondità nei video chirurgici.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming JinWed, 11 Ma💻 cs

EmbC-Test: How to Speed Up Embedded Software Testing Using LLMs and RAG

Il paper presenta EmbC-Test, un pipeline basato su RAG che utilizza modelli linguistici per automatizzare la generazione di test per software embedded in C, riducendo i tempi di verifica fino al 66% e ottenendo un'alta percentuale di test sintatticamente corretti e validi.

Maximilian Harnot, Sebastian Komarnicki, Michal Polok, Timo OksanenWed, 11 Ma💻 cs

Avoiding Big Integers: Parallel Multimodular Algebraic Verification of Arithmetic Circuits

Il paper presenta TalisMan2.0, un nuovo strumento di verifica che combina riscrittura lineare e non lineare con ragionamento multimodulare parallelo per verificare circuiti aritmetici a parole senza ricorrere a intere di grandi dimensioni.

Clemens Hofstadler, Daniela Kaufmann, Chen ChenWed, 11 Ma💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

Il paper presenta Context-Nav, un approccio senza addestramento specifico che risolve la navigazione di istanze tramite descrizioni testuali lunghe integrando allineamenti testo-immagine per guidare l'esplorazione globale e un ragionamento spaziale 3D consapevole del punto di vista per verificare i candidati, ottenendo prestazioni all'avanguardia su InstanceNav e CoIN-Bench.

Won Shik Jang, Ue-Hwan KimWed, 11 Ma💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Questo lavoro esamina l'affidabilità dei modelli visione-linguaggio nell'assistenza alla guida, evidenziando le loro carenze nella coerenza delle risposte e nel ragionamento temporale, e propone il benchmark FutureVQA insieme a un metodo di addestramento auto-supervisionato per migliorare tali capacità senza richiedere etichette temporali.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain PaganiWed, 11 Ma💻 cs

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

Il paper introduce RuleSafe, un nuovo benchmark di manipolazione articolata con compiti non-Markoviani a lungo termine, e propone VQ-Memory, una rappresentazione temporale strutturata basata su VQ-VAE che migliora significativamente il ragionamento e la pianificazione dei modelli robotici in scenari complessi.

Wang Honghui, Jing Zhi, Ao Jicong, Song Shiji, Li Xuelong, Huang Gao, Bai ChenjiaWed, 11 Ma💻 cs

RESBev: Making BEV Perception More Robust

Il paper presenta RESBev, un metodo plug-and-play che migliora la robustezza della percezione Bird's-Eye-View (BEV) nei sistemi di guida autonoma ricostruendo le caratteristiche corrotte attraverso un modello latente del mondo, garantendo così maggiore sicurezza contro degradazioni dei sensori e attacchi avversari.

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng WangWed, 11 Ma💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

Il paper presenta DCAU-Net, un nuovo framework per la segmentazione di immagini mediche che combina un'attenzione incrociata differenziale (DCA) per ridurre la complessità computazionale e un'attenzione spaziale-canale (CSFF) per integrare adattivamente le informazioni semantiche e spaziali, ottenendo così una maggiore accuratezza e robustezza rispetto ai metodi esistenti.

Yanxin Li, Hui Wan, Libin LanWed, 11 Ma💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

Questo studio propone un metodo guidato da modelli linguistici di grandi dimensioni per generare espressioni multimodali dinamiche e semanticamente coerenti in agenti pedagogici per la realtà virtuale, dimostrando che tale approccio migliora significativamente l'efficacia percepita, l'engagement e la presenza sociale degli studenti, riducendo al contempo noia e affaticamento.

Ninghao Wan, Jiarun Song, Fuzheng YangWed, 11 Ma💻 cs

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Questo lavoro propone una strategia di post-addestramento basata sul reinforcement learning, che estende l'ottimizzazione della politica relativa di gruppo (GRPO) ai modelli multimodali unificati, per abilitare la generazione intercalata di testo e immagini senza dipendere da grandi dataset specifici, migliorando significativamente la coerenza e la qualità in compiti come il racconto visivo.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li ZhangWed, 11 Ma💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Il paper introduce DynHiL-EQA, un nuovo dataset per la risposta a domande in ambienti embodied dinamici, e propone DIVRR, un framework senza addestramento che migliora la robustezza e l'efficienza inferenziale attraverso la raffinazione delle viste e la selezione adattiva della memoria.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models

Il paper propone NS-VLA, un nuovo framework neuro-simbolico per modelli Vision-Language-Action che, integrando un encoder simbolico, un solver e l'apprendimento per rinforzo online, supera i metodi precedenti in termini di efficienza dei dati, generalizzazione zero-shot e capacità di esplorazione nella manipolazione robotica.

Ziyue Zhu, Shangyang Wu, Shuai Zhao, Zhiqiu Zhao, Shengjie Li, Yi Wang, Fang Li, Haoran LuoWed, 11 Ma💻 cs

Compartmentalization-Aware Automated Program Repair

Questo lavoro presenta un nuovo framework di riparazione automatica dei programmi basato su modelli linguistici di grandi dimensioni, progettato specificamente per identificare e correggere le vulnerabilità alle interfacce tra compartimenti in software compartimentalizzato, superando i limiti degli approcci APR generici.

Jia Hu, Youcheng Sun, Pierre OlivierWed, 11 Ma💻 cs

← Precedente Successivo →