cs papers | Gist.Science

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

Dit paper introduceert OmniEarth, een nieuw benchmark voor het systematisch evalueren van vision-language modellen in aardobservatie, dat 28 taken omvat over perceptie, redenering en robuustheid om de huidige beperkingen van bestaande modellen in complexe geospatiale scenario's in kaart te brengen.

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo YangWed, 11 Ma💻 cs

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

Dit paper introduceert MORE-R1, een nieuw model dat Large Vision-Language Models (LVLMs) via een twee-staps trainingsproces met toezicht en versterkingslearning in staat stelt om complexe multimodale object-entiteitsrelaties te extraheren door middel van expliciete stap-voor-stap redenering.

Xiang Yuan, Xu Chu, Xinrong Chen, Haochen Li, Zonghong Dai, Hongcheng Fan, Xiaoyue Yuan, Weiping Li, Tong MoWed, 11 Ma💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Dit paper introduceert PruneSID, een trainingsvrije methode die redundantie in visuele tokens van Vision-Language Models efficiënt elimineert door belang en diversiteit synergetisch te benutten, waardoor de prestaties worden behouden en de verwerkingssnelheid aanzienlijk wordt verhoogd.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie PeiWed, 11 Ma💻 cs

StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving

Deze paper introduceert StyleVLA, een op fysica gebaseerd Vision-Language-Action-model dat, getraind op een groot instructiedataset, diverse en kinematisch haalbare rijstijlen genereert en daarmee gespecialiseerde prestaties behaalt die superieur zijn aan die van gesloten bronmodellen zoals Gemini-3-Pro.

Yuan Gao, Dengyuan Hua, Mattia Piccinini, Finn Rasmus Schäfer, Korbinian Moller, Lin Li, Johannes BetzWed, 11 Ma💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Deze paper introduceert een componentbewust, zelfrefinerend raamwerk voor het genereren van fotorealistische afbeeldingen uit schetsen, dat via een tweestapsarchitectuur met zelfaandacht-codering en coördinatiebehoudende fusie aanzienlijk betere resultaten boekt dan bestaande GAN- en diffusiemodellen op diverse datasets.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz QureshiWed, 11 Ma💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

Deze paper introduceert Diagonal Distillation, een methode die autoregressieve videogeneratie versnelt tot 31 FPS door een asymmetrische strategie te gebruiken die temporale context optimaliseert en foutpropagatie in lange sequenties vermindert.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang LiuWed, 11 Ma💻 cs

Towards Viewpoint-centric Artifact-based Regulatory Requirements Engineering for Compliance by Design

Dit paper presenteert een voorlopig verslag over het Artefact Model voor Regelgevende Requirements Engineering (AM4RRE), dat is ontworpen om de integratie van regelgevende compliance in de softwareontwikkelingscyclus te stroomlijnen door de complexiteit van verschillende perspectieven aan te pakken.

Oleksandr KosenkovWed, 11 Ma💻 cs

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

Dit paper introduceert SurgFed, een taalgeleid multi-task federated learning-framework dat de uitdagingen van weefsel- en taakdiversiteit in chirurgische video's aanpakt via taalgestuurde kanaalselectie en hyperaggregatie, wat resulteert in superieure prestaties voor segmentatie en diepteschatten op meerdere datasets.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming JinWed, 11 Ma💻 cs

EmbC-Test: How to Speed Up Embedded Software Testing Using LLMs and RAG

Dit paper introduceert EmbC-Test, een RAG-gebaseerde aanpak die de tijd voor het handmatig schrijven van tests voor ingebouwde C-software met tot 66% verkort door automatisch gegenereerde tests te produceren die 100% syntactisch correct zijn en voor 85% slagen in runtime-validatie.

Maximilian Harnot, Sebastian Komarnicki, Michal Polok, Timo OksanenWed, 11 Ma💻 cs

Avoiding Big Integers: Parallel Multimodular Algebraic Verification of Arithmetic Circuits

Dit artikel introduceert TalisMan2.0, een hybride algebraïsche verificatiemethode die door middel van parallelle multimodulaire berekeningen modulo priemgetallen de noodzaak voor zware big-integer-aritmetiek bij het verifiëren van rekenkringen elimineert en zo de prestaties aanzienlijk verbetert.

Clemens Hofstadler, Daniela Kaufmann, Chen ChenWed, 11 Ma💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

Het paper introduceert Context-Nav, een trainingsvrije methode voor tekstgestuurde navigatie die lange contextbeschrijvingen gebruikt om verkenning te sturen en kandidaat-objecten verifieert via viewpoint-bewuste 3D-ruimtelijke redenering, waardoor state-of-the-art resultaten worden behaald zonder specifieke policy-training.

Won Shik Jang, Ue-Hwan KimWed, 11 Ma💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Deze studie onderzoekt de betrouwbaarheid van Vision-Language Models in autonoom rijden door hun inconsistentie en beperkte temporale redeneervermogen te analyseren, en introduceert het FutureVQA-benchmark en een zelftoezichtende tuneermethode om deze tekortkomingen aan te pakken.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain PaganiWed, 11 Ma💻 cs

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

Deze paper introduceert RuleSafe, een nieuw benchmark voor langdurige robotmanipulatie met niet-Markoviaanse taken, en VQ-Memory, een compacte tijdsrepresentatie die bestaande Vision-Language-Action-modellen verbetert door verleden toestanden te coderen in discrete tokens voor betere langetermijnplanning en generalisatie.

Wang Honghui, Jing Zhi, Ao Jicong, Song Shiji, Li Xuelong, Huang Gao, Bai ChenjiaWed, 11 Ma💻 cs

RESBev: Making BEV Perception More Robust

Dit paper introduceert RESBev, een plug-and-play methode die de robuustheid van bestaande Bird's-eye-view (BEV) perceptiesystemen voor autonoom rijden verbetert door beschadigde waarnemingen te reconstrueren via een latent wereldmodel dat ruimtetemporele correlaties benut.

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng WangWed, 11 Ma💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

DCAU-Net is een nieuw en efficiënt medisch beeldsegmentatiekader dat een differentiële kruisattentie en een kanaal-ruimtelijke kenmerkfusie introduceert om langeafhangsafhankelijkheden en fijne randdetails nauwkeuriger te modelleren terwijl de rekencomplexiteit wordt verlaagd.

Yanxin Li, Hui Wan, Libin LanWed, 11 Ma💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

Deze studie presenteert een door een groot taalmodel (LLM) aangedreven methode voor het dynamisch genereren van gecoördineerde spraak- en gebarenexpressies voor pedagogische agenten in virtuele realiteit, wat leidt tot een verbeterde leerervaring, hogere betrokkenheid en een sterkere sociale aanwezigheid.

Ninghao Wan, Jiarun Song, Fuzheng YangWed, 11 Ma💻 cs

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Deze paper introduceert een op versterkingslering gebaseerde post-trainingstrategie, die Group Relative Policy Optimization (GRPO) uitbreidt naar multimodale contexten, om bestaande vision-language modellen te verbeteren in het genereren van samenhangende, verweven tekst-en-beeldoutput zonder afhankelijkheid van grote gespecialiseerde datasets.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li ZhangWed, 11 Ma💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Deze paper introduceert het DynHiL-EQA-dataset en het training-vrije DIVRR-framework om Embodied Question Answering in dynamische, menselijke omgevingen te verbeteren door ambiguïteiten op te lossen en efficiënte, compacte geheugenselectie mogelijk te maken.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models

Dit paper introduceert NS-VLA, een neuro-symbolisch raamwerk dat online versterkingsleer en symbolische verwerking combineert om robotmanipulatie-modellen te ontwikkelen die superieure data-efficiëntie, generalisatie en exploratie bieden ten opzichte van bestaande Vision-Language-Action modellen.

Ziyue Zhu, Shangyang Wu, Shuai Zhao, Zhiqiu Zhao, Shengjie Li, Yi Wang, Fang Li, Haoran LuoWed, 11 Ma💻 cs

Compartmentalization-Aware Automated Program Repair

Dit paper presenteert een nieuw, op Large Language Models gebaseerd automatisch programma-reparatiekader dat specifiek is ontworpen om kwetsbaarheden in de interfaces tussen softwarecompartimenten op te lossen, aangezien bestaande algemene LLMs hiervoor ongeschikt blijken.

Jia Hu, Youcheng Sun, Pierre OlivierWed, 11 Ma💻 cs

← Vorige Volgende →