cs.CV papers | Gist.Science

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

Dit paper introduceert OmniEarth, een nieuw benchmark voor het systematisch evalueren van vision-language modellen in aardobservatie, dat 28 taken omvat over perceptie, redenering en robuustheid om de huidige beperkingen van bestaande modellen in complexe geospatiale scenario's in kaart te brengen.

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo YangWed, 11 Ma💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Dit paper introduceert PruneSID, een trainingsvrije methode die redundantie in visuele tokens van Vision-Language Models efficiënt elimineert door belang en diversiteit synergetisch te benutten, waardoor de prestaties worden behouden en de verwerkingssnelheid aanzienlijk wordt verhoogd.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie PeiWed, 11 Ma💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Deze paper introduceert een componentbewust, zelfrefinerend raamwerk voor het genereren van fotorealistische afbeeldingen uit schetsen, dat via een tweestapsarchitectuur met zelfaandacht-codering en coördinatiebehoudende fusie aanzienlijk betere resultaten boekt dan bestaande GAN- en diffusiemodellen op diverse datasets.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz QureshiWed, 11 Ma💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

Deze paper introduceert Diagonal Distillation, een methode die autoregressieve videogeneratie versnelt tot 31 FPS door een asymmetrische strategie te gebruiken die temporale context optimaliseert en foutpropagatie in lange sequenties vermindert.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang LiuWed, 11 Ma💻 cs

Evolving Prompt Adaptation for Vision-Language Models

Het artikel introduceert EvoPrompt, een nieuw raamwerk dat de adaptatie van vision-language modellen naar downstream-taken verbetert door een evolutionaire trainingsstrategie en geometrische regularisatie te gebruiken om prestaties te maximaliseren zonder de oorspronkelijke zero-shot-kennis te verliezen.

Enming Zhang, Jiayang Li, Yanru Wu, Zhenyu Liu, Yang LiWed, 11 Ma🤖 cs.AI

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

Dit paper introduceert SurgFed, een taalgeleid multi-task federated learning-framework dat de uitdagingen van weefsel- en taakdiversiteit in chirurgische video's aanpakt via taalgestuurde kanaalselectie en hyperaggregatie, wat resulteert in superieure prestaties voor segmentatie en diepteschatten op meerdere datasets.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming JinWed, 11 Ma💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

Het paper introduceert Context-Nav, een trainingsvrije methode voor tekstgestuurde navigatie die lange contextbeschrijvingen gebruikt om verkenning te sturen en kandidaat-objecten verifieert via viewpoint-bewuste 3D-ruimtelijke redenering, waardoor state-of-the-art resultaten worden behaald zonder specifieke policy-training.

Won Shik Jang, Ue-Hwan KimWed, 11 Ma💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Deze studie onderzoekt de betrouwbaarheid van Vision-Language Models in autonoom rijden door hun inconsistentie en beperkte temporale redeneervermogen te analyseren, en introduceert het FutureVQA-benchmark en een zelftoezichtende tuneermethode om deze tekortkomingen aan te pakken.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain PaganiWed, 11 Ma💻 cs

RESBev: Making BEV Perception More Robust

Dit paper introduceert RESBev, een plug-and-play methode die de robuustheid van bestaande Bird's-eye-view (BEV) perceptiesystemen voor autonoom rijden verbetert door beschadigde waarnemingen te reconstrueren via een latent wereldmodel dat ruimtetemporele correlaties benut.

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng WangWed, 11 Ma💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

DCAU-Net is een nieuw en efficiënt medisch beeldsegmentatiekader dat een differentiële kruisattentie en een kanaal-ruimtelijke kenmerkfusie introduceert om langeafhangsafhankelijkheden en fijne randdetails nauwkeuriger te modelleren terwijl de rekencomplexiteit wordt verlaagd.

Yanxin Li, Hui Wan, Libin LanWed, 11 Ma💻 cs

Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts

De studie toont aan dat een progressieve toename van radiologisch vastgestelde pleuroparenchymale fibroelastose (PPFE) in twee grote longkankerscreeningscohorten onafhankelijk geassocieerd is met een verhoogde sterfte en nadelige klinische uitkomsten.

Shahab Aslani, Mehran Azimbagirad, Daryl Cheng, Daisuke Yamada, Ryoko Egashira, Adam Szmul, Justine Chan-Fook, Robert Chapman, Alfred Chung Pui So, Shanshan Wang, John McCabe, Tianqi Yang, Jose M Brenes, Eyjolfur Gudmundsson, The SUMMIT Consortium, Susan M. Astley, Daniel C. Alexander, Sam M. Janes, Joseph JacobWed, 11 Ma🧬 q-bio

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Deze paper introduceert een op versterkingslering gebaseerde post-trainingstrategie, die Group Relative Policy Optimization (GRPO) uitbreidt naar multimodale contexten, om bestaande vision-language modellen te verbeteren in het genereren van samenhangende, verweven tekst-en-beeldoutput zonder afhankelijkheid van grote gespecialiseerde datasets.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li ZhangWed, 11 Ma💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Deze paper introduceert het DynHiL-EQA-dataset en het training-vrije DIVRR-framework om Embodied Question Answering in dynamische, menselijke omgevingen te verbeteren door ambiguïteiten op te lossen en efficiënte, compacte geheugenselectie mogelijk te maken.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Dit paper biedt een uitgebreide studie van tijd-van-vlucht niet-zichtlijn (ToF NLOS) beeldvorming door een gemeenschappelijk wiskundig kader en hardware-opstelling te hanteren om diverse methoden te vergelijken, hun relatie met Radon-transformaties te analyseren en hun beperkingen in resolutie en ruisgevoeligheid onder gelijke omstandigheden te evalueren.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas VeltenWed, 11 Ma💻 cs

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

GeoSolver introduceert een nieuw framework voor remote sensing dat gebruikmaakt van een groot proces-supervisie-dataset en een procesbewuste versterkingsleer-algoritme om stap-voor-stap redenering te verifiëren, wat leidt tot state-of-the-art prestaties en robuuste schaalbaarheid tijdens het testen.

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo YangWed, 11 Ma💻 cs

GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning

GeoAlignCLIP is een nieuw raamwerk dat de fijne-granulaire visueel-taaluitlijning in remote sensing verbetert door multi-granulaire semantische uitlijning en intra-modale consistentie te leren, ondersteund door het nieuwe RSFG-100k-dataset, wat leidt tot superieure prestaties op diverse benchmarks.

Xiao Yang, Ronghao Fu, Zhuoran Duan, Zhiwen Lin, Xueyan Liu, Bo YangWed, 11 Ma💻 cs

More than the Sum: Panorama-Language Models for Adverse Omni-Scenes

Deze paper introduceert het Panorama-Language Modeling (PLM)-paradigma, een eenheidsmodel voor 360°-redenering dat gebruikmaakt van een plug-and-play module en het PanoVQA-dataset om holistische ruimtelijke relaties in ongunstige panoramische scènes beter te begrijpen dan traditionele vision-language modellen die zijn beperkt tot smalle beeldhoeken.

Weijia Fan, Ruiping Liu, Jiale Wei, Yufan Chen, Junwei Zheng, Zichao Zeng, Jiaming Zhang, Qiufu Li, Linlin Shen, Rainer StiefelhagenWed, 11 Ma💻 cs

BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers

Dit paper introduceert BinaryAttention, een methode die de QK-attentie in Vision en Diffusion Transformers naar 1-bit binaire bewerkingen reduceert, waardoor de rekensnelheid op A100-GPU's meer dan verdubbelt ten opzichte van FlashAttention2 terwijl de nauwkeurigheid behouden blijft of zelfs verbetert.

Chaodong Xiao, Zhengqiang Zhang, Lei ZhangWed, 11 Ma💻 cs

ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis

ParTY is een nieuw raamwerk dat expressieve tekst-naar-beweging synthese verbetert door een part-gestuurde netwerkarchitectuur, tekstbewust grounding en een adaptieve fusie van holistische en deelbewegingen te combineren om zowel specifieke lichaamsdelen nauwkeurig te laten bewegen als de coherentie van het volledige lichaam te waarborgen.

KunHo Heo, SuYeon Kim, Yonghyun Gwon, Youngbin Kim, MyeongAh ChoWed, 11 Ma💻 cs

A saccade-inspired approach to image classification using visiontransformer attention maps

Dit artikel presenteert een door menselijke oogbewegingen geïnspireerde methode voor beeldclassificatie die, gebruikmakend van DINO-attentiekaarten, de verwerking beperkt tot relevante beeldregio's en zo een efficiëntere prestatie bereikt die de volledige beeldverwerking kan evenaren of zelfs overtreffen.

Matthis Dallain, Laurent Rodriguez, Laurent Udo Perrinet, Benoît MiramondWed, 11 Ma💻 cs

← Vorige Volgende →