cs.CV papers | Gist.Science

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

Dit paper introduceert BlackMirror, een trainingsvrij black-box raamwerk dat backdoors in text-to-image-modellen detecteert door instructie-responsafwijkingen te analyseren in plaats van alleen op visuele gelijkenis te vertrouwen.

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang2026-03-09🤖 cs.AI

RAC: Rectified Flow Auto Coder

Dit paper introduceert de Rectified Flow Auto Coder (RAC), een efficiënter alternatief voor traditionele VAE's dat door het gebruik van rectified flow bidirectionele inferentie, stapsgewijze correctie en een verbeterde kwaliteit van reconstructie en generatie mogelijk maakt met aanzienlijk lagere rekentijd.

Sen Fang, Yalin Feng, Yanxin Zhang, Dimitris N. Metaxas2026-03-09🤖 cs.AI

Towards Driver Behavior Understanding: Weakly-Supervised Risk Perception in Driving Scenes

Dit paper introduceert RAID, een groot dataset voor risicoperceptie in verkeerssituaties, en presenteert een zwak toezicht framework dat de relatie tussen bestuurdersintenties en reacties modelleert om risicovolle objecten te identificeren, wat leidt tot aanzienlijke prestatieverbeteringen ten opzichte van bestaande methoden.

Nakul Agarwal, Yi-Ting Chen, Behzad Dariush2026-03-09💻 cs

Beyond Static Frames: Temporal Aggregate-and-Restore Vision Transformer for Human Pose Estimation

Deze paper introduceert TAR-ViTPose, een nieuw Vision Transformer-model dat de prestaties van 2D-houdingsschatting in video's verbetert door tijdsgerelateerde informatie tussen frames te aggregeren en te herstellen, wat leidt tot robuustere en nauwkeurigere resultaten dan bestaande statische of videobaseerde methoden.

Hongwei Fang, Jiahang Cai, Xun Wang, Wenwu Yang2026-03-09💻 cs

FTSplat: Feed-forward Triangle Splatting Network

FTSplat is een feed-forward framework dat directe, simulatieklare driehoeksoppervlakken voorspelt uit meervoudige beelden, waardoor de noodzaak voor tijdrovende per-scene optimalisatie wordt weggenomen en de integratie met grafische en robotische simulatoren wordt vergemakkelijkt.

Xiong Jinlin, Li Can, Shen Jiawei, Qi Zhigang, Sun Lei, Zhao Dongyang2026-03-09💻 cs

OD-RASE: Ontology-Driven Risk Assessment and Safety Enhancement for Autonomous Driving

Dit paper introduceert OD-RASE, een raamwerk dat een ontologie en grote visuele taalmodellen combineert om proactief onveilige wegstructuren te identificeren en verbeteringsvoorstellen te genereren, waardoor de veiligheid van autonome voertuigen wordt verhoogd en de reactieve aanpak van verkeersveiligheid wordt doorbroken.

Kota Shimomura, Masaki Nambata, Atsuya Ishikawa, Ryota Mimura, Takayuki Kawabuchi, Takayoshi Yamashita, Koki Inoue2026-03-09💻 cs

Facial Expression Recognition Using Residual Masking Network

Dit paper introduceert een Residual Masking Network dat een segmentatie-netwerk combineert met een Deep Residual Network om de prestaties van gezichtsepressierecognitie te verbeteren door middel van een nieuw maskeringsmechanisme dat de focus op relevante informatie legt.

Luan Pham, The Huynh Vu, Tuan Anh Tran2026-03-09🤖 cs.AI

SLER-IR: Spherical Layer-wise Expert Routing for All-in-One Image Restoration

Het paper introduceert SLER-IR, een revolutionair beeldherstelframework dat dynamische expert-routing op een hypersfeer en een nieuwe module voor het samenvoegen van globale en lokale details combineert om superieure prestaties te behalen bij het herstellen van beelden met diverse en niet-uniforme degradaties.

Peng Shurui, Xin Lin, Shi Luo, Jincen Ou, Dizhe Zhang, Lu Qi, Truong Nguyen, Chao Ren2026-03-09💻 cs

Adaptive Radial Projection on Fourier Magnitude Spectrum for Document Image Skew Estimation

Dit paper introduceert een robuuste methode voor het schatten van de kantelhoek van documentafbeeldingen door adaptieve radiale projectie toe te passen op het Fourier-magnitude-spectrum, vergezeld van een nieuwe dataset (DISE-2021) en uitgebreide analyses die aantonen dat de voorgestelde aanpak superieur is aan bestaande methoden.

Luan Pham, Phu Hao Hoang, Xuan Toan Mai, Tuan Anh Tran2026-03-09💻 cs

LucidNFT: LR-Anchored Multi-Reward Preference Optimization for Generative Real-World Super-Resolution

Het paper introduceert LucidNFT, een multi-beloning RL-framework voor generatieve super-resolutie van real-world beelden dat d.m.v. een robuuste faithfulness-evaluator, een ontkoppelde normalisatiestrategie en een groot real-wereld dataset de balans tussen perceptuele kwaliteit en LR-gebaseerde trouw verbetert zonder hallucinaties.

Song Fei, Tian Ye, Sixiang Chen, Zhaohu Xing, Jianyu Lai, Lei Zhu2026-03-09💻 cs

Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models

Het paper introduceert E-AdaPrune, een energie-gedreven adaptief raamwerk dat de visuele token-begroting voor Vision-Language Models dynamisch aanpast op basis van spectrale energie om de efficiëntie te verhogen zonder extra leerbare parameters.

Jialuo He, Huangxun Chen2026-03-09🤖 cs.AI

Unify the Views: View-Consistent Prototype Learning for Few-Shot Segmentation

Dit paper introduceert VINE, een nieuw raamwerk voor few-shot segmentatie dat structurele consistentie en discriminatie over verschillende perspectieven verenigt via een ruimtelijk-view graaf en een voorgrond-prior om robuuste prototypes te genereren voor nauwkeurige maskergeneratie.

Hongli Liu, Yu Wang, Shengjie Zhao2026-03-09💻 cs

OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer

OVGGT is een trainingsvrij framework dat de reconstructie van 3D-geometrie uit oneindig lange videostreams mogelijk maakt door het geheugen- en rekgebruik constant te houden via zelf-selectieve caching en dynamische ankerbescherming, zonder in te leveren op nauwkeurigheid.

Si-Yu Lu, Po-Ting Chen, Hui-Che Hsu, Sin-Ye Jhong, Wen-Huang Cheng, Yung-Yao Chen2026-03-09💻 cs

Exploring Open-Vocabulary Object Recognition in Images using CLIP

Dit paper introduceert een trainingsvrij framework voor open-vocabulaire objectherkenning dat objectsegmentatie combineert met CLIP-gebaseerde of CNN/MLP-gebaseerde embeddings, wat resulteert in een hogere prestatie dan bestaande methoden op datasets zoals COCO en Pascal VOC.

Wei Yu Chen, Ying Dai2026-03-09💻 cs

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

Deze paper introduceert Skeleton-to-Image Encoding (S2I), een nieuwe methode die skeletdata omzet in afbeeldingen om zo krachtige, voorgetrainde visiemodellen te kunnen gebruiken voor zelftoezichthoudend leren van skeletrepresentaties en zo de uitdagingen van dataformaten en schaarste aan datasets aan te pakken.

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

CR-QAT: Curriculum Relational Quantization-Aware Training for Open-Vocabulary Object Detection

Het artikel introduceert CR-QAT, een curriculum-gebaseerd raamwerk voor kwantisatiebewust trainen dat door middel van gefaseerde optimalisatie en relationele kennisdistillatie de prestaties van open-vocabulaire objectdetectie bij agressieve kwantisatie (zoals 4-bit) aanzienlijk verbetert zonder de visueel-taaluitlijning te verstoren.

Jinyeong Park, Donghwa Kim, Brent ByungHoon Kang, Hyeongboo Baek, Jibum Kim2026-03-09💻 cs

PROBE: Probabilistic Occupancy BEV Encoding with Analytical Translation Robustness for 3D Place Recognition

Dit paper introduceert PROBE, een leervrije LiDAR-locatieherkenningsmethode die probabilistische bezettingskaarten in een BEV-ruimte gebruikt en via analytische translatie-robustheid en FFT-gebaseerde rotatiealignatie toonaangevende prestaties bereikt zonder dataset-specifieke tuning.

Jinseop Lee, Byoungho Lee, Gichul Yoo2026-03-09💻 cs

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

Dit paper introduceert ProCap, een nieuw raamwerk dat verandercaptioning transformeert van statische beeldvergelijking naar dynamisch proceduremodeling door een twee-traps architectuur te gebruiken die een procedure-encoder en leerbare query's combineert om expliciet te beschrijven hoe veranderingen plaatsvinden.

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

Breaking Smooth-Motion Assumptions: A UAV Benchmark for Multi-Object Tracking in Complex and Adverse Conditions

Dit paper introduceert DynUAV, een nieuw en uitdagend benchmark voor multi-object tracking vanuit UAV-perspectief dat specifiek is ontworpen om de beperkingen van bestaande methoden bloot te leggen door complexe, dynamische bewegingen en ongunstige omstandigheden te simuleren.

Jingtao Ye, Kexin Zhang, Xunchi Ma, Yuehan Li, Guangming Zhu, Peiyi Shen, Linhua Jiang, Xiangdong Zhang, Liang Zhang2026-03-09💻 cs

Towards High-resolution and Disentangled Reference-based Sketch Colorization

Deze paper introduceert een nieuw raamwerk voor referentiegebaseerde kleuring van schetsen dat door middel van een dubbelvertakkingsarchitectuur en Gram-regularisatie de distributieshift tussen trainings- en inferentiegegevens direct minimaliseert, waardoor state-of-the-art prestaties worden bereikt in kwaliteit, resolutie en controleerbaarheid.

Dingkun Yan, Xinrui Wang, Ru Wang, Zhuoru Li, Jinze Yu, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo2026-03-09💻 cs

← Vorige Volgende →