cs.CV papers | Gist.Science

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

Dit paper introduceert SceneCOT, een nieuw raamwerk met een op de 3D-scène gebaseerde Chain-of-Thought-redeneermethode en het bijbehorende SCENECOT-185K-dataset, dat voor het eerst menselijke stap-voor-stap redenering mogelijk maakt voor grondige vraag-antwoordtaken in 3D-scènes.

Xiongkun Linghu, Jiangyong Huang, Ziyu Zhu + 2 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

Dit paper introduceert Grasp Any Region (GAR), een multimodaal groot taalmodel dat door middel van een nieuwe RoI-gealigneerde feature replay-techniek en de GAR-Bench-evaluatie, de beperkingen van eerdere modellen overwint door complexe, contextbewuste regionale interacties en samenstellende redenering mogelijk te maken.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

FLoC is een trainingsvrije, modelonafhankelijke methode die de facility location-functie en een lazy greedy-algoritme gebruikt om visuele tokens in lange video's efficiënt te comprimeren, waardoor de verwerkingssnelheid van Large Multimodal Models aanzienlijk wordt verbeterd zonder in te leveren op de prestaties.

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

MotionStream: Real-Time Video Generation with Interactive Motion Controls

MotionStream is een real-time video-generatiemodel dat via distillatie en een slimme sliding-window-attention-mechanisme interactieve bewegingscontrole mogelijk maakt met sub-seconde latentie en constante snelheid voor onbeperkt lange video's.

Joonghyuk Shin, Zhengqi Li, Richard Zhang + 4 more2026-03-06💻 cs

SASG-DA: Sparse-Aware Semantic-Guided Diffusion Augmentation For Myoelectric Gesture Recognition

Dit artikel introduceert SASG-DA, een nieuwe data-augmentatiemethode op basis van diffusiemodellen die semantische geleiding en een spaarzaamheidsbewuste steekproefstrategie combineert om de betrouwbaarheid en diversiteit van sEMG-gegevens te verbeteren, waardoor overfitting wordt tegengegaan en de prestaties van myoelektrische gebarenherkenning aanzienlijk worden verhoogd.

Chen Liu, Can Han, Weishi Xu + 2 more2026-03-06💻 cs

DeiTFake: Deepfake Detection Model using DeiT Multi-Stage Training

DeiTFake is een deepfake-detectiemodel dat een DeiT-architectuur combineert met een innovatieve twee-fasen trainingsstrategie met toenemende augmentatiecomplexiteit om 99,22% nauwkeurigheid te bereiken op de OpenForensics-dataset.

Saksham Kumar, Ashish Singh, Srinivasarao Thota + 2 more2026-03-06💻 cs

Fully Automatic Data Labeling for Ultrasound Screen Detection

Deze paper presenteert een volledig automatische methode om gelabelde data te genereren voor het detecteren en corrigeren van echografie-beelden op monitoren, waardoor de afhankelijkheid van DICOM wordt opgeheven en beelden met voldoende nauwkeurigheid kunnen worden gebruikt voor verdere analyse.

Alberto Gomez, Jorge Oliveira, Ramon Casero + 1 more2026-03-06💻 cs

DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

Dit artikel introduceert DAP, een compacte autoregressieve planner die discrete tokens gebruikt om zowel BEV-semantiek als ego-trajecten gezamenlijk te voorspellen en via versterkingslering te optimaliseren, waardoor state-of-the-art prestaties worden bereikt op de NAVSIM-benchmark.

Bowen Ye, Bin Zhang, Hang Zhao2026-03-06💻 cs

CCSD: Cross-Modal Compositional Self-Distillation for Robust Brain Tumor Segmentation with Missing Modalities

Deze paper introduceert het CCSD-framework, een nieuw zelfdistillatie-gebaseerd model dat robuuste hersentumorsegmentatie mogelijk maakt door willekeurige combinaties van ontbrekende MRI-modali te hanteren via een gedeelde-specifieke architectuur en geavanceerde kennisoverdrachtstrategieën.

Dongqing Xie, Yonghuang Wu, Zisheng Ai + 4 more2026-03-06💻 cs

Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

Dit paper introduceert FlashCache, een frequentiedomein-gestuurde compressiemethode voor multimodale KV-cache die uitbijterparen behoudt om de inferentie-efficiëntie van multimodale grote taalmodellen aanzienlijk te verbeteren zonder prestatieverlies.

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection

Dit artikel introduceert MambaTAD, een nieuw end-to-end model voor tijdsgebonden actie-detectie dat Structured State-Space-modellen combineert met een diagonaal-gemaskeerde bidirectionele module en een globale feature-fusiehead om de beperkingen van bestaande methoden bij het detecteren van langdurige acties in ongesneden video's effectief aan te pakken.

Hui Lu, Yi Yu, Shijian Lu + 4 more2026-03-06💻 cs

Observer-Actor: Active Vision Imitation Learning with Sparse-View Gaussian Splatting

De auteurs presenteren ObAct, een innovatief raamwerk voor actieve visuele imitatielearning waarbij een waarnemende arm dynamisch de beste camerapositie kiest via 3D-Gaussian Splatting om een uitvoerende arm te helpen, wat resulteert in aanzienlijk robuustere robotbeheersing in vergelijking met statische camera-opstellingen.

Yilong Wang, Cheng Qian, Ruomeng Fan + 1 more2026-03-06💻 cs

STAvatar: Soft Binding and Temporal Density Control for Monocular 3D Head Avatars Reconstruction

STAvatar verbetert de reconstructie van monolere 3D-hoofd-avatars door een UV-adaptief zacht bindingskader en een tijdsgebonden dichtheidscontrolestrategie te introduceren, wat leidt tot superieure resultaten bij het vastleggen van fijne details en het reconstrueren van vaak verduisterde gebieden.

Jiankuo Zhao, Xiangyu Zhu, Zidu Wang + 1 more2026-03-06💻 cs

RadarVLM: A Vision-Language Model Approach for Radar Scene Understanding

Dit paper introduceert RadarVLM, een vision-language framework dat via gestructureerde ruimtelijke taal-supervisie en een nieuwe SG-CLIP-objective een verenigde representatie voor radarscènes leert, wat leidt tot aanzienlijke verbeteringen in ruimtelijke redenering en segmentatieprestaties vergeleken met bestaande methoden.

Pushkal Mishra, Kshitiz Bansal, Dinesh Bharadia2026-03-06💻 cs

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

PowerCLIP is een nieuw contrastief voortrainingsframework dat middels efficiënte niet-lineaire aggregatoren de exponentiële complexiteit van powerset-uitlijning overwint om compositiese semantics tussen meerdere beeldregio's en tekst te optimaliseren, wat leidt tot superieure zero-shot prestaties.

Masaki Kawamura, Nakamasa Inoue, Rintaro Yanagi + 2 more2026-03-06💻 cs

DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

Dit paper introduceert DPAC, een methode voor diffusie-sampling die de adversariele gradiënten projecteert op de raakruimte van de generatieve score om zo de distributie te behouden en de kwaliteit van de gegenereerde beelden te maximaliseren zonder de aanvalsprestaties te verstoren.

Han-Jin Lee, Han-Ju Lee, Jin-Seong Kim + 1 more2026-03-06💻 cs

Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

Dit artikel introduceert een eerlijkheidsbewuste Low-Rank Adaptatie-methode voor visueel-taalmodellen die de diagnostische ongelijkheid bij glaucoomdiagnose aanzienlijk vermindert door middel van een differentieerbare MaxAccGap-verliesfunctie, terwijl slechts 0,24% van de parameters wordt getraind.

Zijian Gu, Yuxi Liu, Zhenhao Zhang + 1 more2026-03-06💻 cs

UniComp: Rethinking Video Compression Through Informational Uniqueness

Dit paper introduceert UniComp, een nieuw videocompressieframework dat de reconstructiefout minimaliseert door informatie-uniekheid te benutten voor semantische framegroepering, adaptieve resource-toewijzing en dynamische ruimtelijke compressie.

Chao Yuan, Shimin Chen, Minliang Lin + 3 more2026-03-06💻 cs

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

Deze paper introduceert NeuralRemaster, een model-onafhankelijke methode die de fase van beelden behoudt tijdens het diffuusieproces om structureel consistente en ruimtelijk uitgelijnde generaties mogelijk te maken voor taken zoals herrendering en simulatie-naar-realiteit verbetering.

Yu Zeng, Charles Ochoa, Mingyuan Zhou + 3 more2026-03-06💻 cs

Revolutionizing Mixed Precision Quantization: Towards Training-free Automatic Proxy Discovery via Large Language Models

Deze paper introduceert TAP, een nieuw framework dat Large Language Models en evolutionaire zoekstrategieën combineert om zonder training of menselijke tussenkomst automatisch superieure proxies voor Mixed-Precision Quantization te ontdekken.

Haidong Kang, Jun Du, Lihong Lin2026-03-06💻 cs

← Vorige Volgende →