cs.CV papers | Gist.Science

Structure Observation Driven Image-Text Contrastive Learning for Computed Tomography Report Generation

Deze paper introduceert een tweestapskader voor het genereren van CT-rapporten dat structurele beeld-taalkoppelingen leert via contrastief leren en een dynamische negatieve wachtrij, waardoor nieuwe state-of-the-art prestaties worden bereikt op openbare datasets.

Hong Liu, Dong Wei, Qiong Peng + 4 more2026-03-06💻 cs

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

Dit paper introduceert DeformTrace, een hybride model dat State Space Models verbetert met vervormbare dynamica en relay-tokens om de precisie, efficiëntie en robuustheid van tijdelijke vervalsingsdetectie in video en audio aanzienlijk te verhogen.

Xiaodong Zhu, Suting Wang, Yuanming Zheng + 5 more2026-03-06🤖 cs.AI

Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation

Dit paper introduceert FedMEPD, een federatief leerframework dat modality-specifieke encoders en gedeeltelijk gepersonaliseerde fusie-decoders combineert om intermodale heterogeniteit en lokale personalisatie te adresseren bij multimodale hersentumorsegmentatie, waarbij clients met onvolledige modaliteiten hun representaties calibreren via cross-attention naar globale ankers.

Hong Liu, Dong Wei, Qian Dai + 3 more2026-03-06💻 cs

FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation

FedAFD is een geïntegreerd framework voor multimodaal federatief leren dat via een tweeledige adversariale uitlijning, granulariteitsbewuste fusie en een op gelijkenis gebaseerde ensemble-distillatie de uitdagingen van heterogene data en modellen oplost om zowel client- als serverprestaties te verbeteren.

Min Tan, Junchao Ma, Yinfu Feng + 6 more2026-03-06🤖 cs.AI

Locality-Attending Vision Transformer

Dit artikel introduceert LocAtViT, een eenvoudige toevoeging aan Vision Transformers die door het moduleren van self-attention met een leerbaar Gaussisch kernel de prestaties op segmentatietaken aanzienlijk verbetert zonder de bestaande classificatiecapaciteiten te schaden.

Sina Hajimiri, Farzad Beizaee, Fereshteh Shakeri + 3 more2026-03-06💻 cs

FC-VFI: Faithful and Consistent Video Frame Interpolation for High-FPS Slow Motion Video Generation

In dit artikel wordt FC-VFI voorgesteld, een methode voor trouwe en consistente videoframe-interpolatie die hoge-resolutie video's van 30 fps naar 120 of 240 fps omzet door een tijdsmodelleerstrategie en semantische matching te combineren om zowel visuele fideliteit als bewegingsconsistentie te waarborgen.

Ganggui Ding, Hao Chen, Xiaogang Xu2026-03-06💻 cs

AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM

Het artikel introduceert AdaIAT, een methode die hallucinaties in Large Vision-Language Models effectief vermindert door de aandacht voor gegenereerde tekst adaptief te verhogen, waardoor de balans tussen nauwkeurigheid en linguïstische coherentie wordt verbeterd zonder herhalende beschrijvingen.

Li'an Zhong, Ziqiang He, Jibin Zheng + 3 more2026-03-06💻 cs

Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object

Deze paper introduceert een methode voor het genereren van viewpoint-consistente 3D-adversariële texturen via differentieerbare rendering, die de kwetsbaarheid van visuele robotbeleid voor perceptuele aanvallen blootlegt en effectief blijft onder dynamische camerahoeken.

Chanmi Lee, Minsung Yoon, Woojae Kim + 2 more2026-03-06💻 cs

Person Detection and Tracking from an Overhead Crane LiDAR

Dit artikel presenteert een aangepast dataset en een evaluatie van 3D-detectie- en trackingmethodes voor het lokaliseren van personen vanuit een LiDAR-sensor op een kraan in een industriële omgeving, waarbij VoxelNeXt en SECOND de beste prestaties leveren binnen een straal van 5 meter.

Nilusha Jayawickrama, Henrik Toikka, Risto Ojala2026-03-06🤖 cs.LG

Adaptive Prototype-based Interpretable Grading of Prostate Cancer

Dit artikel presenteert een nieuw, interpreteerbaar, op prototypes gebaseerd zwak-toezichtend framework voor het automatisch graden van prostaatkanker uit histopathologische beelden, dat door het nabootsen van het pathologisch vergelijkingsproces en het gebruik van dynamische aandachtmechanismen zowel hoge prestaties als vertrouwen biedt voor klinische toepassingen.

Riddhasree Bhattacharyya, Pallabi Dutta, Sushmita Mitra2026-03-06💻 cs

TimeWarp: Evaluating Web Agents by Revisiting the Past

Dit paper introduceert TimeWarp, een benchmark die de kwetsbaarheid van webagenten voor veranderingen in webontwerp blootlegt, en presenteert TimeTraj, een algoritme dat via plan-distillatie over meerdere UI-versies de prestaties en robuustheid van deze agenten aanzienlijk verbetert.

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

Location-Aware Pretraining for Medical Difference Visual Question Answering

Deze paper introduceert een locatiebewust pretrainingsframework met specifieke taken zoals automatisch verwijzende expressies en grounded captioning, dat een verbeterde visuele encoder leert om subtiele verschillen in medische beelden te detecteren en zo state-of-the-art prestaties bereikt voor differentiële visuele vraag-antwoordtaken op thoraxröntgenfoto's.

Denis Musinguzi, Caren Han, Prasenjit Mitra2026-03-06🤖 cs.AI

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

VisionPangu is een compact multimodaal model van 1,7 miljard parameters dat, door gebruik te maken van een InternVL-visionencoder, de OpenPangu-taalbackbone en gedetailleerde menselijke beschrijvingen uit het DOCCI-dataset, concurrerende prestaties levert bij het genereren van gestructureerde en rijke afbeeldingsbeschrijvingen zonder afhankelijk te zijn van agressieve schaalvergroting.

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL

Revisiting an Old Perspective Projection for Monocular 3D Morphable Models Regression

Deze paper introduceert een nieuwe camera-modellering met een schrijnkingsparameter die de stabiliteit van orthografische projectie combineert met het effect van perspectiefvervorming, waardoor monocular 3DMM-regressiemethoden effectiever worden voor close-up beelden, zoals die van head-mounted camera's.

Toby Chong, Ryota Nakajima2026-03-06💻 cs

BiEvLight: Bi-level Learning of Task-Aware Event Refinement for Low-Light Image Enhancement

Dit paper introduceert BiEvLight, een hiërarchisch framework dat taakbewuste gebeurtenisverfijning via bi-niveau-lering toepast om de prestaties van beeldverbetering bij weinig licht te maximaliseren door de inherente afhankelijkheid tussen gebeurtenisruisverwijdering en beeldenhancement te benutten.

Zishu Yao, Xiang-Xiang Su, Shengning Zhou + 3 more2026-03-06💻 cs

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

Dit paper introduceert 3D-RFT, het eerste framework dat Reinforcement Learning met verifieerbare beloningen toepast op videobased 3D-scènebegrip om het model direct te optimaliseren op evaluatiemetrics en zo state-of-the-art prestaties te behalen die zelfs grotere modellen overtreffen.

Xiongkun Linghu, Jiangyong Huang, Baoxiong Jia + 1 more2026-03-06🤖 cs.AI

Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding

Het paper introduceert VideoHV-Agent, een multi-agent framework voor het begrijpen van lange video's dat de redeneerprocessen herformuleert als een gestructureerd hypothese-verificatieproces om semantische drift te voorkomen en de nauwkeurigheid te verhogen.

Zheng Wang, Haoran Chen, Haoxuan Qin + 3 more2026-03-06💻 cs

A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction

Dit paper introduceert Wallaroo, een eenvoudig autoregressief model dat via next-token-predicatie multimodale beeldbegrip, -generatie en -bewerking verenigt, terwijl het ook multi-resolutie-invoer en tweetalige ondersteuning biedt.

Jie Zhu, Hanghang Ma, Jia Wang + 6 more2026-03-06💻 cs

TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

TAPFormer is een transformer-gebaseerd framework dat door middel van een innovatieve mechanisme voor transiënte asynchrone fusie en cross-modale lokaal gewogen fusie robuuste en nauwkeurige tracking van willekeurige punten realiseert door RGB-beelden en event-stromen adaptief te combineren, zelfs onder uitdagende omstandigheden zoals bewegingsonscherpte en slechte verlichting.

Jiaxiong Liu, Zhen Tan, Jinpu Zhang + 4 more2026-03-06💻 cs

MultiGO++: Monocular 3D Clothed Human Reconstruction via Geometry-Texture Collaboration

MultiGO++ is een nieuw raamwerk dat monokulaire 3D-reconstructie van beklede mensen verbetert door een effectieve samenwerking tussen geometrie en textuur te realiseren via een multi-bron textuursynthesestrategie, een regio-bewuste vormextractiemodule en een dual reconstruction U-Net.

Nanjie Yao, Gangjian Zhang, Wenhao Shen + 3 more2026-03-06💻 cs

← Vorige Volgende →