cs.CV papers | Gist.Science

GloSplat: Joint Pose-Appearance Optimization for Faster and More Accurate 3D Reconstruction

GloSplat is een framework dat tijdens het trainen van 3D Gaussian Splatting een gezamenlijke optimalisatie van pose en uiterlijk uitvoert door expliciete SfM-kenmerksporen als eerste-class entiteiten te behouden, wat leidt tot snellere en nauwkeurigere 3D-reconstructie dan bestaande methoden.

Tianyu Xiong, Rui Li, Linjie Li + 1 more2026-03-06💻 cs

On Multi-Step Theorem Prediction via Non-Parametric Structural Priors

Deze paper introduceert een trainingsvrije aanpak voor meerstaps stellingvoorspelling die gebruikmaakt van Theorem Precedence Graphs om structurele drift te overwinnen en zo 89,29% nauwkeurigheid bereikt op de FormalGeo7k-benchmark, wat de prestaties van bestaande ICL-baselines overtreft en die van gesuperviseerde modellen evenaart.

Junbo Zhao, Ting Zhang, Can Li + 3 more2026-03-06🤖 cs.AI

Scalable Injury-Risk Screening in Baseball Pitching From Broadcast Video

Dit artikel introduceert een schaalbaar monoculair videopipeline dat 18 klinisch relevante biomechanische metrics voor honkbalpitchers recupereert uit broadcastbeelden, waarmee een effectief risico-screenningsmodel voor blessures mogelijk wordt gemaakt zonder dure stadioncamera's.

Jerrin Bright, Justin Mende, John Zelek2026-03-06💻 cs

SURE: Semi-dense Uncertainty-REfined Feature Matching

Deze paper introduceert SURE, een semi-dicht kader voor beeldkoppeling dat betrouwbare overeenkomsten en hun onzekerheid gelijktijdig voorspelt door aleatorische en epistemische onzekerheid te modelleren, waardoor het bestaande methoden overtreft in nauwkeurigheid en efficiëntie bij uitdagende scenario's.

Sicheng Li, Zaiwang Gu, Jie Zhang + 3 more2026-03-06💻 cs

Diffusion-Based sRGB Real Noise Generation via Prompt-Driven Noise Representation Learning

Dit artikel introduceert Prompt-Driven Noise Generation (PNG), een nieuw raamwerk dat realistische sRGB-ruis genereert via promptgestuurde leermethoden zonder afhankelijkheid van camerametadata, waardoor de generaliseerbaarheid van ruisonderdrukking in de praktijk aanzienlijk wordt verbeterd.

Jaekyun Ko, Dongjin Kim, Soomin Lee + 2 more2026-03-06💻 cs

Interpretable Pre-Release Baseball Pitch Type Anticipation from Broadcast 3D Kinematics

Deze studie presenteert een interpreteerbaar model dat 80,4% nauwkeurigheid bereikt bij het voorspellen van acht verschillende worptypes in honkbal op basis van monokulaire 3D-lichaamshouding, waarbij bovenlichaamsmechaniek en polspositie als belangrijkste voorspellers worden geïdentificeerd en een empirisch plafond wordt vastgesteld voor worpen die uitsluitend op grip verschillen.

Jerrin Bright, Michelle Lu, John Zelek2026-03-06🤖 cs.AI

Structure Observation Driven Image-Text Contrastive Learning for Computed Tomography Report Generation

Deze paper introduceert een tweestapskader voor het genereren van CT-rapporten dat structurele beeld-taalkoppelingen leert via contrastief leren en een dynamische negatieve wachtrij, waardoor nieuwe state-of-the-art prestaties worden bereikt op openbare datasets.

Hong Liu, Dong Wei, Qiong Peng + 4 more2026-03-06💻 cs

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

Dit paper introduceert DeformTrace, een hybride model dat State Space Models verbetert met vervormbare dynamica en relay-tokens om de precisie, efficiëntie en robuustheid van tijdelijke vervalsingsdetectie in video en audio aanzienlijk te verhogen.

Xiaodong Zhu, Suting Wang, Yuanming Zheng + 5 more2026-03-06🤖 cs.AI

Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation

Dit paper introduceert FedMEPD, een federatief leerframework dat modality-specifieke encoders en gedeeltelijk gepersonaliseerde fusie-decoders combineert om intermodale heterogeniteit en lokale personalisatie te adresseren bij multimodale hersentumorsegmentatie, waarbij clients met onvolledige modaliteiten hun representaties calibreren via cross-attention naar globale ankers.

Hong Liu, Dong Wei, Qian Dai + 3 more2026-03-06💻 cs

FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation

FedAFD is een geïntegreerd framework voor multimodaal federatief leren dat via een tweeledige adversariale uitlijning, granulariteitsbewuste fusie en een op gelijkenis gebaseerde ensemble-distillatie de uitdagingen van heterogene data en modellen oplost om zowel client- als serverprestaties te verbeteren.

Min Tan, Junchao Ma, Yinfu Feng + 6 more2026-03-06🤖 cs.AI

Locality-Attending Vision Transformer

Dit artikel introduceert LocAtViT, een eenvoudige toevoeging aan Vision Transformers die door het moduleren van self-attention met een leerbaar Gaussisch kernel de prestaties op segmentatietaken aanzienlijk verbetert zonder de bestaande classificatiecapaciteiten te schaden.

Sina Hajimiri, Farzad Beizaee, Fereshteh Shakeri + 3 more2026-03-06💻 cs

FC-VFI: Faithful and Consistent Video Frame Interpolation for High-FPS Slow Motion Video Generation

In dit artikel wordt FC-VFI voorgesteld, een methode voor trouwe en consistente videoframe-interpolatie die hoge-resolutie video's van 30 fps naar 120 of 240 fps omzet door een tijdsmodelleerstrategie en semantische matching te combineren om zowel visuele fideliteit als bewegingsconsistentie te waarborgen.

Ganggui Ding, Hao Chen, Xiaogang Xu2026-03-06💻 cs

AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM

Het artikel introduceert AdaIAT, een methode die hallucinaties in Large Vision-Language Models effectief vermindert door de aandacht voor gegenereerde tekst adaptief te verhogen, waardoor de balans tussen nauwkeurigheid en linguïstische coherentie wordt verbeterd zonder herhalende beschrijvingen.

Li'an Zhong, Ziqiang He, Jibin Zheng + 3 more2026-03-06💻 cs

Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object

Deze paper introduceert een methode voor het genereren van viewpoint-consistente 3D-adversariële texturen via differentieerbare rendering, die de kwetsbaarheid van visuele robotbeleid voor perceptuele aanvallen blootlegt en effectief blijft onder dynamische camerahoeken.

Chanmi Lee, Minsung Yoon, Woojae Kim + 2 more2026-03-06💻 cs

Person Detection and Tracking from an Overhead Crane LiDAR

Dit artikel presenteert een aangepast dataset en een evaluatie van 3D-detectie- en trackingmethodes voor het lokaliseren van personen vanuit een LiDAR-sensor op een kraan in een industriële omgeving, waarbij VoxelNeXt en SECOND de beste prestaties leveren binnen een straal van 5 meter.

Nilusha Jayawickrama, Henrik Toikka, Risto Ojala2026-03-06🤖 cs.LG

Adaptive Prototype-based Interpretable Grading of Prostate Cancer

Dit artikel presenteert een nieuw, interpreteerbaar, op prototypes gebaseerd zwak-toezichtend framework voor het automatisch graden van prostaatkanker uit histopathologische beelden, dat door het nabootsen van het pathologisch vergelijkingsproces en het gebruik van dynamische aandachtmechanismen zowel hoge prestaties als vertrouwen biedt voor klinische toepassingen.

Riddhasree Bhattacharyya, Pallabi Dutta, Sushmita Mitra2026-03-06💻 cs

TimeWarp: Evaluating Web Agents by Revisiting the Past

Dit paper introduceert TimeWarp, een benchmark die de kwetsbaarheid van webagenten voor veranderingen in webontwerp blootlegt, en presenteert TimeTraj, een algoritme dat via plan-distillatie over meerdere UI-versies de prestaties en robuustheid van deze agenten aanzienlijk verbetert.

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

Location-Aware Pretraining for Medical Difference Visual Question Answering

Deze paper introduceert een locatiebewust pretrainingsframework met specifieke taken zoals automatisch verwijzende expressies en grounded captioning, dat een verbeterde visuele encoder leert om subtiele verschillen in medische beelden te detecteren en zo state-of-the-art prestaties bereikt voor differentiële visuele vraag-antwoordtaken op thoraxröntgenfoto's.

Denis Musinguzi, Caren Han, Prasenjit Mitra2026-03-06🤖 cs.AI

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

VisionPangu is een compact multimodaal model van 1,7 miljard parameters dat, door gebruik te maken van een InternVL-visionencoder, de OpenPangu-taalbackbone en gedetailleerde menselijke beschrijvingen uit het DOCCI-dataset, concurrerende prestaties levert bij het genereren van gestructureerde en rijke afbeeldingsbeschrijvingen zonder afhankelijk te zijn van agressieve schaalvergroting.

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL

Revisiting an Old Perspective Projection for Monocular 3D Morphable Models Regression

Deze paper introduceert een nieuwe camera-modellering met een schrijnkingsparameter die de stabiliteit van orthografische projectie combineert met het effect van perspectiefvervorming, waardoor monocular 3DMM-regressiemethoden effectiever worden voor close-up beelden, zoals die van head-mounted camera's.

Toby Chong, Ryota Nakajima2026-03-06💻 cs

← Vorige Volgende →