cs.CV papers | Gist.Science

MSRL: Scaling Generative Multimodal Reward Modeling via Multi-Stage Reinforcement Learning

Dit paper introduceert MSRL, een multi-stadia versterkingsleerbenadering die schaalbare training van generatieve multimodale beloningsmodellen mogelijk maakt door eerst op tekstuele data te leren en deze vaardigheden vervolgens over te dragen naar multimodale taken, waardoor prestaties aanzienlijk verbeteren zonder extra multimodale voorkeurannotaties.

Chenglong Wang, Yifu Huo, Yang Gan, Qiaozhi He, Qi Meng, Bei Li, Yan Wang, Junfu Liu, Tianhua Zhou, Jingbo Zhu, Tong Xiao2026-03-27💻 cs

MoireMix: A Formula-Based Data Augmentation for Improving Image Classification Robustness

Dit paper introduceert MoireMix, een lichtgewicht, formulegebaseerde data-augmentatiemethode die analytische Moiré-interferentiepatronen gebruikt om de robuustheid van beeldclassificatiemodellen te verbeteren zonder externe datasets of significante rekentijd.

Yuto Matsuo, Yoshihiro Fukuhara, Yuki M. Asano, Rintaro Yanagi, Hirokatsu Kataoka, Akio Nakamura2026-03-27🤖 cs.AI

AnyDoc: Enhancing Document Generation via Large-Scale HTML/CSS Data Synthesis and Height-Aware Reinforcement Optimization

Dit paper introduceert AnyDoc, een framework dat documentgeneratie verbetert door middel van een schaalbaar synthesepipeline voor het creëren van een groot HTML/CSS-dataset en een hoogte-bewuste versterkingsleerstrategie om overloopproblemen op te lossen.

Jiawei Lin, Wanrong Zhu, Vlad I Morariu, Christopher Tensmeyer2026-03-27💻 cs

AirSplat: Alignment and Rating for Robust Feed-Forward 3D Gaussian Splatting

Dit paper introduceert AirSplat, een nieuw trainingskader dat 3D-vision foundation modellen effectief aanpast voor hoogwaardige, pose-vrije nieuwe weergavesynthese door middel van zelf-consistente pose-uitlijning en rating-gebaseerde opaciteitsmatching.

Minh-Quan Viet Bui, Jaeho Moon, Munchurl Kim2026-03-27💻 cs

Denoise and Align: Towards Source-Free UDA for Robust Panoramic Semantic Segmentation

Dit paper introduceert DAPASS, een bronvrij domeinadaptatiekader dat panoramische semantische segmentatie verbetert door middel van een vertrouwen-gestuurde ruisverwijdering en een contextuele resolutie-adversariale module om geometrische vervormingen en gebrek aan brondata aan te pakken.

Yaowen Chang, Zhen Cao, Xu Zheng, Xiaoxin Mi, Zhen Dong2026-03-27💻 cs

Robust Principal Component Completion

Dit artikel introduceert Robust Principal Component Completion (RPCC), een nieuw probabilistisch raamwerk dat via variational Bayes-inferentie de ondersteuning van een spaarse component indirect identificeert om zo een lage-rang achtergrond te reconstrueren en post-hoc drempelwaarden te elimineren, wat leidt tot superieure prestaties in foreground-extractie en anomaliedetectie.

Yinjian Wang, Wei Li, Yuanyuan Gui, James E. Fowler, Gemine Vivone2026-03-27🤖 cs.LG

EgoXtreme: A Dataset for Robust Object Pose Estimation in Egocentric Views under Extreme Conditions

Deze paper introduceert EgoXtreme, een nieuw groot dataset voor robuuste 6D-objectpose-schatting in egocentrisch zicht onder extreme omstandigheden zoals zware bewegingsonscherpte en slechte verlichting, waarmee de kloof tussen gecontroleerde laboratoriumdata en chaotische real-world toepassingen wordt overbrugd.

Taegyoon Yoon, Yegyu Han, Seojin Ji, Jaewoo Park, Sojeong Kim, Taein Kwon, Hyung-Sin Kim2026-03-27💻 cs

SAVe: Self-Supervised Audio-visual Deepfake Detection Exploiting Visual Artifacts and Audio-visual Misalignment

Het paper introduceert SAVe, een zelftoezichtend audio-visueel raamwerk dat uitsluitend op authentieke video's leert door zelf gegenereerde pseudo-manipulaties en lip-synchronisatie-anomalieën te analyseren om robuuste deepfake-detectie te realiseren.

Sahibzada Adil Shahzad, Ammarah Hashmi, Junichi Yamagishi, Yusuke Yasuda, Yu Tsao, Chia-Wen Lin, Yan-Tsung Peng, Hsin-Min Wang2026-03-27🤖 cs.LG

FD $^2$ : A Dedicated Framework for Fine-Grained Dataset Distillation

Dit paper introduceert FD², een speciaal framework voor gedetailleerde datasetdistillatie dat door middel van contrasterende aandacht en fijne-granulariteitsbeperkingen de prestaties verbetert door discriminatieve regio's te lokaliseren en overmatige gelijkenis binnen klassen te voorkomen.

Hongxu Ma, Guang Li, Shijie Wang, Dongzhan Zhou, Baoli Sun, Takahiro Ogawa, Miki Haseyama, Zhihui Wang2026-03-27🤖 cs.AI

Learning to Rank Caption Chains for Video-Text Alignment

Dit onderzoek presenteert een rangschikkingsoptimalisatiemethode voor video-tekstuitlijning die de beperkingen van binaire Direct Preference Optimization (DPO) overwint door gefinetunteerde visuele encoders en gesynthetiseerde caption-ketens te gebruiken voor nauwkeurigere beoordeling van visuele trouw.

Ansel Blume, Burak Uzkent, Shalini Chaudhuri, Garin Kessler2026-03-27🤖 cs.LG

← Vorige Volgende →

cs.CV