cs.CV papers | Gist.Science

MissBench: Benchmarking Multimodal Affective Analysis under Imbalanced Missing Modalities

Dit paper introduceert MissBench, een benchmark en raamwerk voor multimodale affectieve analyse dat standaardiseert hoe onbalans in ontbrekende modaliteiten wordt getest, en twee nieuwe diagnostische metrieken (MEI en MLI) definieert om ongelijkheid in modale bijdrage en optimalisatie te kwantificeren.

Tien Anh Pham, Phuong-Anh Nguyen, Duc-Trong Le, Cam-Van Thi Nguyen2026-03-11💻 cs

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Dit paper introduceert InternVL-U, een lichtgewicht 4B-parameter unificerend multimodaal model dat door middel van een decoupled architectuur en een op redenering gebaseerde data-pipeline superieure prestaties bereikt in begrijpen, redeneren, genereren en bewerken, terwijl het tegelijkertijd de efficiëntie en schaalbaarheid van grotere modellen overtreft.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Het paper introduceert DISPLAY, een raamwerk voor het genereren van controleerbare en fysiek consistente video's van mens-objectinteracties dat gebruikmaakt van een lichtgewicht, spaarzame bewegingsgids (alleen polskoordinaten en een object-boundingbox), een object-gerichte attentiemechanisme en een multi-task trainingsstrategie om de beperkingen van bestaande methoden te overwinnen.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Deze paper introduceert CourtSI, het eerste grote dataset en benchmark voor ruimtelijke intelligentie in sporten, waarmee de beperkingen van bestaande vision-language modellen worden blootgelegd en een aanzienlijke prestatieverbetering wordt bereikt door fine-tuning.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

Dit paper introduceert WikiCLIP, een efficiënt contrastief raamwerk dat open-domein visuele entiteitsherkenning aanzienlijk verbetert door grote taalmodel-embeddings te combineren met een visueel geleide kennisadapter en een mechanisme voor het synthetiseren van harde negatieven, waardoor het prestaties op benchmarks zoals OVEN significant verhoogt en de inferentielatentie in vergelijking met generatieve modellen met bijna 100 keer verlaagt.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

Dit paper onthult dat de Chamfer-afstand faalt bij 3D-vormoptimalisatie door een structurele gradiëntproblematiek die leidt tot ineenstorting, en toont aan dat alleen niet-lokale koppeling deze kan voorkomen, wat resulteert in aanzienlijke verbeteringen in 3D-vormherstel.

Chang-Yong Song, David Hyde2026-03-11💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Deze paper introduceert een interpreteerbare methode voor tekst-motieretrieval die fijnmazige corresponderende kenmerken vastlegt door bewegingen om te zetten in gezamenlijke-hoekafbeeldingen en deze te combineren met een late token-patch-interactie, wat leidt tot betere prestaties dan bestaande methoden op HumanML3D en KIT-ML.

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao2026-03-11💻 cs

Adaptive Clinical-Aware Latent Diffusion for Multimodal Brain Image Generation and Missing Modality Imputation

Dit paper introduceert ACADiff, een adaptief latent diffusion-framework dat ontbrekende multimodale hersenbeelden synthetiseert door klinische metadata en beschikbare beeldvorming te integreren, waardoor de diagnose van de ziekte van Alzheimer ook bij extreme data-ontbrekingen robuust blijft.

Rong Zhou, Houliang Zhou, Yao Su, Brian Y. Chen, Yu Zhang, Lifang He, Alzheimer's Disease Neuroimaging Initiative2026-03-11🤖 cs.AI

Unsupervised Domain Adaptation with Target-Only Margin Disparity Discrepancy

Dit paper introduceert een nieuw onbewaakt domeinadaptatiekader op basis van Margin Disparity Discrepancy om de leversegmentatie op interventionele CBCT-beelden te verbeteren door gebruik te maken van geannoteerde CT-data, wat resulteert in state-of-the-art prestaties.

Gauthier Miralles, Loïc Le Folgoc, Vincent Jugnon, Pietro Gori2026-03-11💻 cs

No Image, No Problem: End-to-End Multi-Task Cardiac Analysis from Undersampled k-Space

Deze paper introduceert k-MTR, een end-to-end multi-task framework dat directe diagnostische analyses van het hart uitvoert op basis van onderbemonsterde k-ruimte-data, waardoor de traditionele en foutgevoelige stap van beeldherstel wordt omzeild.

Yundi Zhang, Sevgi Gokce Kafali, Niklas Bubeck, Daniel Rueckert, Jiazhen Pan2026-03-11🤖 cs.AI

Leveraging whole slide difficulty in Multiple Instance Learning to improve prostate cancer grading

Dit paper introduceert het concept van 'Whole Slide Difficulty' op basis van meningsverschillen tussen experts en niet-experts, en toont aan dat het integreren van deze moeilijkheidsgraad in Multiple Instance Learning de prestaties van prostaatkankergradering, vooral bij hogere Gleason-graden, consistent verbetert.

Marie Arrivat, Rémy Peyret, Elsa Angelini, Pietro Gori2026-03-11💻 cs

From Semantics to Pixels: Coarse-to-Fine Masked Autoencoders for Hierarchical Visual Understanding

Dit paper introduceert C2FMAE, een hiërarchisch maskerend autoencoder-model dat de spanning tussen contrastief leren en gemaskeerde beeldmodellering oplost door een grof-naar-fijn leerproces te gebruiken dat semantische, object- en pixelniveaus combineert voor robuustere visuele representaties.

Wenzhao Xiang, Yue Wu, Hongyang Yu, Feng Gao, Fan Yang, Xilin Chen2026-03-11🤖 cs.LG

BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion

Dit paper introduceert BEACON, een methode die taalgeconditioneerde navigatie onder obstructie verbetert door in plaats van 2D-beeldvoorspellingen een vogelvluchtaanzicht (BEV) van toegankelijkheidskansen te genereren die ook verborgen gebieden omvat, wat resulteert in een aanzienlijke prestatieverbetering ten opzichte van bestaande beeldgebaseerde methoden.

Xinyu Gao, Gang Chen, Javier Alonso-Mora2026-03-11🤖 cs.AI

ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare

ReCoSplat is een autoregressief feed-forward model voor Gaussische splatting dat een Render-and-Compare-module en een hybride KV-cache-compressiestrategie introduceert om robuuste online nieuwe weergavesynthese te bereiken, zelfs bij ongestructureerde of niet-geposeerde inputsequenties.

Freeman Cheng, Botao Ye, Xueting Li, Junqi You, Fangneng Zhan, Ming-Hsuan Yang2026-03-11💻 cs

From Data Statistics to Feature Geometry: How Correlations Shape Superposition

Dit paper introduceert Bag-of-Words Superposition (BOWS) om aan te tonen dat in realistische scenario's met gecorreleerde features, superpositie constructieve interferentie kan genereren die semantische clusters en cyclische structuren vormt, in plaats van dat interferentie uitsluitend als ruis moet worden gefilterd zoals in het standaardbeeld van superpositie wordt aangenomen.

Lucas Prieto, Edward Stevinson, Melih Barsbey, Tolga Birdal, Pedro A. M. Mediano2026-03-11🤖 cs.AI

Differentiable Microscopy Designs an All Optical Phase Retrieval Microscope

Dit paper introduceert differentieerbare microscopie ( $\partial\mu$ ), een datagedreven, top-down ontwerpmethode die de creatie van geoptimaliseerde optische systemen voor faseherstel mogelijk maakt en experimenteel is gevalideerd.

Kithmini Herath, Hasindu Kariyawasam, Ramith Hettiarachchi, Udith Haputhanthri, Dineth Jayakody, Raja N. Ahmad, Azeem Ahmad, Balpreet S. Ahluwalia, Chamira U. S. Edussooriya, Dushan N. Wadduwage2026-03-10🔬 physics.optics

Class Overwhelms: Mutual Conditional Blended-Target Domain Adaptation

Deze paper introduceert een wederkerig conditioneel aanpassingsmechanisme voor blended-target domain adaptation dat, zonder afhankelijkheid van domeinlabels, de prestaties verbetert door onzekerheidsgeleide alignering van categorische verdelingen en verrijking van bronkenmerken met diverse doelstijlen om de classifier te corrigeren.

Pengcheng Xu, Boyu Wang, Charles Ling2026-03-10💻 cs

altiro3D: Scene representation from single image and novel view synthesis

Dit paper introduceert altiro3D, een gratis bibliotheek die vanuit één afbeelding of video realistische 3D-ervaringen en lichtveld-inhoud genereert door diepteanalyse, inpainting en een 'Fast'-projectie-algoritme te combineren voor het creëren van meervoudige gezichtspunten.

E. Canessa, L. Tenze2026-03-10💻 cs

Multi-Scale Distillation for RGB-D Anomaly Detection on the PD-REAL Dataset

Deze paper introduceert PD-REAL, een nieuw en betaalbaar 3D-dataset voor anormaliteitsdetectie op Play-Doh-objecten, en presenteert een multi-scale distillatieframework dat gebruikmaakt van RGB-D-informatie om de detectienauwkeurigheid te verbeteren ten opzichte van bestaande methoden.

Jianjian Qin, Chao Zhang, Chunzhi Gu, Zi Wang, Jun Yu, Yijin Wei, Hui Xiao, Xin Yua2026-03-10💻 cs

CA-Jaccard: Camera-aware Jaccard Distance for Person Re-identification

Deze paper introduceert CA-Jaccard, een camera-bewuste Jaccard-afstandsmethode die de betrouwbaarheid van person re-identificatie verbetert door camera-variatie te benutten voor het selecteren van betrouwbare buren via camera-bewuste k-reciproke dichtste buren en lokale query-uitbreiding.

Yiyu Chen, Zheyi Fan, Zhaoru Chen, Yixuan Zhu2026-03-10💻 cs

← Vorige Volgende →