cs.CV papers | Gist.Science

Multimodal Classification via Total Correlation Maximization

Dit paper introduceert TCMax, een hyperparameter-vrije methode die multimodale classificatie verbetert door de totale correlatie tussen multimodale kenmerken en labels te maximaliseren, waardoor modaalconcurrentie wordt verminderd en intermodale interacties worden benut.

Feng Yu, Xiangyu Wu, Yang Yang, Jianfeng LuWed, 11 Ma💻 cs

B-DENSE: Branching For Dense Ensemble Network Supervision Efficiency

Het paper introduceert B-DENSE, een nieuw raamwerk dat de inferentie-efficiëntie van diffusiemodellen verbetert door middel van multi-branch trajectalignatie, waardoor een studentmodel dichte tussenstappen van de leraar leert om discretisatiefouten te verminderen en de beeldkwaliteit te verhogen.

Cherish Puniani, Tushar Kumar, Arnav Bendre, Gaurav Kumar, Shree SinghiWed, 11 Ma🤖 cs.AI

Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis

Dit artikel introduceert CoPeDiT, een generatief model dat zelfstandig het ontbrekende deel van 3D MRI-scans waarneemt om zo robuuste en semantisch consistente synthese mogelijk te maken zonder externe handmatige instructies.

Junkai Liu, Nay Aung, Theodoros N. Arvanitis, Joao A. C. Lima, Steffen E. Petersen, Le ZhangWed, 11 Ma⚡ eess

ChimeraLoRA: Multi-Head LoRA-Guided Synthetic Datasets

ChimeraLoRA loste het dilemma tussen diversiteit en detail in synthetische datasets op door een gedeelde LoRA voor klasse-priors te combineren met per-afbeelding LoRA's voor specifieke kenmerken, wat leidt tot robuuste verbeteringen in classificatieprestaties bij data-schaarste.

Hoyoung Kim, Minwoo Jang, Jabin Koo, Sangdoo Yun, Jungseul OkWed, 11 Ma💻 cs

OrthoAI: A Neurosymbolic Framework for Evidence-Grounded Biomechanical Reasoning in Clear Aligner Orthodontics

Het artikel introduceert OrthoAI, een neurosymbolisch raamwerk dat door middel van segmentatie met schaarse supervisie, kennisgebaseerde constraint-inferentie en een multicriteria-evaluatiemodel de brug slaat tussen 3D-geometrische waarneming en klinisch biomechanisch redeneren voor de automatische ondersteuning van beslissingen bij orthodontie met transparante aligners.

Edouard Lansiaux, Margaux Leman, Mehdi AmmiWed, 11 Ma🤖 cs.AI

Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1

Deze paper introduceert een dubbele pijplijn voor de segmentatie van vogelafbeeldingen die foundation-modellen zoals SAM 2.1, Grounding DINO 1.5 en YOLOv11 combineert om zowel zero-shot als gesuperviseerde prestaties te bereiken die alle eerdere benchmarks op de CUB-200-2011-dataset overtreffen.

Abhinav MunagalaWed, 11 Ma🤖 cs.AI

DOCFORGE-BENCH: A Comprehensive 0-shot Benchmark for Document Forgery Detection and Analysis

Dit paper introduceert DOCFORGE-BENCH, het eerste zero-shot benchmark voor documentvervalsing, en onthult dat bestaande methoden door een gebrek aan kalibratie en een extreem onevenwichtige verdeling van vervalsde pixels in plaats van door representatiefalen onbetrouwbaar zijn voor praktische toepassing.

Zengqi Zhao, Weidi Xia, En Wei, Yan Zhang, Jane Mo, Tiannan Zhang, Yuanqin Dai, Zexi Chen, Yiran Tao, Simiao RenWed, 11 Ma💻 cs

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

Pri4R is een effectieve methode die Vision-Language-Action-modellen een impliciet begrip van werelddynamiek bijbrengt door tijdens het trainen gebruik te maken van bevoorrechte 4D-informatie via een lichtgewicht punt-track-head, wat leidt tot aanzienlijk betere prestaties in complexe manipulatietaken zonder extra rekenlast tijdens het gebruik.

Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, Bohyung Han, Hyunmin Lee, Laszlo A. Jeni, Seungryong KimWed, 11 Ma🤖 cs.AI

Performance Analysis of Edge and In-Sensor AI Processors: A Comparative Review

Dit overzichtspaper analyseert de prestaties van ultra-low-power edge- en in-sensor AI-processoren door een theoretische vergelijking van architectuurparadigma's te combineren met empirische benchmarks van het PicoSAM2-model op de GAP9, STM32N6 en Sony IMX500, waarbij de IMX500 uitblinkt in energie-efficiëntie en in-sensor verwerking.

Luigi Capogrosso, Pietro Bonazzi, Michele MagnoWed, 11 Ma🤖 cs.LG

Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

Het paper introduceert Granulon, een nieuw multimodaal groot taalmodel dat DINOv3 combineert met een adaptieve multi-granulariteitsarchitectuur om zowel pixel- als grootschalige semantische redenering te verenigen, wat resulteert in een aanzienlijke verbetering van de nauwkeurigheid en een vermindering van hallucinaties.

Junyuan Mao, Qiankun Li, Linghao Meng, Zhicheng He, Xinliang Zhou, Kun Wang, Yang Liu, Yueming JinWed, 11 Ma💻 cs

Where, What, Why: Toward Explainable 3D-GS Watermarking

Deze paper introduceert een uitlegbaar en robuust watermerksysteem voor 3D Gaussian Splatting dat door middel van een native framework en een 'Safety and Budget Aware Gate' een optimale balans bereikt tussen watermerkbereikbaarheid, visuele kwaliteit en auditieve traceerbaarheid.

Mingshu Cai, Jiajun Li, Osamu Yoshie, Yuya Ieiri, Yixuan LiWed, 11 Ma💻 cs

VisionCreator-R1: A Reflection-Enhanced Native Visual-Generation Agentic Model

Het paper introduceert VisionCreator-R1, een native agent voor visuele creatie met een expliciet reflectiemechanisme en een RPCO-trainingsmethode die, ondanks een asymmetrie in beloningstoewijzing tussen planning en reflectie, betere prestaties behaalt dan Gemini2.5Pro op zowel eendaagse als meerdaagse visuele taken.

Jinxiang Lai, Wenzhe Zhao, Zexin Lu, Hualei Zhang, Qinyu Yang, Rongwei Quan, Zhimin Li, Shuai Shao, Song Guo, Qinglin LuWed, 11 Ma💻 cs

Computer Vision-Based Vehicle Allotment System using Perspective Mapping

Dit onderzoek presenteert een kosteneffectief, computer vision-gebaseerd parkeersysteem dat gebruikmaakt van YOLOv8 en inverse perspectiefmapping om vanuit vier camerabewakingen dynamisch beschikbare parkeerplekken te detecteren en deze in een 3D-omgeving weer te geven voor efficiëntere stadsparkeerbeheer.

Prachi Nandi, Sonakshi Satapathy, Suchismita ChinaraWed, 11 Ma💻 cs

A Lightweight Multi-Cancer Tumor Localization Framework for Deployable Digital Pathology

Dit paper introduceert MuCTaL, een lichtgewicht deep learning-model dat door middel van gebalanceerde training op vier kankersoorten nauwkeurige tumorlokalisatie bereikt in digitale pathologie en bovendien generaliseert naar onzichtbare tumorsoorten zoals pancreaskanker.

Brian Isett, Rebekah Dadey, Aofei Li, Ryan C. Augustin, Kate Smith, Aatur D. Singhi, Qiangqiang Gu, Riyue BaoWed, 11 Ma🤖 cs.AI

HECTOR: Hybrid Editable Compositional Object References for Video Generation

HECTOR is een nieuwe generatieve pijplijn die het mogelijk maakt om video's te creëren met fijnmazige, samenstellingsgerichte controle door het combineren van statische en dynamische referenties met expliciete trajectvoorschriften voor individuele objecten.

Guofeng Zhang, Angtian Wang, Jacob Zhiyuan Fang, Liming Jiang, Haotian Yang, Alan Yuille, Chongyang MaWed, 11 Ma💻 cs

Comparative Analysis of Patch Attack on VLM-Based Autonomous Driving Architectures

Deze studie onthult dat visueel-taalmodellen voor autonoom rijden, zoals Dolphins, OmniDrive en LeapVAD, ernstig kwetsbaar zijn voor fysieke patch-aanvallen, wat leidt tot aanhoudende fouten en kritieke detectieproblemen in simulaties.

David Fernandez, Pedram MohajerAnsari, Amir Salarpour, Long Cheng, Abolfazl Razi, Mert D. PeséWed, 11 Ma💻 cs

Towards Visual Query Segmentation in the Wild

Deze paper introduceert visuele query-segmentatie (VQS) als een nieuw paradigma voor het pixel-precies lokaliseren van objecten in onbewerkte video's, ondersteund door het grote VQS-4K-benchmark en de effectieve VQ-SAM-methode die SAM 2 uitbreidt.

Bing Fan, Minghao Li, Hanzhi Zhang, Shaohua Dong, Naga Prudhvi Mareedu, Weishi Shi, Yunhe Feng, Yan Huang, Heng FanWed, 11 Ma💻 cs

Multi-Kernel Gated Decoder Adapters for Robust Multi-Task Thyroid Ultrasound under Cross-Center Shift

Dit artikel introduceert de Multi-Kernel Gated Adapter (MKGA), een lichtgewicht decoder-aanpassing die de robuustheid van multi-task thyroïd-echografie-analyses onder domeinverschuivingen verbetert door de complementaire sterktes van CNN's en ViT's te benutten voor betere segmentatie en maligniteitsschatting.

Maziar Sabouri, Nourhan Bayasi, Arman RahmimWed, 11 Ma🔬 physics

Vision-Language Models Encode Clinical Guidelines for Concept-Based Medical Reasoning

Het paper introduceert MedCBR, een nieuw raamwerk dat conceptbottleneck-modellen combineert met visueel-taalmogelijkheden en klinische richtlijnen om interpreteerbare, op redenering gebaseerde medische diagnoses te genereren die de expertlogica nabootsen.

Mohamed Harmanani, Bining Long, Zhuoxin Guo, Paul F. R. Wilson, Amirhossein Sabour, Minh Nguyen Nhat To, Gabor Fichtinger, Purang Abolmaesumi, Parvin MousaviWed, 11 Ma🤖 cs.LG

MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering

Het MEGC2026-challenge introduceert twee nieuwe taken, namelijk micro-expressie video-vraagbeantwoording (ME-VQA) en langdurige video-vraagbeantwoording (ME-LVQA), om de analyse van micro-expressies met behulp van multimodale grote taalmodellen te bevorderen.

Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Su-Jing Wang, Adrian K. DavisonWed, 11 Ma💻 cs

← Vorige Volgende →