cs.CV papers | Gist.Science

LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control

LogoDiffuser is een trainingsvrije methode die meertalige logo's genereert en styliseert door doeltekens als afbeeldingen in te voeren en via letterbewuste attentiecontrole de karakterstructuur te behouden.

Mingyu Kang, Hyein Seo, Yuna Jeong, Junhyeong Park, Yong Suk Choi2026-03-11💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

Dit artikel introduceert PanoAffordanceNet, een nieuw end-to-end framework en bijbehorend dataset (360-AGD) voor holistische affordance-grounding in 360°-interieurs, dat uitdagingen zoals geometrische vervorming en semantische dispersie aanpakt om de waarneming voor embodied agents te verbeteren.

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun Yang2026-03-11⚡ eess

Ego: Embedding-Guided Personalization of Vision-Language Models

Deze paper introduceert Ego, een efficiënte methode voor het personaliseren van vision-language modellen door interne attention-mechanismen te gebruiken om visuele tokens als conceptgeheugen te extraheren, waardoor geavanceerde aanpassing mogelijk is zonder extra trainingsfasen of externe modules.

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi2026-03-11🤖 cs.AI

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

Dit paper toont aan dat bestaande verdedigingen tegen backdoors ontoereikend zijn omdat ze zich uitsluitend op de invoer-trigger richten, terwijl alternatieve triggers dezelfde kwetsbaarheid in de feature-ruimte kunnen activeren, wat een verschuiving vereist naar verdedigingen die zich richten op de backdoor-richting in de representatieruimte.

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek2026-03-11💻 cs

What is Missing? Explaining Neurons Activated by Absent Concepts

Deze paper toont aan dat mainstream XAI-methoden vaak vergeten dat neurale netwerken ook geactiveerd worden door het ontbreken van concepten, en stelt twee eenvoudige uitbreidingen voor om deze 'gecodeerde afwezigheden' in beeld te brengen en te gebruiken voor betere uitleg en debiasing.

Robin Hesse, Simone Schaub-Meyer, Janina Hesse, Bernt Schiele, Stefan Roth2026-03-11🤖 cs.LG

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

Deze paper introduceert DCPGN, een nieuwe methode voor testtijd-adaptatie die via multi-label prototypen en dual-clue consistentie (visueel en tekstueel) modellen getraind op egocentrische beelden aanpast aan exocentrische beelden voor actie-anticipatie zonder extra trainingsdata.

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

RA-SSU: Towards Fine-Grained Audio-Visual Learning with Region-Aware Sound Source Understanding

Deze paper introduceert de fine-grained Audio-Visual Learning-taak RA-SSU, ondersteund door twee nieuwe datasets (f-Music en f-Lifescene) en het SSUFormer-model, om gebiedsgerichte, frame-per-frame geluidsbronsegmentatie en -beschrijving te bereiken.

Muyi Sun, Yixuan Wang, Hong Wang, Chen Su, Man Zhang, Xingqun Qi, Qi Li, Zhenan Sun2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

ConfCtrl is een vertrouwenbewust video-interpolatiekader dat diffusiemodellen in staat stelt om bij grote perspectiefveranderingen nieuwe weergaven te genereren met behulp van een Kalman-geïnspireerd mechanisme dat betrouwbare projecties combineert met residucorrecties voor geometrisch consistente resultaten.

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

Dit paper introduceert BrainSTR, een raamwerk voor spatio-temporeel contrastief leren dat dynamische hersennetwerken interpreteerbaar modelleert door data-gedreven fase-indeling, aandacht voor diagnostisch kritieke momenten en een gestructureerde semantische ruimte te combineren voor een betere neuropsychiatrische diagnose.

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. Zaiane2026-03-11💻 cs

VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models

Deze paper introduceert VLM-Loc, een raamwerk dat grote visueel-taalmodellen gebruikt voor nauwkeurige tekst-naar-puntwolk-locatiebepaling door puntwolken om te zetten in vogelvluchtafbeeldingen en sceneschema's, en presenteert het CityLoc-benchmark voor uitgebreide evaluatie.

Shuhao Kang, Youqi Liao, Peijie Wang, Wenlong Liao, Qilin Zhang, Benjamin Busam, Xieyuanli Chen, Yun Liu2026-03-11💻 cs

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Dit paper introduceert MA-EgoQA, een nieuw benchmark en probleemdefinitie voor het beantwoorden van vragen op basis van gelijktijdig opgenomen egocentrische video's van meerdere embodied agents, en presenteert het EgoMAS-basismodel om de huidige tekortkomingen in systeemniveau-interpretatie te adresseren.

Kangsan Kim, Yanlai Yang, Suji Kim, Woongyeong Yeo, Youngwan Lee, Mengye Ren, Sung Ju Hwang2026-03-11🤖 cs.AI

CycleULM: A unified label-free deep learning framework for ultrasound localisation microscopy

Het artikel introduceert CycleULM, het eerste label-vrije deep learning-framework dat de prestaties en snelheid van ultrasone localisatiemicroscopie aanzienlijk verbetert door een fysica-gebaseerde vertaling tussen realiteit en simulatie mogelijk te maken zonder de noodzaak van gelabelde grondwaarheid.

Su Yan, Clara Rodrigo Gonzalez, Vincent C. H. Leung, Herman Verinaz-Jadan, Jiakang Chen, Matthieu Toulemonde, Kai Riemer, Jipeng Yan, Clotilde Vié, Qingyuan Tan, Peter D. Weinberg, Pier Luigi Dragotti, Kevin G. Murphy, Meng-Xing Tang2026-03-11⚡ eess

MissBench: Benchmarking Multimodal Affective Analysis under Imbalanced Missing Modalities

Dit paper introduceert MissBench, een benchmark en raamwerk voor multimodale affectieve analyse dat standaardiseert hoe onbalans in ontbrekende modaliteiten wordt getest, en twee nieuwe diagnostische metrieken (MEI en MLI) definieert om ongelijkheid in modale bijdrage en optimalisatie te kwantificeren.

Tien Anh Pham, Phuong-Anh Nguyen, Duc-Trong Le, Cam-Van Thi Nguyen2026-03-11💻 cs

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Dit paper introduceert InternVL-U, een lichtgewicht 4B-parameter unificerend multimodaal model dat door middel van een decoupled architectuur en een op redenering gebaseerde data-pipeline superieure prestaties bereikt in begrijpen, redeneren, genereren en bewerken, terwijl het tegelijkertijd de efficiëntie en schaalbaarheid van grotere modellen overtreft.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Het paper introduceert DISPLAY, een raamwerk voor het genereren van controleerbare en fysiek consistente video's van mens-objectinteracties dat gebruikmaakt van een lichtgewicht, spaarzame bewegingsgids (alleen polskoordinaten en een object-boundingbox), een object-gerichte attentiemechanisme en een multi-task trainingsstrategie om de beperkingen van bestaande methoden te overwinnen.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Deze paper introduceert CourtSI, het eerste grote dataset en benchmark voor ruimtelijke intelligentie in sporten, waarmee de beperkingen van bestaande vision-language modellen worden blootgelegd en een aanzienlijke prestatieverbetering wordt bereikt door fine-tuning.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

Dit paper introduceert WikiCLIP, een efficiënt contrastief raamwerk dat open-domein visuele entiteitsherkenning aanzienlijk verbetert door grote taalmodel-embeddings te combineren met een visueel geleide kennisadapter en een mechanisme voor het synthetiseren van harde negatieven, waardoor het prestaties op benchmarks zoals OVEN significant verhoogt en de inferentielatentie in vergelijking met generatieve modellen met bijna 100 keer verlaagt.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

Dit paper onthult dat de Chamfer-afstand faalt bij 3D-vormoptimalisatie door een structurele gradiëntproblematiek die leidt tot ineenstorting, en toont aan dat alleen niet-lokale koppeling deze kan voorkomen, wat resulteert in aanzienlijke verbeteringen in 3D-vormherstel.

Chang-Yong Song, David Hyde2026-03-11💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Deze paper introduceert een interpreteerbare methode voor tekst-motieretrieval die fijnmazige corresponderende kenmerken vastlegt door bewegingen om te zetten in gezamenlijke-hoekafbeeldingen en deze te combineren met een late token-patch-interactie, wat leidt tot betere prestaties dan bestaande methoden op HumanML3D en KIT-ML.

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao2026-03-11💻 cs

Adaptive Clinical-Aware Latent Diffusion for Multimodal Brain Image Generation and Missing Modality Imputation

Dit paper introduceert ACADiff, een adaptief latent diffusion-framework dat ontbrekende multimodale hersenbeelden synthetiseert door klinische metadata en beschikbare beeldvorming te integreren, waardoor de diagnose van de ziekte van Alzheimer ook bij extreme data-ontbrekingen robuust blijft.

Rong Zhou, Houliang Zhou, Yao Su, Brian Y. Chen, Yu Zhang, Lifang He, Alzheimer's Disease Neuroimaging Initiative2026-03-11🤖 cs.AI

← Vorige Volgende →