cs.CV Arbeiten | Gist.Science

LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control

Der Artikel stellt LogoDiffuser vor, eine trainingsfreie Methode, die mithilfe von letter-bewusster Aufmerksamkeitskontrolle in multimodalen Diffusions-Transformern multilinguale Logo-Designs erzeugt, indem sie Zielzeichen als Bilder statt als Texteingabe nutzt, um eine robuste Strukturkontrolle und stilistische Harmonie zu gewährleisten.

Mingyu Kang, Hyein Seo, Yuna Jeong, Junhyeong Park, Yong Suk Choi2026-03-11💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

Die Arbeit stellt PanoAffordanceNet vor, ein neuartiges Framework mit einem verzerrungsbewussten spektralen Modulator und einem omni-sphärischen Verdichtungskopf, das zusammen mit dem ersten hochqualitativen Datensatz 360-AGD die holistische Affordanz-Verankerung in 360°-Indoor-Umgebungen für embodied Intelligence ermöglicht.

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun Yang2026-03-11⚡ eess

Ego: Embedding-Guided Personalization of Vision-Language Models

Die Arbeit stellt eine effiziente Methode zur Personalisierung von Vision-Language-Modellen vor, die durch die Extraktion und Nutzung von visuellen Tokens aus den internen Aufmerksamkeitsmechanismen des Modells als Konzeptspeicher eine starke Anpassungsfähigkeit bei minimalem Overhead ermöglicht.

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi2026-03-11🤖 cs.AI

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

Die Studie widerlegt die Annahme, dass das Entfernen bekannter Trigger eine Backdoor vollständig neutralisiert, indem sie nachweist, dass alternative Trigger dieselbe Hintertür aktivieren und somit zukünftige Abwehrmechanismen sich auf die Beseitigung der zugrunde liegenden Merkmalsraum-Richtungen statt auf Eingabe-Trigger konzentrieren müssen.

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek2026-03-11💻 cs

What is Missing? Explaining Neurons Activated by Absent Concepts

Diese Arbeit zeigt, dass gängige Methoden der erklärbaren Künstlichen Intelligenz oft übersehen, dass Neuronen durch das Fehlen von Konzepten aktiviert werden, und schlägt einfache Erweiterungen vor, um diese „kodierten Abwesenheiten" in Deep-Learning-Modellen zu identifizieren und zu erklären.

Robin Hesse, Simone Schaub-Meyer, Janina Hesse, Bernt Schiele, Stefan Roth2026-03-11🤖 cs.LG

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

Diese Arbeit stellt eine neue Testzeit-Anpassungsmethode namens DCPGN vor, die durch ein Multi-Label-Prototypen-Wachstumsmodul und eine Dual-Clue-Konsistenz zwischen visuellen und textuellen Hinweisen die Herausforderung der Action Anticipation bei der Anpassung von ego- zu exozentrischen Ansichten ohne Zieltrainingsdaten effektiv löst.

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

RA-SSU: Towards Fine-Grained Audio-Visual Learning with Region-Aware Sound Source Understanding

Die Autoren stellen mit RA-SSU eine neue feinabgestufte Audio-Visual-Learning-Aufgabe vor, unterstützen diese durch zwei annotierte Datensätze (f-Music und f-Lifescene) und entwickeln das SSUFormer-Modell, das durch innovative Module eine präzise Segmentierung und detaillierte textuelle Beschreibung von Schallquellen auf Frame-Ebene ermöglicht.

Muyi Sun, Yixuan Wang, Hong Wang, Chen Su, Man Zhang, Xingqun Qi, Qi Li, Zhenan Sun2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

Der Paper stellt ConfCtrl vor, einen konfidenzbasierten Interpolationsrahmen für Videodiffusionsmodelle, der durch eine Kalman-inspirierte Korrekturmechanik präzise Kamerasteuerung ermöglicht und gleichzeitig verdeckte Bildbereiche bei großen Blickwinkeländerungen aus nur zwei Eingabebildern konsistent rekonstruiert.

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

Das Paper stellt BrainSTR vor, ein Framework für spatio-temporales kontrastives Lernen, das durch adaptive Phasentrennung und graphbasierte Merkmalsextraktion interpretierbare dynamische Hirnnetzwerke modelliert, um subtile diagnostische Signaturen bei neuropsychiatrischen Erkrankungen wie Autismus, bipolarer Störung und Depression präzise zu identifizieren.

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. Zaiane2026-03-11💻 cs

VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models

Der Artikel stellt VLM-Loc vor, ein Framework, das die räumliche Schlussfolgerungsfähigkeit von Vision-Language-Modellen nutzt, um aus natürlichen Sprachbeschreibungen präzise Positionen in 3D-Punktwolkenkarten abzuleiten, und führt gleichzeitig den neuen Benchmark CityLoc zur Evaluierung ein.

Shuhao Kang, Youqi Liao, Peijie Wang, Wenlong Liao, Qilin Zhang, Benjamin Busam, Xieyuanli Chen, Yun Liu2026-03-11💻 cs

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Die Arbeit stellt MA-EgoQA vor, einen neuen Benchmark und ein zugehöriges Basismodell namens EgoMAS, um das Verständnis und die Beantwortung von Fragen über parallele, langfristige Egocentric-Videos von mehreren embodied AI-Agenten zu ermöglichen und dabei die aktuellen Grenzen der Systemintegration aufzuzeigen.

Kangsan Kim, Yanlai Yang, Suji Kim, Woongyeong Yeo, Youngwan Lee, Mengye Ren, Sung Ju Hwang2026-03-11🤖 cs.AI

CycleULM: A unified label-free deep learning framework for ultrasound localisation microscopy

Die Studie stellt CycleULM vor, ein einheitliches, label-freies Deep-Learning-Framework, das durch einen physikbasierten Domänentransfer die Leistung und Geschwindigkeit der Ultraschall-Lokalisationsmikroskopie (ULM) erheblich verbessert und so den Weg für eine robuste Echtzeit-Anwendung in der klinischen Praxis ebnet.

Su Yan, Clara Rodrigo Gonzalez, Vincent C. H. Leung, Herman Verinaz-Jadan, Jiakang Chen, Matthieu Toulemonde, Kai Riemer, Jipeng Yan, Clotilde Vié, Qingyuan Tan, Peter D. Weinberg, Pier Luigi Dragotti, Kevin G. Murphy, Meng-Xing Tang2026-03-11⚡ eess

MissBench: Benchmarking Multimodal Affective Analysis under Imbalanced Missing Modalities

Die Arbeit stellt MissBench vor, einen Benchmark und ein Framework zur Evaluierung multimodaler affektiver Analysen unter realistischen, unausgewogenen Bedingungen fehlender Modalitäten, das durch neue Metriken wie den Modality Equity Index (MEI) und den Modality Learning Index (MLI) verborgene Ungleichheiten und Optimierungsprobleme in bestehenden Modellen aufdeckt.

Tien Anh Pham, Phuong-Anh Nguyen, Duc-Trong Le, Cam-Van Thi Nguyen2026-03-11💻 cs

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Die Arbeit stellt InternVL-U vor, ein leichtgewichtiges 4-Milliarden-Parameter-Modell, das durch eine modulare Architektur und eine datengetriebene Synthesepipeline Verständnis, Schlussfolgerung, Generierung und Bearbeitung in einem einheitlichen Rahmen vereint und dabei trotz seiner geringen Größe leistungsstärkere Basismodelle mit über 14 Milliarden Parametern in verschiedenen Aufgaben übertrifft.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Die Arbeit stellt DISPLAY vor, ein Framework zur Erzeugung von kontrollierbaren und physikalisch konsistenten Videos menschlicher Objektinteraktionen, das durch eine spärliche Bewegungssteuerung mittels Handgelenkskoordinaten und einem objektabstrakten Bounding-Box-Rahmen sowie durch einen objektfokussierten Aufmerksamkeitsmechanismus und ein Multi-Task-Auxiliary-Training für verbesserte Robustheit und Generalisierung sorgt.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Die Autoren stellen mit CourtSI und dem zugehörigen Benchmark CourtSI-Bench das erste groß angelegte Datenset und Evaluierungsframework vor, das speziell darauf ausgelegt ist, die räumliche Intelligenz von Vision-Language-Modellen in dynamischen Sport-Szenarien zu testen und zu verbessern, wobei Fine-Tuning auf diesem Datensatz zu signifikanten Leistungssteigerungen führt.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

Das Paper stellt WikiCLIP vor, einen effizienten kontrastiven Rahmen für die offene visuelle Entitätserkennung, der durch den Einsatz von LLM-Embeddings, einem Vision-Guided Knowledge Adaptor und einer Hard-Negative-Synthese eine signifikante Leistungssteigerung bei gleichzeitig drastisch reduzierter Inferenzlatenz im Vergleich zu generativen Modellen erzielt.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

Die Arbeit zeigt, dass die direkte Optimierung des Chamfer-Abstands in der 3D-Formoptimierung aufgrund eines strukturellen Gradientenproblems zum Kollaps führt, der nur durch nicht-lokale Kopplung, wie sie durch geteilte Basisdeformationen oder einen differentiable MPM-Prior bereitgestellt wird, wirksam verhindert werden kann.

Chang-Yong Song, David Hyde2026-03-11💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Die vorgestellte Arbeit verbessert die Text-Bewegungs-Rückgewinnung durch eine interpretierbare, joint-basierte Darstellung als Pseudo-Bild und einen Token-Patch-Late-Interaction-Mechanismus, der feingranulare Korrespondenzen ermöglicht und den aktuellen Stand der Technik auf HumanML3D und KIT-ML übertrifft.

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao2026-03-11💻 cs

Adaptive Clinical-Aware Latent Diffusion for Multimodal Brain Image Generation and Missing Modality Imputation

Das Paper stellt ACADiff vor, ein adaptives klinisch bewusstes latentes Diffusionsmodell, das fehlende multimodale Hirnbildgebungsdaten (sMRI, FDG-PET, AV45-PET) unter Einbeziehung klinischer Metadaten synthetisiert und dabei auch bei extremen 80 % fehlenden Daten eine überlegene Bildqualität und diagnostische Leistung erzielt.

Rong Zhou, Houliang Zhou, Yao Su, Brian Y. Chen, Yu Zhang, Lifang He, Alzheimer's Disease Neuroimaging Initiative2026-03-11🤖 cs.AI

← Zurück Weiter →