cs.CV Arbeiten | Gist.Science

DeCLIP: Decoupled Prompting for CLIP-based Multi-Label Class-Incremental Learning

Der Artikel stellt DeCLIP vor, ein replay-freies und parameter-effizientes Framework, das durch entkoppeltes, klassenspezifisches Prompting und adaptive Ähnlichkeitstemperierung das Katastrophenvergessen und die hohe False-Positive-Rate bei CLIP-basiertem Multi-Label-Klassen-incrementellen Lernen effektiv adressiert.

Kaile Du, Zihan Ye, Junzhou Xie, Yixi Shen, Yuyang Li, Fuyuan Hu, Ling Shao, Guangcan Liu, Joost van de Weijer, Fan Lyu2026-03-09💻 cs

Beyond Flat Unknown Labels in Open-World Object Detection

Die Arbeit stellt BOUND vor, einen Open-World-Objektdetektor, der über die bloße Erkennung unbekannter Objekte hinausgeht, indem er diese in grobgranulare, hierarchische Kategorien einordnet, um semantisch fundiertere Entscheidungen in Anwendungen wie dem autonomen Fahren zu ermöglichen.

Yuchen Zhang, Yao Lu, Johannes Betz2026-03-09💻 cs

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

Die Arbeit stellt LikePhys vor, eine trainingsfreie Methode zur Bewertung des intuitiven Physikverständnisses in Video-Diffusionsmodellen durch Likelihood-Vergleiche, die zeigt, dass diese Modelle trotz aktueller Schwierigkeiten mit komplexen Dynamiken mit zunehmender Kapazität und optimierten Inferenzeinstellungen ein verbessertes Verständnis physikalischer Gesetze aufweisen.

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini2026-03-09🤖 cs.AI

CanvasMAR: Improving Masked Autoregressive Video Prediction With Canvas

Das Paper stellt CanvasMAR vor, ein neuartiges autoregressives Videovorhersagemodell, das durch die Einführung eines globalen „Canvas"-Vorschlags und einer bewegungsbewussten Lernkurve hochqualitative Videos mit weniger Sampling-Schritten erzeugt und dabei diffusionbasierte Methoden auf Benchmarks wie Kinetics-600 konkurrenzfähig ist.

Zian Li, Muhan Zhang2026-03-09🤖 cs.AI

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

Das Papier stellt 3DThinker vor, ein Framework, das es Vision-Language-Modellen ermöglicht, durch zweistufiges Training ohne explizite 3D-Vorwissen oder -Daten räumliches 3D-Imaginieren zu erlernen und so die räumliche Schlussfolgerung aus begrenzten Ansichten zu verbessern.

Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Xiang An, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang2026-03-09🤖 cs.AI

AURASeg: Attention-guided Upsampling with Residual-Assistive Boundary Refinement for Onboard Robot Drivable-Area Segmentation

Die Arbeit stellt AURASeg vor, ein auf ResNet basierendes Segmentierungsframework für fahrbare Bereiche, das durch einen aufmerksamen Upsampling-Decoder und eine residualgestützte Randverfeinerung präzise Grenzen und eine effiziente Onboard-Verarbeitung auf Edge-Geräten ermöglicht.

Narendhiran Vijayakumar, Sridevi. M2026-03-09💻 cs

Culture in Action: Evaluating Text-to-Image Models through Social Activities

Die Studie stellt CULTIVate vor, einen Benchmark zur Bewertung von Text-zu-Bild-Modellen anhand kulturell spezifischer sozialer Aktivitäten, der systematische Verzerrungen zugunsten des globalen Nordens aufdeckt und neue Metriken für eine kulturtreue Bildgenerierung bietet.

Sina Malakouti, Boqing Gong, Adriana Kovashka2026-03-09💻 cs

Decoupling Bias, Aligning Distributions: Synergistic Fairness Optimization for Deepfake Detection

Der vorgestellte Ansatz verbessert die Fairness von Deepfake-Erkennungsmodellen für verschiedene demografische Gruppen, ohne die Gesamterkennungsgenauigkeit zu beeinträchtigen, indem er strukturelles Entkoppeln und globale Verteilungsausrichtung kombiniert.

Feng Ding, Wenhui Yi, Yunpeng Zhou, Xinan He, Hong Rao, Shu Hu2026-03-09💻 cs

LaxMotion: Rethinking Supervision Granularity for 3D Human Motion Generation

LaxMotion ist ein neuartiges Framework für die Erzeugung von 3D-Menschbewegungen, das durch den Verzicht auf präzise 3D-Pose-Überwachung zugunsten einer strukturierten Faktorisierung und globaler Konsistenz mit monokularen 2D-Kinematikdaten eine bessere Generalisierung und semantische Ausrichtung erreicht.

Sheng Liu, Yuanzhi Liang, Sidan Du2026-03-09💻 cs

The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

Diese Arbeit stellt mit dem Cultural Reference Transformation (CRT)-Metrik einen Evaluierungsrahmen vor, der die Unterscheidung zwischen der Erkennung kultureller Referenzen und ihrer visuellen Realisierung in Diffusionsmodellen ermöglicht, um so die Komplexität von Multimodalität und kulturellem Gedächtnis jenseits einfacher Reproduktion zu erfassen.

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-03-09🤖 cs.AI

Co-Layout: LLM-driven Co-optimization for Interior Layout

Die Arbeit stellt Co-Layout vor, ein neuartiges Framework, das Large Language Models mit gitterbasiertem ganzzahligem Programmieren kombiniert, um die Innenraumgestaltung und Möbelplatzierung durch eine effiziente grob-zu-fein-Optimierungsstrategie gemeinsam zu verbessern.

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

SPARK: Jailbreaking T2V Models by Synergistically Prompting Auditory and Recontextualized Knowledge

Die Studie stellt SPARK vor, einen Jailbreak-Angriffsrahmen, der Text-zu-Video-Modelle durch die synergistische Kombination neutraler Szenenanker, latenter auditiver Trigger und stilistischer Modulatoren in benignen Prompts manipuliert, um sicherheitsrelevante Richtlinien zu umgehen und semantisch unsichere Videos zu generieren.

Zonghao Ying, Moyang Chen, Nizhang Li, Zhiqiang Wang, Wenxin Zhang, Quanchen Zou, Zonglei Jing, Aishan Liu, Xianglong Liu2026-03-09💻 cs

MRIQT: Physics-Aware Diffusion Model for Image Quality Transfer in Neonatal Ultra-Low-Field MRI

Die Studie stellt MRIQT vor, ein physikbewusstes 3D-Diffusionsmodell, das die Bildqualität von tragbaren Ultra-Niederfeld-MRTs für Neugeborene durch realistische K-Raum-Degradation und SNR-gewichtete Verlustfunktionen signifikant verbessert und dabei die diagnostische Zuverlässigkeit auf das Niveau von Hochfeldgeräten anhebt.

Malek Al Abed, Sebiha Demir, Anne Groteklaes, Elodie Germani, Shahrooz Faghihroohi, Hemmen Sabir, Shadi Albarqouni2026-03-09💻 cs

FunnyNodules: A Customizable Medical Dataset Tailored for Evaluating Explainable AI

Das Paper stellt FunnyNodules vor, einen vollständig parametrisierbaren synthetischen Datensatz mit abstrakten, lungenknotenähnlichen Formen, der durch seine vollständigen Ground-Truth-Informationen über diagnostische Merkmale und deren Zusammenhänge eine systematische Evaluierung und Analyse von erklärbarer KI (xAI) im medizinischen Bereich ermöglicht.

Luisa Gallée, Yiheng Xiong, Meinrad Beer, Michael Götz2026-03-09💻 cs

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

Die Arbeit stellt FireScope vor, ein auf Vision-Language-Modellen basierendes Framework mit Chain-of-Thought-Orakel, das durch die Integration von Sentinel-2-Bildern, Klimadaten und Expertenwissen sowie durch das Lernen aus Verstärkungslernen und visueller Überwachung präzise und interpretierbare Waldbrandrisikokarten erstellt, die eine robuste Generalisierung über Kontinente hinweg ermöglichen.

Mario Markov (INSAIT, Sofia University "St. Kliment Ohridski"), Stefan Maria Ailuro (INSAIT, Sofia University "St. Kliment Ohridski"), Luc Van Gool (INSAIT, Sofia University "St. Kliment Ohridski"), Konrad Schindler (ETH Zurich), Danda Pani Paudel (INSAIT, Sofia University "St. Kliment Ohridski")2026-03-09🤖 cs.LG

Learning Latent Transmission and Glare Maps for Lens Veiling Glare Removal

Die Autoren stellen VeilGen und DeVeiler vor, ein System, das mittels eines generativen Modells und latenter Transmission- sowie Blendkarten realistische Linsenblendung simuliert und darauf aufbauend eine physikalisch fundierte Restaurierung für vereinfachte optische Systeme ermöglicht.

Xiaolong Qian, Qi Jiang, Lei Sun, Zongxi Yu, Kailun Yang, Peixuan Wu, Jiacheng Zhou, Yao Gao, Yaoguang Ma, Ming-Hsuan Yang, Kaiwei Wang2026-03-09🔬 physics.optics

UAM: A Unified Attention-Mamba Backbone of Multimodal Framework for Tumor Cell Classification

Die vorgestellte Arbeit führt einen Unified Attention-Mamba (UAM)-Backbone ein, der die Vorteile von Attention- und Mamba-Modulen flexibel vereint und in einem multimodalen Framework für die Klassifizierung von Tumorzellen sowie die Bildsegmentierung einen neuen State-of-the-Art auf öffentlichen Benchmarks erreicht.

Taixi Chen, Jingyun Chen, Nancy Guo2026-03-09💻 cs

EgoCogNav: Cognition-aware Human Egocentric Navigation

Das Paper stellt EgoCogNav, ein multimodales Framework zur Vorhersage von menschlicher Egocentric-Navigation durch die Integration kognitiver Unsicherheitsfaktoren, und führt dazu den neuen CEN-Datensatz mit realen Aufnahmen ein.

Zhiwen Qiu, Ziang Liu, Wenqian Niu, Tapomayukh Bhattacharjee, Saleh Kalantari2026-03-09🤖 cs.LG

SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis

Die Arbeit stellt SyncMV4D vor, ein bahnbrechendes Modell, das erstmals synchronisierte Multi-View-Videos und 4D-Bewegungen für Hand-Objekt-Interaktionen durch die gemeinsame Generierung visueller und dynamischer Daten in einem geschlossenen Regelkreis erzeugt, um so Realismus und geometrische Konsistenz zu verbessern.

Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu2026-03-09💻 cs

Reversible Inversion for Training-Free Exemplar-guided Image Editing

Die Arbeit stellt ReInversion vor, eine trainingsfreie Methode für exemplarbasierte Bildbearbeitung, die durch einen zweistufigen Reversiblen Inversionsprozess und eine maskengesteuerte selektive Denoisierung eine state-of-the-art Leistung bei minimalem Rechenaufwand erzielt.

Yuke Li, Lianli Gao, Ji Zhang, Pengpeng Zeng, Lichuan Xiang, Hongkai Wen, Heng Tao Shen, Jingkuan Song2026-03-09💻 cs

← Zurück Weiter →