cs.CV Arbeiten | Gist.Science

Latent 3D Brain MRI Counterfactual

Die vorgestellte Arbeit schlägt eine zweistufige Methode vor, die ein strukturelles kausales Modell im latenten Raum eines VQ-VAE nutzt, um hochwertige und diverse 3D-Gehirn-MRT-Kontrafaktika zu generieren und so die Herausforderungen kleiner Datensätze und der begrenzten Diversität herkömmlicher generativer Modelle zu überwinden.

Wei Peng, Tian Xia, Fabio De Sousa Ribeiro + 5 more2026-03-03🤖 cs.AI

MV-Adapter: Enhancing Underwater Instance Segmentation via Adaptive Channel Attention

Die Studie stellt den MV-Adapter vor, eine adaptive Kanal-Aufmerksamkeitskomponente, die die Leistung des USIS-SAM-Modells bei der Instanzsegmentierung unter Wasser durch dynamische Anpassung der Merkmalsgewichtung an spezifische Unterwasserbedingungen wie Lichtabschwächung und Farbverzerrung signifikant verbessert.

Lianjun Liu2026-03-03💻 cs

XPoint: A Self-Supervised Visual-State-Space based Architecture for Multispectral Image Registration

Die Arbeit stellt XPoint vor, ein selbstüberwachtes, modulares Framework auf Basis von VMamba, das durch anpassbare Komponenten und geometrische Constraints eine robuste und schnelle Registrierung von Multispektralbildern über verschiedene Modalitäten hinweg ermöglicht.

Ismail Can Yagmur, Hasan F. Ates, Bahadir K. Gunturk2026-03-03💻 cs

EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation

EchoMimicV2 ist eine vereinfachte Methode zur realistischen Halb-Körper-Animation, die durch Audio-Pose-Dynamik, Head Partial Attention und phasenspezifische Verlustfunktionen überflüssige Bedingungen eliminiert und gleichzeitig die Ausdruckskraft von Gesicht und Gestik verbessert.

Rang Meng, Xingyu Zhang, Yuming Li + 1 more2026-03-03💻 cs

MFP3D: Monocular Food Portion Estimation Leveraging 3D Point Clouds

Die Arbeit stellt MFP3D vor, ein Framework zur präzisen Schätzung von Lebensmittelportionen aus einzelnen monokularen Bildern, das durch die Generierung von 3D-Punktwolken und die Kombination von 3D- und 2D-Merkmale die Genauigkeit im Vergleich zu bestehenden Methoden deutlich verbessert.

Jinge Ma, Xiaoyan Zhang, Gautham Vinod + 3 more2026-03-03⚡ eess

Grounding-IQA: Grounding Multimodal Language Model for Image Quality Assessment

Die Arbeit stellt Grounding-IQA vor, ein neues Paradigma für die Bildqualitätsbewertung, das multimodale Sprachmodelle mit Verankerungsfähigkeiten kombiniert, um durch den neu erstellten Datensatz GIQA-160K und das Benchmark GIQA-Bench feinere, lokal verankerte Qualitätsanalysen zu ermöglichen.

Zheng Chen, Xun Zhang, Wenbo Li + 7 more2026-03-03💻 cs

DAWN-FM: Data-Aware and Noise-Informed Flow Matching for Solving Inverse Problems

Die Arbeit stellt DAWN-FM vor, eine datenbewusste und rauschinformierte Flow-Matching-Methode, die durch die explizite Einbettung von Messdaten und Rauschinformationen robuste Lösungen für inverse Probleme wie Bildentwischung und Tomographie liefert und gleichzeitig eine Unsicherheitsquantifizierung ermöglicht.

Shadab Ahamed, Eldad Haber2026-03-03⚡ eess

FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization

Die Arbeit stellt FiLo++ vor, eine Methode zur Zero-/Few-Shot-Anomalieerkennung, die durch die Kombination von fusionierten, feingranularen Beschreibungen mittels großer Sprachmodelle und einer deformierbaren Lokalisierung mit Grounding DINO präzise Anomalien in verschiedenen Formen und Größen ohne vorab gelabelte Zielklassendaten erkennt.

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 3 more2026-03-03💻 cs

Polynomial, trigonometric, and tropical activations

Diese Arbeit stellt neue Aktivierungsfunktionen auf Basis orthogonaler Polynome, trigonometrischer Funktionen und tropischer Algebra vor, die durch varianzausgleichende Initialisierung das Training tiefer Modelle wie GPT-2 und ConvNeXt ohne Gradientenprobleme ermöglichen und sich zudem durch Hermite-Interpolation nahtlos zur Feinabstimmung an klassische Aktivierungen anpassen lassen.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

Deep generative computed perfusion-deficit mapping of ischaemic stroke

Die Studie zeigt, dass ein auf tiefgenerativer Inferenz basierender Ansatz, der nur auf akuten CT-Angiographie-Daten beruht, die neuronalen Substrate von Schlaganfall-Symptomen präzise lokalisieren und dabei über die reine Läsionsanalyse hinausgehende Einblicke in die Durchblutungsstörungen liefern kann.

Chayanin Tangwiriyasakul, Pedro Borges, Guilherme Pombo + 8 more2026-03-03🧬 q-bio

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

Die Studie zeigt, dass CLIP Attribute und Objekte zwar unimodal korrekt kodiert, diese Bindungsinformationen jedoch erst durch eine einfache lineare Transformation der Text-Embeddings für die cross-modale Ausrichtung nutzbar gemacht werden können, was eine effiziente Verbesserung der Modellleistung ohne Neutrainieren der Encoder ermöglicht.

Darina Koishigarina, Arnas Uselis, Seong Joon Oh2026-03-03🤖 cs.LG

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

Das Paper stellt WorldSense vor, den ersten Benchmark zur Bewertung des omnimodalen Videoverständnisses von Multimodal-LLMs, der durch die starke Kopplung von Audio und Video, eine große Vielfalt an Szenarien und hochwertige manuelle Annotationen bestehende Modelle vor erhebliche Herausforderungen stellt und neue Erkenntnisse für die Entwicklung realwelttauglicher KI-Systeme liefert.

Jack Hong, Shilin Yan, Jiayin Cai + 3 more2026-03-03🤖 cs.AI

Precise Parameter Localization for Textual Generation in Diffusion Models

Die Studie zeigt, dass weniger als 1 % der Parameter in Diffusionsmodellen – spezifisch in den Aufmerksamkeits-Schichten – für die Textgenerierung verantwortlich sind, und nutzt diese Erkenntnis für effizienteres Fine-Tuning, Textbearbeitung und die kostengünstige Verhinderung toxischer Inhalte.

Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch + 2 more2026-03-03💻 cs

Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection

Die Autoren stellen einen robusten Anpassungsrahmen für große multimodale Modelle vor, der durch Retrieval-Augmentation die Genauigkeit, Generalisierungsfähigkeit und Erklärbarkeit bei der Erkennung von Hass-Memes verbessert und dabei die Leistungsfähigkeit bestehender Methoden übertrifft.

Jingbiao Mei, Jinghong Chen, Guangyu Yang + 2 more2026-03-03💬 cs.CL

Thicker and Quicker: A Jumbo Token for Fast Plain Vision Transformers

Die Arbeit stellt „Jumbo" vor, einen effizienten Plain Vision Transformer, der durch die Einführung eines einzigen, breiten globalen Tokens die Geschwindigkeit erhöht und gleichzeitig die Genauigkeit sowie die Kompatibilität mit bestehenden ViT-Methoden verbessert.

Anthony Fuller, Yousef Yassin, Daniel G. Kyrollos + 2 more2026-03-03💻 cs

MemeIntel: Explainable Detection of Propagandistic and Hateful Memes

Die Arbeit stellt mit MemeXplain den ersten groß angelegten Datensatz für erklärbare Erkennung von Propaganda und Hassmemes vor und schlägt einen mehrstufigen Optimierungsansatz für Vision-Language-Modelle vor, der sowohl die Klassifizierungsgenauigkeit als auch die Qualität der Erklärungen im Vergleich zum State-of-the-Art signifikant verbessert.

Mohamed Bayan Kmainasi, Abul Hasnat, Md Arid Hasan + 2 more2026-03-03💬 cs.CL

Openfly: A comprehensive platform for aerial vision-language navigation

Das Paper stellt OpenFly vor, eine umfassende Plattform mit einem automatisierten Toolchain, einer großen Datensatzbasis und einem spezialisierten Agenten, um die bisher vernachlässigte Forschung zur visuell-sprachlichen Navigation im Außenbereich aus der Luft zu ermöglichen.

Yunpeng Gao, Chenhui Li, Zhongrui You + 20 more2026-03-03💻 cs

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

Das Paper stellt LLaVE vor, ein skalierbares multimodales Embedding-Modell, das durch einen Hardness-Weighted Contrastive Learning-Ansatz die Unterscheidung schwieriger Negativpaare verbessert und damit auf dem MMEB-Benchmark neue State-of-the-Art-Ergebnisse erzielt, die sogar größere Modelle übertreffen.

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Das Paper stellt Vision-R1 vor, ein multimodales Sprachmodell, das durch die Kombination eines selbstgenerierten Cold-Start-Datensatzes und einer fortschrittlichen Reinforcement-Learning-Strategie (PTST mit GRPO) überlegene multimodale Schlussfolgerungsfähigkeiten erreicht und auf dem MathVista-Benchmark mit OpenAI O1 konkurrieren kann.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

Die Arbeit stellt SemHiTok vor, einen einheitlichen Bild-Tokenisierer, der durch einen semantisch geführten hierarchischen Codebook-Ansatz die Herausforderung eines optimalen Kompromisses zwischen multimodalem Verständnis und Bildgenerierung löst, indem er semantische und pixelbasierte Merkmale strukturell entkoppelt.

Zisheng Chen, Chunwei Wang, Runhui Huang + 6 more2026-03-03🤖 cs.AI

← Zurück Weiter →