cs.CV Arbeiten | Gist.Science

Progressive Checkerboards for Autoregressive Multiscale Image Generation

Diese Arbeit stellt eine flexible, auf progressiven Schachbrettmustern basierende Anordnung für die multiskalige autoregressive Bildgenerierung vor, die eine parallele Abtastung ausgewogener Regionen ermöglicht und auf ImageNet mit weniger Sampling-Schritten wettbewerbsfähige Ergebnisse erzielt.

David Eigen2026-02-26💻 cs

V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval

Die Arbeit stellt V-Retrver vor, ein evidenzbasiertes Framework für universelle multimodale Retrieval-Aufgaben, das Large Language Models durch einen agenten Reasoning-Prozess mit gezielten visuellen Werkzeugen befähigt, Hypothesen aktiv zu verifizieren und so die Genauigkeit und Zuverlässigkeit gegenüber rein sprachgetriebenen Ansätzen signifikant zu steigern.

Dongyang Chen, Chaoyang Wang, Dezhao Su + 6 more2026-02-26💻 cs

Beyond Calibration: Confounding Pathology Limits Foundation Model Specificity in Abdominal Trauma CT

Die Studie zeigt, dass die geringere Spezifität von Foundation-Modellen bei der Detektion von Darmverletzungen im Bauchraum nicht allein auf die seltene Prävalenz zurückzuführen ist, sondern maßgeblich durch die Heterogenität der negativen Klasse bedingt wird, insbesondere wenn gleichzeitig solide Organverletzungen vorliegen, was eine Anpassung vor dem klinischen Einsatz erfordert.

Jineel H Raythatha, Shuchang Ye, Jeremy Hsu + 1 more2026-02-26⚡ eess

Extracting and Analyzing Rail Crossing Behavior Signatures from Videos using Tensor Methods

Diese Arbeit stellt ein Tensor-Zerlegungsframework vor, das mithilfe von TimeSformer-Embeddings und nicht-negativer symmetrischer CP-Zerlegung verdeckte Verhaltensmuster an Eisenbahnkreuzungen über verschiedene Phasen hinweg analysiert und dabei zeigt, dass der Standort ein stärkerer Determinant für das Fahrerverhalten ist als die Tageszeit.

Dawon Ahn, Het Patel, Aemal Khattak + 2 more2026-02-26🤖 cs.LG

MALLVI: A Multi-Agent Framework for Integrated Generalized Robotics Manipulation

MALLVI ist ein Multi-Agenten-Framework, das große Sprach- und Bildmodelle in einem geschlossenen Regelkreis koordiniert, um robuste und generalisierende robotische Manipulationsaufgaben durch spezialisierte Agenten für Wahrnehmung, Planung und Fehlerkorrektur zu lösen.

Iman Ahmadi, Mehrshad Taji, Arad Mahdinezhad Kashani + 3 more2026-02-26🤖 cs.AI

Tracing Copied Pixels and Regularizing Patch Affinity in Copy Detection

Die vorgestellte Arbeit verbessert die Bildkopieerkennung durch die Einführung von PixTrace zur Nachverfolgung von Pixelkoordinaten und CopyNCE als geometrisch geleiteten Verlust, die gemeinsam eine feinere Patch-Ähnlichkeit ermöglichen und so den aktuellen Stand der Technik auf dem DISC21-Datensatz übertreffen.

Yichen Lu, Siwei Nie, Minlong Lu + 3 more2026-02-26🤖 cs.AI

Dual-Channel Attention Guidance for Training-Free Image Editing Control in Diffusion Transformers

Die Arbeit stellt DCAG vor, ein trainierfreies Framework, das durch die gleichzeitige Manipulation von Key- und Value-Kanälen in Diffusion Transformern eine präzisere Steuerung der Bearbeitungsfidelität ermöglicht als bisherige Methoden, die sich nur auf den Key-Kanal beschränken.

Guandong Li2026-02-26🤖 cs.AI

Hyperbolic Busemann Neural Networks

Die Arbeit stellt Hyperbolische Busemann-Neuronale Netze vor, die Multinomial-Logistische Regression und vollvernetzte Schichten mittels Busemann-Funktionen in den hyperbolischen Raum heben, um effizientere und effektivere Modelle für hierarchische Daten zu ermöglichen.

Ziheng Chen, Bernhard Schölkopf, Nicu Sebe2026-02-26🤖 cs.AI

GS-CLIP: Zero-shot 3D Anomaly Detection by Geometry-Aware Prompt and Synergistic View Representation Learning

Das Paper stellt GS-CLIP vor, ein Framework für die Zero-shot 3D-Anomalieerkennung, das durch geometrieaware Prompts und ein synergistisches Lernverfahren zur Verarbeitung von gerenderten und Tiefenbildern die Einschränkungen bestehender CLIP-basierter Methoden überwindet und so eine überlegene Detektionsleistung auf vier großen Datensätzen erzielt.

Zehao Deng, An Liu, Yan Wang2026-02-26💻 cs

TherA: Thermal-Aware Visual-Language Prompting for Controllable RGB-to-Thermal Infrared Translation

Die Arbeit stellt TherA vor, ein steuerbares Framework zur RGB-zu-Thermal-Übersetzung, das mithilfe eines thermal-bewussten VLM und eines latenten Diffusionsmodells physikalisch plausible und diverse Wärmeverteilungen erzeugt, um die Datenknappheit für TIR-Wahrnehmung zu überwinden.

Dong-Guw Lee, Tai Hyoung Rhee, Hyunsoo Jang + 3 more2026-02-26💻 cs

Exploiting Label-Independent Regularization from Spatial Dependencies for Whole Slide Image Analysis

Die vorgestellte Arbeit schlägt einen räumlich regularisierten MIL-Rahmen vor, der intrinsische räumliche Abhängigkeiten zwischen Patch-Features als label-unabhängige Regularisierung nutzt, um das Problem der spärlichen Annotationen bei der Analyse ganzer Gewebeschnitte zu überwinden und so die Diagnosegenauigkeit signifikant zu verbessern.

Weiyi Wu, Xinwen Xu, Chongyang Gao + 3 more2026-02-26💻 cs

RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space

RAYNOVA ist ein geometrieunabhängiges, multiview-Weltmodell für Fahrszenen, das durch einen dual-kausalen autoregressiven Ansatz in der Ray-Raum-Darstellung und ein rekurrentes Trainingsparadigma hochqualitative, kontrollierbare 4D-Video-Vorhersagen ohne explizite 3D-Geometrie ermöglicht.

Yichen Xie, Chensheng Peng, Mazen Abdelfattah + 6 more2026-02-26💻 cs

Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

Die Arbeit stellt MMHNet vor, ein hierarchisches multimodales Netzwerk, das auf nicht-kausalen Mamba-Modellen basiert und es Video-zu-Audio-Generierungsmodellen ermöglicht, durch Training nur auf kurzen Sequenzen erfolgreich Audio für Videos von über fünf Minuten Länge zu erzeugen.

Christian Simon, Masato Ishii, Wei-Yao Wang + 8 more2026-02-26🤖 cs.AI

Uncertainty-Aware Diffusion Model for Multimodal Highway Trajectory Prediction via DDIM Sampling

Die Arbeit stellt cVMDx vor, einen effizienteren und robusteren Diffusions-basierten Ansatz für die multimodale Vorhersage von Fahrzeugbahnen auf Autobahnen, der durch DDIM-Sampling die Inferenzzeit drastisch reduziert und eine zuverlässige Unsicherheitsquantifizierung ermöglicht.

Marion Neumeier, Niklas Roßberg, Michael Botsch + 1 more2026-02-26🤖 cs.LG

Scaling View Synthesis Transformers

Die Studie zeigt, dass die neu entwickelte Encoder-Decoder-Architektur SVSM durch systematische Skalierungsgesetze die bisherigen State-of-the-Art-Ergebnisse bei der Novel View Synthesis mit deutlich geringerem Rechenaufwand übertrifft und damit die Effizienzgrenzen von Decoder-only-Modellen neu definiert.

Evan Kim, Hyunwoo Ryu, Thomas W. Mitchel + 1 more2026-02-26🤖 cs.AI

RelA-Diffusion: Relativistic Adversarial Diffusion for Multi-Tracer PET Synthesis from Multi-Sequence MRI

Die Studie stellt RelA-Diffusion vor, einen relativistischen adversären Diffusionsansatz, der T1- und T2-FLAIR-MRT-Aufnahmen nutzt, um mittels eines gradientenbestraften Verlusts realistische Mehr-Tracer-PET-Bilder für die neurologische Diagnostik zu synthetisieren und dabei bestehende Methoden in Bildqualität und Genauigkeit übertrifft.

Minhui Yu, Yongheng Sun, David S. Lalush + 3 more2026-02-26⚡ eess

Towards Controllable Video Synthesis of Routine and Rare OR Events

Diese Arbeit stellt einen OR-Videodiffusionsrahmen vor, der durch die Umwandlung von Operationssaalszenen in abstrakte geometrische Darstellungen die kontrollierte Synthese von routinemäßigen und seltenen Ereignissen ermöglicht, um so die Entwicklung von KI-Modellen zur Erkennung sicherheitskritischer Vorfälle zu unterstützen.

Dominik Schneider, Lalithkumar Seenivasan, Sampath Rapuri + 8 more2026-02-26⚡ eess

MMLoP: Multi-Modal Low-Rank Prompting for Efficient Vision-Language Adaptation

Die Arbeit stellt MMLoP vor, einen effizienten Multi-Modal-Prompting-Ansatz, der durch Low-Rank-Faktorisierung und spezielle Regularisierungstechniken eine tiefgehende Anpassung von Vision-Language-Modellen mit nur 11.5K trainierbaren Parametern ermöglicht und dabei die Genauigkeit bestehender, deutlich größerer Methoden übertrifft.

Sajjad Ghiasvand, Haniyeh Ehsani Oskouie, Mahnoosh Alizadeh + 1 more2026-02-26🤖 cs.LG

Exploring Vision-Language Models for Open-Vocabulary Zero-Shot Action Segmentation

Diese Arbeit stellt eine trainingsfreie Pipeline für das Open-Vocabulary Zero-Shot Temporal Action Segmentation vor, die Vision-Language-Modelle nutzt, um Videosegmente ohne spezifische Aufsicht basierend auf Ähnlichkeitsmetriken zu klassifizieren und zeitlich konsistent zu gliedern.

Asim Unmesh, Kaki Ramesh, Mayank Patel + 2 more2026-02-26💻 cs

WildSVG: Towards Reliable SVG Generation Under Real-Word Conditions

Die Arbeit stellt die WildSVG-Benchmark mit natürlichen und synthetischen Datensätzen vor, um die Lücke bei der zuverlässigen Extraktion von SVGs aus realen Bildern zu schließen, und zeigt, dass aktuelle Multimodal-Modelle in diesem Szenario noch erhebliche Schwächen aufweisen, wobei iterative Verfeinerungsmethoden jedoch vielversprechende Lösungsansätze bieten.

Marco Terral, Haotian Zhang, Tianyang Zhang + 8 more2026-02-26💻 cs

← Zurück Weiter →