cs.CV Arbeiten | Gist.Science

Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs

Diese Studie nutzt mechanische Interpretierbarkeit, um die inneren Informationsflüsse von VideoLLMs zu entschlüsseln, und zeigt auf, wie diese Modelle durch gezielte Aktivierung spezifischer Schichten und das Unterdrücken irrelevanter Aufmerksamkeitsverbindungen eine effektive zeitliche Schlussfolgerung für Video-Frage-Antwort-Aufgaben erreichen.

Minji Kim, Taekyung Kim, Bohyung Han2026-03-04💻 cs

Self-Aug: Query and Entropy Adaptive Decoding for Large Vision-Language Models

Diese Arbeit stellt eine trainingsfreie Decodierungsstrategie namens Self-Aug vor, die durch eine query-abhängige Selbst-Augmentierung und eine entropieadaptive Schwellenwertanpassung die Halluzinationen in Large Vision-Language Models signifikant reduziert und die faktische Konsistenz verbessert.

Eun Woo Im, Muhammad Kashif Ali, Vivek Gupta2026-03-04🤖 cs.AI

Inpainting the Red Planet: Diffusion Models for the Reconstruction of Martian Environments in Virtual Reality

Diese Arbeit stellt eine Methode zur Rekonstruktion von Mars-Oberflächen in Virtual Reality vor, die einen bedingungslosen Diffusionsmodell auf HiRISE-Höhenkarten trainiert und dabei traditionelle Interpolationsverfahren in Bezug auf Genauigkeit und wahrgenommene Ähnlichkeit deutlich übertrifft.

Giuseppe Lorenzo Catalano, Agata Marta Soccini2026-03-04🤖 cs.AI

CASR-Net: An Image Processing-focused Deep Learning-based Coronary Artery Segmentation and Refinement Network for X-ray Coronary Angiogram

Die Studie stellt CASR-Net vor, ein dreistufiges Deep-Learning-Verfahren zur präzisen Segmentierung und Verfeinerung von Koronararterien in Röntgenangiogrammen, das durch eine innovative Vorverarbeitung und ein auf Self-ONN basierendes Decoder-Design den aktuellen Stand der Technik übertrifft und damit die klinische Diagnose von koronarer Herzkrankheit unterstützt.

Alvee Hassan, Rusab Sarmun, Muhammad E. H. Chowdhury + 4 more2026-03-04🤖 cs.AI

Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects

Das Paper stellt Kinematify vor, ein automatisiertes Framework, das aus beliebigen RGB-Bildern oder Textbeschreibungen hochgradig bewegliche, artikulierte Objekte synthetisiert, indem es MCTS-Suche zur Inferenz kinematischer Topologien mit einer geometriegetriebenen Optimierung zur Bestimmung von Gelenkparametern kombiniert.

Jiawei Wang, Dingyou Wang, Jiaming Hu + 3 more2026-03-04💻 cs

Online Data Curation for Object Detection via Marginal Contributions to Dataset-level Average Precision

Die Arbeit stellt DetGain vor, eine Online-Datenkuratierungsmethode für die Objekterkennung, die durch die Schätzung des marginalen Beitrags einzelner Bilder zum durchschnittlichen Präzisionswert (AP) des Datensatzes informative Trainingsbeispiele dynamisch auswählt und so die Genauigkeit verschiedener Detektoren auf dem COCO-Datensatz verbessert.

Zitang Sun, Masakazu Yoshimura, Junji Otsuka + 2 more2026-03-04💻 cs

PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation

Die Arbeit stellt PrismAudio vor, ein bahnbrechendes Framework für die Video-zu-Audio-Generierung, das durch spezialisierte Chain-of-Thought-Module und Multi-dimensional-Rewards das Problem der Zielkonflikte löst, während die effiziente Fast-GRPO-Optimierung und der neue AudioCanvas-Benchmark state-of-the-art-Ergebnisse in allen vier perceptuellen Dimensionen garantieren.

Huadai Liu, Kaicheng Luo, Wen Wang + 6 more2026-03-04⚡ eess

Markovian Scale Prediction: A New Era of Visual Autoregressive Generation

Die Arbeit stellt Markov-VAR vor, ein effizientes visuelles autoregressives Generierungsmodell, das durch Markovsche Skalenvorhersage und einen gleitenden Fenstermechanismus den Rechenaufwand und Speicherbedarf drastisch senkt, während die Bildqualität im Vergleich zum ursprünglichen VAR-Modell verbessert wird.

Yu Zhang, Jingyi Liu, Yiwei Shi + 4 more2026-03-04💻 cs

ALARM: Automated MLLM-Based Anomaly Detection in Complex-EnviRonment Monitoring with Uncertainty Quantification

Die Arbeit stellt ALARM vor, ein Framework zur visuellen Anomalieerkennung in komplexen Umgebungen, das Large Multimodal Models (MLLMs) mit Unsicherheitsquantifizierung und Qualitätssicherungstechniken kombiniert, um robuste und zuverlässige Entscheidungen über verschiedene Domänen hinweg zu treffen.

Congjing Zhang, Feng Lin, Xinyi Zhao + 5 more2026-03-04🤖 cs.AI

Self-Paced and Self-Corrective Masked Prediction for Movie Trailer Generation

Die Arbeit stellt SSMP vor, eine selbstgesteuerte und selbstkorrigierende Methode zur maschinellen Vorhersage von Filmtrailer-Szenen, die durch bidirektionale Kontextmodellierung und einen progressiven Maskierungsansatz die herkömmliche „Auswahl-dann-Ranking"-Paradigme überwindet und neue State-of-the-Art-Ergebnisse erzielt.

Sidan Zhu, Hongteng Xu, Dixin Luo2026-03-04💻 cs

Value Gradient Guidance for Flow Matching Alignment

Die Arbeit stellt VGG-Flow vor, eine Methode zur effizienten und prioritätserhaltenden Feinabstimmung von Flow-Matching-Modellen durch die Nutzung der Optimalsteuerungstheorie, um die Geschwindigkeitsfeld-Differenz mit dem Gradienten einer Wertfunktion abzugleichen.

Zhen Liu, Tim Z. Xiao, Carles Domingo-Enrich + 2 more2026-03-04🤖 cs.LG

Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner

Die Arbeit stellt AVI-Edit vor, ein Framework für die Audio-Synchronisation bei Video-Instanzbearbeitungen, das durch einen Granularitäts-bewussten Masken-Verfeinerer, einen Audio-Self-Feedback-Agenten und ein neues groß angelegtes Datenset präzise räumlich-zeitliche Bearbeitungen ermöglicht.

Haojie Zheng, Shuchen Weng, Jingqi Liu + 3 more2026-03-04💻 cs

CHAMMI-75: Pre-training multi-channel models with heterogeneous microscopy images

Die Studie stellt CHAMMI-75 vor, einen offenen Datensatz heterogener, multikanaliger Mikroskopiebilder aus 75 Studien, der entwickelt wurde, um channel-adaptive KI-Modelle für die Zellmorphologie zu trainieren und deren Übertragbarkeit über verschiedene biologische Untersuchungen hinweg zu verbessern.

Vidit Agrawal, John Peters, Tyler N. Thompson + 13 more2026-03-04🤖 cs.LG

UniDrive-WM: Unified Understanding, Planning and Generation World Model For Autonomous Driving

Das Paper stellt UniDrive-WM vor, ein einheitliches Weltmodell auf Basis von Vision-Language-Modellen, das das Verständnis von Fahrszenen, die Trajektorienplanung und die generative Vorhersage zukünftiger Bilder in einer einzigen Architektur vereint und damit die Planungsleistung sowie die Kollisionsrate im Bench2Drive-Benchmark signifikant verbessert.

Zhexiao Xiong, Xin Ye, Burhan Yaman + 5 more2026-03-04💻 cs

Hot-Start from Pixels: Low-Resolution Visual Tokens for Chinese Language Modeling

Diese Studie zeigt, dass die Verwendung von niedrig aufgelösten visuellen Eingabebildern chinesischer Zeichen anstelle herkömmlicher Token-IDs eine ebenso genaue und besonders schnell lernende Alternative für die chinesische Sprachmodellierung darstellt.

Shuyang Xiang, Hao Guan2026-03-04🤖 cs.AI

Unsupervised Deformable Image Registration with Local-Global Attention and Image Decomposition

Die Studie stellt LGANet++, ein neues unüberwachtes Framework für die deformierbare Bildregistrierung vor, das durch einen lokalen-globalen Aufmerksamkeitsmechanismus und eine Bildzerlegung die Genauigkeit und Robustheit bei verschiedenen medizinischen Registrierungsaufgaben signifikant verbessert.

Zhengyong Huang, Xingwen Sun, Xuting Chang + 5 more2026-03-04⚡ eess

Graph Recognition via Subgraph Prediction

Das Paper stellt GraSP vor, eine einheitliche und übertragbare Methode zur Erkennung von Graphen in Bildern durch die Vorhersage von Teilgraphen, die das Problem der mangelnden Kanonizität und Übertragbarkeit bestehender Lösungen adressiert.

André Eberhard, Gerhard Neumann, Pascal Friederich2026-03-04🤖 cs.LG

MLV-Edit: Towards Consistent and Highly Efficient Editing for Minute-Level Videos

Das Paper stellt MLV-Edit vor, ein training-freies, auf Flussfeldern basierendes Framework, das durch eine Segment-zu-Segment-Strategie mit den Modulen Velocity Blend und Attention Sink konsistente und recheneffiziente Bearbeitungen von Minuten langen Videos ermöglicht.

Yangyi Cao, Yuanhang Li, Lan Chen + 1 more2026-03-04💻 cs

VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

Das Paper stellt VideoTemp-o3 vor, ein einheitliches Framework für agentices Denken mit Videos, das durch eine gemeinsame Modellierung von zeitlicher Verankerung und Beantwortung von Fragen sowie durch optimierte Feinabstimmungs- und Verstärkungslernmechanismen die Effizienz und Genauigkeit beim Verständnis langer Videos erheblich verbessert.

Wenqi Liu, Yunxiao Wang, Shijie Ma + 14 more2026-03-04🤖 cs.AI

WristMIR: Coarse-to-Fine Region-Aware Retrieval of Pediatric Wrist Radiographs with Radiology Report-Driven Learning

Das Paper stellt WristMIR vor, ein regionenbewusstes Framework zur grob-zu-feinen Suche nach pädiatrischen Handgelenks-Röntgenbildern, das durch die Nutzung strukturierter Radiologieberichte und knochenspezifischer Lokalisierung feingranulare, klinisch relevante Repräsentationen lernt und damit sowohl die Bildwiedergewinnung als auch die Frakturdiagnose signifikant verbessert.

Mert Sonmezer, Serge Vasylechko, Duygu Atasoy + 2 more2026-03-04💻 cs

← Zurück Weiter →