cs.CV Arbeiten | Gist.Science

MIRROR: Multimodal Iterative Reasoning via Reflection on Visual Regions

Die Arbeit stellt MIRROR vor, ein Framework für multimodales iteratives Schlussfolgern, das durch einen geschlossenen Regelkreis aus Entwurf, Kritik und visuell fundierter Überprüfung sowie ein entsprechendes Trainingsdatenset (ReflectV) die Genauigkeit von Vision-Language-Modellen verbessert und Halluzinationen reduziert.

Haoyu Zhang, Yuwei Wu, Pengxiang Li + 6 more2026-02-25💻 cs

Keep it SymPL: Symbolic Projective Layout for Allocentric Spatial Reasoning in Vision-Language Models

Die Studie stellt SymPL vor, ein Framework, das allocentrisches räumliches Reasoning in Vision-Language-Modellen durch die Umformulierung in symbolische Layouts verbessert und dabei Projektion, Abstraktion, Bipartition und Lokalisierung nutzt, um die Leistung sowohl bei allocentrischen als auch egozentrischen Aufgaben signifikant zu steigern.

Jaeyun Jang, Seunghui Shin, Taeho Park + 1 more2026-02-25💻 cs

TraceVision: Trajectory-Aware Vision-Language Model for Human-Like Spatial Understanding

Das Paper stellt TraceVision vor, ein vision-sprachliches Modell, das durch die Integration von Trajektorieninformationen und einen mehrstufigen Trainingsprozess menschliche visuelle Aufmerksamkeit simuliert, um räumliches Verständnis, Bildbeschreibungen und Segmentierung präziser und interpretierbarer zu gestalten.

Fan Yang, Shurong Zheng, Hongyin Zhao + 5 more2026-02-25💻 cs

Brewing Stronger Features: Dual-Teacher Distillation for Multispectral Earth Observation

Die Arbeit stellt einen Dual-Teacher-Distillationsrahmen vor, der durch die Kombination eines multispektralen Lehrers mit einem optischen Vision-Modell-Lehrer die semantische Struktur in multispektralen Erdbeobachtungsdaten verbessert und dabei sowohl bei optischen als auch multispektralen Aufgaben state-of-the-art Ergebnisse erzielt.

Filip Wolf, Blaž Rolih, Luka Čehovin Zajc2026-02-25💻 cs

A Very Big Video Reasoning Suite

Die Arbeit stellt das Very Big Video Reasoning (VBVR)-Suite vor, eine umfassende Ressource mit über einer Million Videoclips und einem verifizierbaren Bewertungsrahmen, die die erste groß angelegte Skalierungsstudie für Video-Reasoning ermöglicht und frühe Anzeichen emergenter Generalisierung zeigt.

Maijunxian Wang, Ruisi Wang, Juyi Lin + 53 more2026-02-25🤖 cs.AI

Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

Mobile-O ist ein kompakter, einheitlicher multimodaler Vision-Language-Diffusions-Modell, das durch seinen effizienten Mobile Conditioning Projector (MCP) und eine neuartige Quadruplet-Post-Training-Methode erstmals eine leistungsstarke Echtzeit-Verständnis- und Generierungsfähigkeit auf mobilen Endgeräten ohne Cloud-Abhängigkeit ermöglicht.

Abdelrahman Shaker, Ahmed Heakl, Jaseel Muhammad + 8 more2026-02-25💻 cs

VISION-ICE: Video-based Interpretation and Spatial Identification of Arrhythmia Origins via Neural Networks in Intracardiac Echocardiography

Die Studie stellt das KI-System VISION-ICE vor, das mittels eines 3D-Convolutional-Neural-Networks intrakardiale Echokardiographie-Videos analysiert, um den Ursprung von Arrhythmien mit einer Genauigkeit von 66,2 % zu lokalisieren und so elektrophysiologische Eingriffe zu beschleunigen.

Dorsa EPMoghaddam, Feng Gao, Drew Bernard + 3 more2026-02-25🤖 cs.LG

Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation

Die Arbeit stellt OptimusVLA vor, ein dual-memorisches Vision-Language-Action-Modell, das durch die Kombination globaler Prior-Wissen und lokaler Konsistenz die Robustheit und Inferenzgeschwindigkeit robotischer Manipulationsaufgaben signifikant verbessert.

Zaijing Li, Bing Hu, Rui Shao + 5 more2026-02-25🤖 cs.AI

UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

Das Papier stellt UniLACT vor, ein transformer-basiertes Vision-Language-Action-Modell, das durch die Einführung des UniLARN-Rahmens für das tiefenbewusste Lernen einheitlicher latenter Aktionen aus RGB- und Tiefendaten die räumlichen Fähigkeiten von Robotern für präzise Manipulationsaufgaben verbessert.

Manish Kumar Govind, Dominick Reilly, Pu Wang + 1 more2026-02-25💻 cs

De-rendering, Reasoning, and Repairing Charts with Vision-Language Models

Diese Arbeit stellt ein Framework vor, das mithilfe von Vision-Language-Modellen Diagramme aus Bildern rekonstruiert, designbezogene Fehler identifiziert und iterative, prinzipienbasierte Verbesserungsvorschläge für die Visualisierung erstellt.

Valentin Bonas, Martin Sinnona, Viviana Siless + 1 more2026-02-25💻 cs

N4MC: Neural 4D Mesh Compression

N4MC ist ein neuartiges neuronales Framework zur effizienten Kompression von zeitlich variierenden Mesh-Sequenzen, das durch die Umwandlung in regelmäßige 4D-Tensoren, den Einsatz eines Auto-Decoders und ein transformer-basiertes Interpolationsmodell zeitliche Redundanzen ausnutzt und dabei den aktuellen Stand der Technik in Bezug auf die Rate-Distortion-Leistung übertrifft.

Guodong Chen, Huanshuo Dong, Mallesham Dasari2026-02-25💻 cs

Inspectorch: Efficient rare event exploration in solar observations

Das Paper stellt Inspectorch vor, ein Open-Source-Framework, das auf Flow-basierten Modellen zur Dichteschätzung beruht, um in großen solaren Beobachtungsdatensätzen effizient seltene und physikalisch bedeutsame Ereignisse zu identifizieren und so die Rechenressourcen gezielt auf diese Anomalien zu lenken.

C. J. Díaz Baso, I. J. Soler Poquet, C. Kuckein + 2 more2026-02-25🔭 astro-ph

GSNR: Graph Smooth Null-Space Representation for Inverse Problems

Die vorgestellte Arbeit führt die Graph-Smooth Null-Space Representation (GSNR) ein, eine Methode, die durch die Beschränkung von Graph-Regularisierungen auf den Nullraum des Messoperators die Rekonstruktionsqualität bei inversen Bildproblemen signifikant verbessert.

Romario Gualdrón-Hurtado, Roman Jacome, Rafael S. Suarez + 1 more2026-02-25⚡ eess

Circuit Tracing in Vision-Language Models: Understanding the Internal Mechanisms of Multimodal Thinking

Diese Arbeit stellt erstmals ein Framework für die transparente Schaltkreisverfolgung in Vision-Language-Modellen vor, das mithilfe von Transkodern und Attributionsgraphen die kausalen Mechanismen der multimodalen Reasoning-Prozesse aufdeckt und deren Steuerbarkeit nachweist.

Jingcheng Yang, Tianhu Xiong, Shengyi Qian + 2 more2026-02-25🤖 cs.AI

Large-scale Photorealistic Outdoor 3D Scene Reconstruction from UAV Imagery Using Gaussian Splatting Techniques

Diese Studie stellt eine effiziente End-to-End-Pipeline vor, die UAV-Videoströme durch die Integration von 3D-Gaussian-Splatting-Techniken in Echtzeit in fotorealistische 3D-Szenen umwandelt und dabei im Vergleich zu NeRF-Ansätzen eine deutlich geringere Latenz bei hoher visueller Qualität für AR/VR-Anwendungen bietet.

Christos Maikos, Georgios Angelidis, Georgios Th. Papadopoulos2026-02-25💻 cs

BiRQA: Bidirectional Robust Quality Assessment for Images

Das Paper stellt BiRQA vor, einen kompakten und robusten Full-Reference-Bildqualitäts-Assessments-Algorithmus, der durch bidirektionale Multiskalen-Verarbeitung und eine neuartige „Anchored Adversarial Training"-Methode sowohl in der Genauigkeit als auch in der Geschwindigkeit und Widerstandsfähigkeit gegen Adversarial Attacks den aktuellen Stand der Technik übertrifft.

Aleksandr Gushchin, Dmitriy S. Vatolin, Anastasia Antsiferova2026-02-25💻 cs

3DSPA: A 3D Semantic Point Autoencoder for Evaluating Video Realism

Das Paper stellt 3DSPA vor, ein automatisiertes Evaluierungsframework für Video-Realismus, das als 3D-semantischer Punkt-Autoencoder semantische Merkmale, Tiefeninformationen und Trajektorien integriert, um die physikalische Plausibilität und zeitliche Konsistenz generierter Videos ohne Referenzvideo zu bewerten.

Bhavik Chandna, Kelsey R. Allen2026-02-25💻 cs

Momentum Guidance: Plug-and-Play Guidance for Flow Models

Die Arbeit stellt „Momentum Guidance" vor, eine rechenkostenneutrale Plug-and-Play-Methode für Flow-Modelle, die durch die Extrapolation vergangener ODE-Geschwindigkeiten die Bildqualität signifikant steigert, ohne die Inferenzkosten zu erhöhen oder die Vielfalt der Proben zu beeinträchtigen.

Runlong Liao, Jian Yu, Baiyu Su + 3 more2026-02-25🤖 cs.LG

Aesthetic Camera Viewpoint Suggestion with 3D Aesthetic Field

Diese Arbeit stellt einen neuen Ansatz vor, der mithilfe eines 3D-Gaussian-Splatting-Netzwerks, das aus einem vortrainierten 2D-Ästhetikmodell gelernt hat, einen geometrieuntermauerten „3D-Ästhetikfeld" aufbaut, um aus wenigen Aufnahmen effizient ästhetisch ansprechende Kameraperspektiven zu bestimmen und dabei kostspielige Reinforcement-Learning-Suchen sowie dichte 3D-Erfassungen zu vermeiden.

Sheyang Tang, Armin Shafiee Sarvestani, Jialu Xu + 2 more2026-02-25💻 cs

SimLBR: Learning to Detect Fake Images by Learning to Detect Real Images

Die Arbeit stellt SimLBR vor, ein effizientes Framework zur Erkennung von KI-generierten Bildern, das durch Latent Blending Regularization eine robuste Generalisierung über verschiedene Generatoren hinweg erreicht, indem es lernt, eine enge Entscheidungsgrenze um die Verteilung echter Bilder zu bilden.

Aayush Dhakal, Subash Khanal, Srikumar Sastry + 4 more2026-02-25💻 cs

← Zurück Weiter →