cs.CV Arbeiten | Gist.Science

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

Die Arbeit stellt Graph-of-Mark (GoM) vor, eine neuartige pixelbasierte visuelle Prompting-Technik, die durch das Überlagern von Szenengraphen auf Eingabebilder die räumliche Schlussfolgerung multimodaler Sprachmodelle signifikant verbessert und dabei die Genauigkeit bei Null-Shot-Aufgaben um bis zu 11 Prozentpunkte steigert.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

Diese Arbeit stellt ein systemweites Inferenz-Optimierungskonzept für DiT-basierte Videogenerierungsmodelle vor, das durch die Einführung einer sequenzparallelen Variante der kausalen Rotary-Positional-Embeddings (Causal-RoPE SP) sowie durch Operator-Fusion und Vorberechnung den Speicherbedarf und die Latenz drastisch reduziert und damit Echtzeit-Anwendungen ermöglicht.

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

Die Studie zeigt, dass Chain-of-Thought-Prompting bei medizinischen visuellen Fragestellungen häufig schlechter abschneidet als direkte Antworten, da ein medizinischer Wahrnehmungsengpass die visuelle Verankerung schwächt, was durch trainingsfreie Eingriffe wie „Perception Anchoring" und „Description Grounding" effektiv behoben werden kann.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

Die Arbeit stellt SJD-PV vor, ein trainingsfreies Beschleunigungsframework für autoregressive Bildgenerierung, das durch die phrasenweise Verifikation häufig zusammen auftretender visueller Tokens die Inferenzgeschwindigkeit um bis zu 30 % steigert, ohne die Bildqualität zu beeinträchtigen.

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

Die Arbeit stellt CalibFusion vor, einen differenzierbaren Transformer-basierten Ansatz zur End-to-End-Verfeinerung der Radarkamera-Extrinsik, der speziell für die robuste Fusion in wasserbasierten Umgebungen mit texturarmen Flächen und Clutter entwickelt wurde und die Genauigkeit der 2D-Objektdetektion verbessert.

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

Die Studie zeigt, dass sich die bei Bildmodellen beobachteten Vorteile der semantischen Rauschinitialisierung nicht signifikant auf Text-zu-Video-Generierung übertragen lassen, da die zeitliche Kopplung zu einer Instabilität führt, die den Gesamtscore im Vergleich zur Standard-Gaußschen Rauschinitialisierung nicht verbessert.

Yixiao Jing, Chaoyu Zhang, Zixuan Zhong, Peizhou Huang2026-03-10💻 cs

Unmixing microinfrared spectroscopic images of cross-sections of historical oil paintings

Die Studie stellt eine unüberwachte CNN-Autoencoder-Methode mit einem neuartigen, gewichteten spektralen Winkelabstands-Verlust vor, um hyperspektrale ATR-μFTIR-Bilder von historischen Ölgemälde-Querschnitten, wie denen des Genter Altars, automatisch und objektiv in ihre spektralen Endmember und deren räumliche Verteilung zu zerlegen.

Shivam Pande, Nicolas Nadisic, Francisco Mederos-Henry, Aleksandra Pizurica2026-03-10🤖 cs.LG

AutoFigure-Edit: Generating Editable Scientific Illustration

Das Paper stellt AutoFigure-Edit vor, ein End-to-End-System, das aus langen wissenschaftlichen Texten vollständig bearbeitbare und stilistisch anpassbare wissenschaftliche Illustrationen in SVG-Format generiert.

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

XAI and Few-shot-based Hybrid Classification Model for Plant Leaf Disease Prognosis

Diese Arbeit stellt ein hybrides Few-Shot-Learning-Modell vor, das Siamesische und Prototypische Netzwerke mit Explainable AI (Grad-CAM) kombiniert, um Pflanzenkrankheiten bei Mais, Reis und Weizen auch bei begrenzten annotierten Daten mit hoher Genauigkeit und Transparenz zu identifizieren.

Diana Susan Joseph, Pranav M Pawar, Raja Muthalagu, Mithun Mukharjee2026-03-10🤖 cs.LG

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

Die Arbeit stellt PRPO und MCDR-Bench vor, ein Framework, das durch parallele relative Policy-Optimierung und eine objektive Fehler-basierte Evaluierung die tiefgehenden Analysefähigkeiten von Large Vision-Language Models für Diagramme systematisch verbessert.

Jiajin Tang, Gaoyang, Wenjie Wang, Sibei Yang, Xing Chen2026-03-10🤖 cs.LG

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

Die Arbeit stellt MultiGen vor, ein Diffusions-Game-Engine-System, das durch eine persistente externe Speicherkomponente und eine modulare Architektur sowohl eine direkte, bearbeitbare Kontrolle über die Spielumgebung als auch konsistente Echtzeit-Multiplayer-Interaktionen ermöglicht.

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz2026-03-10💻 cs

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

Die Arbeit stellt VB vor, ein neues Benchmark-System, das die Fähigkeit von Vision-Language-Modellen testet, Sichtbarkeit in Bildern zu beurteilen und bei Unsicherheit eine Antwort zu verweigern, wobei kontrollierte minimale Änderungen genutzt werden, um die Robustheit und Begründungsfähigkeit der Modelle zu evaluieren.

Neil Tripathi2026-03-10💻 cs

RADAR: A Multimodal Benchmark for 3D Image-Based Radiology Report Review

Das Paper stellt RADAR vor, ein multimodales Benchmark-Set aus annotierten 3D-CT-Bildern und radiologischen Berichten, das darauf abzielt, die Fähigkeit von KI-Modellen zu bewerten, klinische Diskrepanzen und Bearbeitungen in radiologischen Berichten auf der Grundlage bildgebender Befunde zu analysieren.

Zhaoyi Sun, Minal Jagtiani, Wen-wai Yim, Fei Xia, Martin Gunn, Meliha Yetisgen, Asma Ben Abacha2026-03-10💻 cs

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

Das Paper stellt ECHO vor, ein Multi-Agenten-Framework, das durch die iterative Verfeinerung einer gemeinsamen Multimedia-Ereignis-Hypergraph-Struktur und eine Link-then-Bind-Strategie die Fehlerfortpflanzung bei der multimodalen Ereignisextraktion reduziert und damit den aktuellen Stand der Technik deutlich übertrifft.

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs

Three-dimensional reconstruction and segmentation of an aggregate stockpile for size and shape analyses

Diese Studie stellt einen innovativen 3D-Bildgebungsansatz vor, der Structure-from-Motion-Techniken und mobile Endgeräte nutzt, um aus Videos von Aggregat-Deponien eine dreidimensionale Rekonstruktion zu erstellen und einzelne Körner zu segmentieren, um so deren Größe und Form für die Vor-Ort-Qualitätssicherung in der Straßenbauindustrie zu analysieren.

Erol Tutumluer, Haohang Huang, Jiayi Luo, Issam Qamhia, John M. Hart2026-03-10💻 cs

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Die Arbeit stellt TimeSpot vor, einen Benchmark mit 1.455 Bildern aus 80 Ländern, der zeigt, dass aktuelle Vision-Language-Modelle bei der rein visuellen Inferenz von geografischen und zeitlichen Merkmalen sowie bei der räumlich-zeitlichen Schlussfolgerung in realen Szenarien erhebliche Defizite aufweisen.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan Parvez2026-03-10💬 cs.CL

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

Das Paper stellt "Narrative Weaver" vor, ein neuartiges Framework, das durch die Integration eines multimodalen Sprachmodells für die narrative Planung und eines dynamischen Speichers für die visuelle Konsistenz erstmals eine kontrollierte, langstreckige und multimodal gesteuerte Generierung von visuellen Inhalten ermöglicht, wobei gleichzeitig ein neues Benchmark-Dataset für E-Commerce-Werbung veröffentlicht wird.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

High-Resolution Image Reconstruction with Unsupervised Learning and Noisy Data Applied to Ion-Beam Dynamics for Particle Accelerators

Diese Arbeit stellt ein neuartiges, unüberwachtes Lernverfahren vor, das durch den Einsatz von Faltungsfiltern und neuronalen Netzen mit optimierter Frühstopp-Strategie auch bei stark verrauschten Daten eine hochauflösende Rekonstruktion von Strahlhalo-Strukturen in Teilchenbeschleunigern ermöglicht, ohne dass Trainingsdatensätze erforderlich sind.

Francis Osswald (IPHC), Mohammed Chahbaoui (UNISTRA), Xinyi Liang (SU)2026-03-10🤖 cs.LG

Spectral Gaps and Spatial Priors: Studying Hyperspectral Downstream Adaptation Using TerraMind

Diese Studie untersucht die Anpassungsfähigkeit des Geospatial-Foundation-Modells TerraMind an hyperspektrale Downstream-Aufgaben ohne spezifisches Vor-Training, zeigt zwar moderate Erfolge durch Bandselektion, unterstreicht jedoch die überlegene Leistung nativer hyperspektraler Modelle und begründet damit die Notwendigkeit zukünftiger Architekturen mit spektraler Tokenisierung.

Julia Anna Leonardi, Johannes Jakubik, Paolo Fraccaro, Maria Antonia Brovelli2026-03-10💻 cs

One-Shot Badminton Shuttle Detection for Mobile Robots

Diese Arbeit stellt ein robustes One-Shot-Erkennungsframework für Badmintonbälle vor, das auf einem neuartigen, halbautomatisch annotierten Datensatz basiert und speziell für die dynamischen, egozentrischen Sichtwinkel mobiler Roboter optimiert wurde, um als Grundlage für nachgelagerte Aufgaben wie Verfolgung und Trajektorienschätzung zu dienen.

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco Hutter2026-03-10💻 cs

← Zurück Weiter →