cs Arbeiten | Gist.Science

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

Die Arbeit stellt Graph-of-Mark (GoM) vor, eine neuartige pixelbasierte visuelle Prompting-Technik, die durch das Überlagern von Szenengraphen auf Eingabebilder die räumliche Schlussfolgerung multimodaler Sprachmodelle signifikant verbessert und dabei die Genauigkeit bei Null-Shot-Aufgaben um bis zu 11 Prozentpunkte steigert.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

Diese Arbeit stellt ein systemweites Inferenz-Optimierungskonzept für DiT-basierte Videogenerierungsmodelle vor, das durch die Einführung einer sequenzparallelen Variante der kausalen Rotary-Positional-Embeddings (Causal-RoPE SP) sowie durch Operator-Fusion und Vorberechnung den Speicherbedarf und die Latenz drastisch reduziert und damit Echtzeit-Anwendungen ermöglicht.

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

Die Studie zeigt, dass Chain-of-Thought-Prompting bei medizinischen visuellen Fragestellungen häufig schlechter abschneidet als direkte Antworten, da ein medizinischer Wahrnehmungsengpass die visuelle Verankerung schwächt, was durch trainingsfreie Eingriffe wie „Perception Anchoring" und „Description Grounding" effektiv behoben werden kann.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

Die Arbeit stellt SJD-PV vor, ein trainingsfreies Beschleunigungsframework für autoregressive Bildgenerierung, das durch die phrasenweise Verifikation häufig zusammen auftretender visueller Tokens die Inferenzgeschwindigkeit um bis zu 30 % steigert, ohne die Bildqualität zu beeinträchtigen.

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

Demonstration of a 1.2 Gbps Always-on Fully-Connected Mesh Network with RFSoC SDRs

Die Autoren demonstrieren auf AMD/Xilinx RFSoC-basierten Software-defined Radios ein vollständig vernetztes Mesh-System aus vier Drohnen, das über zwölf gleichzeitige 2x2-MIMO-Links eine aggregierte Datenrate von 1,2 Gbps erreicht und dabei Echtzeit-4K-Videostreams ohne Komprimierung unterstützt.

Hatef Nouri, George Sklivanitis, Dimitris A. Pados, Elizabeth Serena Bentley2026-03-10💻 cs

SDN-SYN PoW: Intent-Aware Adaptive SDN Defense with PoW Against multi-domain SYN Floods

Die Studie stellt SDN-SYN PoW vor, eine adaptive Verteidigungsarchitektur, die Software-Defined Networking mit nicht-interaktiven Proof-of-Work kombiniert, um SYN-Flut-Angriffe im Multi-Domain-Bereich durch dynamische, kontextabhängige Schwierigkeitsanpassung effektiv abzuwehren, ohne legitime Clients zu belasten.

Wenyang Jia2026-03-10💻 cs

Hybrid Orchestration of Edge AI and Microservices via Graph-based Self-Imitation Learning

Die Arbeit stellt SIL-GPO vor, einen auf Graph-Attention-Netzwerken und Selbst-Imitationslernen basierenden Reinforcement-Learning-Ansatz, der die Orchestrierung von Edge-AI-Mikrodiensten durch gleichzeitige Optimierung von Bereitstellung und Routing unter ressourcenbeschränkten Bedingungen effizienter gestaltet als bestehende Methoden.

Chen Yang, Jin Zheng, Yang Zhuolin, Lai Pan, Zhang Xiao, Hu Menglan, Yin Haiyan2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

Die Arbeit stellt CalibFusion vor, einen differenzierbaren Transformer-basierten Ansatz zur End-to-End-Verfeinerung der Radarkamera-Extrinsik, der speziell für die robuste Fusion in wasserbasierten Umgebungen mit texturarmen Flächen und Clutter entwickelt wurde und die Genauigkeit der 2D-Objektdetektion verbessert.

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

Die Studie zeigt, dass sich die bei Bildmodellen beobachteten Vorteile der semantischen Rauschinitialisierung nicht signifikant auf Text-zu-Video-Generierung übertragen lassen, da die zeitliche Kopplung zu einer Instabilität führt, die den Gesamtscore im Vergleich zur Standard-Gaußschen Rauschinitialisierung nicht verbessert.

Yixiao Jing, Chaoyu Zhang, Zixuan Zhong, Peizhou Huang2026-03-10💻 cs

AutoFigure-Edit: Generating Editable Scientific Illustration

Das Paper stellt AutoFigure-Edit vor, ein End-to-End-System, das aus langen wissenschaftlichen Texten vollständig bearbeitbare und stilistisch anpassbare wissenschaftliche Illustrationen in SVG-Format generiert.

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

Die Arbeit stellt MultiGen vor, ein Diffusions-Game-Engine-System, das durch eine persistente externe Speicherkomponente und eine modulare Architektur sowohl eine direkte, bearbeitbare Kontrolle über die Spielumgebung als auch konsistente Echtzeit-Multiplayer-Interaktionen ermöglicht.

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz2026-03-10💻 cs

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

Die Arbeit stellt VB vor, ein neues Benchmark-System, das die Fähigkeit von Vision-Language-Modellen testet, Sichtbarkeit in Bildern zu beurteilen und bei Unsicherheit eine Antwort zu verweigern, wobei kontrollierte minimale Änderungen genutzt werden, um die Robustheit und Begründungsfähigkeit der Modelle zu evaluieren.

Neil Tripathi2026-03-10💻 cs

RADAR: A Multimodal Benchmark for 3D Image-Based Radiology Report Review

Das Paper stellt RADAR vor, ein multimodales Benchmark-Set aus annotierten 3D-CT-Bildern und radiologischen Berichten, das darauf abzielt, die Fähigkeit von KI-Modellen zu bewerten, klinische Diskrepanzen und Bearbeitungen in radiologischen Berichten auf der Grundlage bildgebender Befunde zu analysieren.

Zhaoyi Sun, Minal Jagtiani, Wen-wai Yim, Fei Xia, Martin Gunn, Meliha Yetisgen, Asma Ben Abacha2026-03-10💻 cs

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

Das Paper stellt ECHO vor, ein Multi-Agenten-Framework, das durch die iterative Verfeinerung einer gemeinsamen Multimedia-Ereignis-Hypergraph-Struktur und eine Link-then-Bind-Strategie die Fehlerfortpflanzung bei der multimodalen Ereignisextraktion reduziert und damit den aktuellen Stand der Technik deutlich übertrifft.

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs

Three-dimensional reconstruction and segmentation of an aggregate stockpile for size and shape analyses

Diese Studie stellt einen innovativen 3D-Bildgebungsansatz vor, der Structure-from-Motion-Techniken und mobile Endgeräte nutzt, um aus Videos von Aggregat-Deponien eine dreidimensionale Rekonstruktion zu erstellen und einzelne Körner zu segmentieren, um so deren Größe und Form für die Vor-Ort-Qualitätssicherung in der Straßenbauindustrie zu analysieren.

Erol Tutumluer, Haohang Huang, Jiayi Luo, Issam Qamhia, John M. Hart2026-03-10💻 cs

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

Das Paper stellt "Narrative Weaver" vor, ein neuartiges Framework, das durch die Integration eines multimodalen Sprachmodells für die narrative Planung und eines dynamischen Speichers für die visuelle Konsistenz erstmals eine kontrollierte, langstreckige und multimodal gesteuerte Generierung von visuellen Inhalten ermöglicht, wobei gleichzeitig ein neues Benchmark-Dataset für E-Commerce-Werbung veröffentlicht wird.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

Spectral Gaps and Spatial Priors: Studying Hyperspectral Downstream Adaptation Using TerraMind

Diese Studie untersucht die Anpassungsfähigkeit des Geospatial-Foundation-Modells TerraMind an hyperspektrale Downstream-Aufgaben ohne spezifisches Vor-Training, zeigt zwar moderate Erfolge durch Bandselektion, unterstreicht jedoch die überlegene Leistung nativer hyperspektraler Modelle und begründet damit die Notwendigkeit zukünftiger Architekturen mit spektraler Tokenisierung.

Julia Anna Leonardi, Johannes Jakubik, Paolo Fraccaro, Maria Antonia Brovelli2026-03-10💻 cs

One-Shot Badminton Shuttle Detection for Mobile Robots

Diese Arbeit stellt ein robustes One-Shot-Erkennungsframework für Badmintonbälle vor, das auf einem neuartigen, halbautomatisch annotierten Datensatz basiert und speziell für die dynamischen, egozentrischen Sichtwinkel mobiler Roboter optimiert wurde, um als Grundlage für nachgelagerte Aufgaben wie Verfolgung und Trajektorienschätzung zu dienen.

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco Hutter2026-03-10💻 cs

HARP: HARmonizing in-vivo diffusion MRI using Phantom-only training

Die Studie stellt HARP vor, ein tiefes Lern-Framework zur Harmonisierung von in-vivo-Diffusions-MRT-Daten verschiedener Standorte, das ausschließlich auf einem leicht transportablen Phantom trainiert wird und somit den Bedarf an aufwendigen, multi-sitigen menschlichen Kohorten eliminiert.

Hwihun Jeong, Qiang Liu, Kathryn E. Keenan, Elisabeth A. Wilde, Walter Schneider, Sudhir Pathak, Anthony Zuccolotto, Lauren J. O'Donnell, Lipeng Ning, Yogesh Rathi2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

Die Studie stellt eine Methode vor, bei der durch die Einführung spezieller Blick-Tokens, die menschliche Augenbewegungen nachahmen, Vision-Language-Modelle für medizinische Bildanalyse optimiert werden, was zu verbesserten Ergebnissen sowohl im Trainingsbereich als auch bei der Generalisierung auf neue Datensätze führt.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

← Zurück Weiter →