cs.CV Arbeiten | Gist.Science

Spectrum Shortage for Radio Sensing? Leveraging Ambient 5G Signals for Human Activity Detection

Die vorgestellte Arbeit stellt „Ambient Radio Sensing" (ARS) vor, ein neuartiges ISAC-Konzept, das bestehende 5G-Signale passiv zur berührungslosen und datenschutzfreundlichen menschlichen Aktivitätserkennung nutzt und dabei durch eine innovative Hardware-Architektur sowie ein multimodales Lernframework die Herausforderung des spektralen Mangels löst.

Kunzhe Song, Maxime Zingraff, Huacheng Zeng2026-03-05💻 cs

An Effective Data Augmentation Method by Asking Questions about Scene Text Images

Die Autoren stellen ein durch Fragen inspiriertes Daten-Augmentierungs-Framework vor, das die Leistung von Modellen zur Texterkennung in Szenen und Handschriften durch strukturierte Frage-Antwort-Aufgaben verbessert, die eine feinere Analyse von Zeichenattributen ermöglichen.

Xu Yao, Lei Kang2026-03-05💻 cs

Hazard-Aware Traffic Scene Graph Generation

Die Arbeit stellt ein neues Framework für die Generierung verkehrsspezifischer Szenengraphen vor, das Unfalldaten und Tiefeninformationen nutzt, um die egozentrische Risikowahrnehmung zu verbessern und prominente Gefahren für das eigene Fahrzeug durch farbcodierte Schweregrade sowie detaillierte Wirkmechanismen zu visualisieren.

Yaoqi Huang, Julie Stephany Berrio, Mao Shan + 1 more2026-03-05💻 cs

DM-CFO: A Diffusion Model for Compositional 3D Tooth Generation with Collision-Free Optimization

Die Arbeit stellt DM-CFO vor, einen Diffusionsmodell-basierten Ansatz zur kollisionsfreien, kompositorischen Generierung realistischer 3D-Zähne, der Layouts und Formen durch Text- und Graphenbeschränkungen sowie eine Regularisierung zur Vermeidung von Überschneidungen optimiert.

Yan Tian, Pengcheng Xue, Weiping Ding + 5 more2026-03-05💻 cs

Detection and Identification of Penguins Using Appearance and Motion Features

Diese Studie stellt einen Framework vor, der durch die Integration von Bewegungs- und Erscheinungsmerkmalen mittels eines an YOLO11 angepassten Zwei-Rahmen-Ansatzes für die Detektion und einer tracklet-basierten kontrastiven Lernmethode für die Identifizierung die Überwachung von Pinguinen in Tierhaltungsanlagen trotz homogener Merkmale und Umgebungsrauschen verbessert.

Kasumi Seko, Hiroki Kinoshita, Raj Rajeshwar Malinda + 1 more2026-03-05💻 cs

Tracking Feral Horses in Aerial Video Using Oriented Bounding Boxes

Diese Arbeit stellt eine Methode zur Schätzung der Kopforientierung mittels IoU-basierter Mehrheitsabstimmung vor, um die Einschränkungen herkömmlicher orientierter Begrenzungsrahmen bei der Verfolgung von verwilderten Pferden in Luftaufnahmen zu überwinden und so eine robuste Einzelverfolgung zu ermöglichen.

Saeko Takizawa, Tamao Maeda, Shinya Yamamoto + 1 more2026-03-05💻 cs

Parallax to Align Them All: An OmniParallax Attention Mechanism for Distributed Multi-View Image Compression

Die Arbeit stellt ParaHydra vor, einen neuartigen verteilten Multi-View-Image-Compression-Ansatz, der mittels eines OmniParallax-Aufmerksamkeitsmechanismus (OPAM) und einer adaptiven Informationsfusion (PMIFM) nicht nur den Rechenaufwand drastisch senkt, sondern erstmals auch die Kodierungseffizienz bestehender Multi-View-Methoden übertrifft.

Haotian Zhang, Feiyue Long, Yixin Yu + 7 more2026-03-05💻 cs

LeafInst - Unified Instance Segmentation Network for Fine-Grained Forestry Leaf Phenotype Analysis: A New UAV based Benchmark

Die Studie stellt den ersten UAV-basierten Datensatz für die instanzbasierte Segmentierung von Laub in offenen Waldbeständen vor und entwickelt mit LeafInst ein neues neuronales Netzwerk, das durch innovative Komponenten wie AFPN und DASP die Herausforderungen der Feinanalyse von Baumblättern unter natürlichen Bedingungen erfolgreich bewältigt und dabei den aktuellen Stand der Technik übertrifft.

Taige Luo, Junru Xie, Chenyang Fan + 5 more2026-03-05💻 cs

RAGTrack: Language-aware RGBT Tracking with Retrieval-Augmented Generation

Das Paper stellt RAGTrack vor, ein neuartiges Framework für die robuste RGBT-Objektverfolgung, das durch die Einführung textueller Beschreibungen mittels Multi-modal Large Language Models und die Integration von Retrieval-Augmented Generation sowie adaptiver Token-Fusion die Anpassungsfähigkeit an visuelle Veränderungen und die Unterdrückung von Hintergrundstörungen verbessert.

Hao Li, Yuhao Wang, Wenning Hao + 3 more2026-03-05💻 cs

CoRe-BT: A Multimodal Radiology-Pathology-Text Benchmark for Robust Brain Tumor Typing

Das Paper stellt CoRe-BT vor, ein multimodales Benchmark-Dataset für die Klassifizierung von Hirntumoren, das MRT-Bilder, Histopathologie und klinische Texte kombiniert, um robuste Lernverfahren unter realistischen Bedingungen mit unvollständigen Daten zu erforschen.

Juampablo E. Heras Rivera, Daniel K. Low, Xavier Xiong + 5 more2026-03-05💻 cs

Extending Neural Operators: Robust Handling of Functions Beyond the Training Set

Diese Arbeit entwickelt ein rigoroses Framework zur Erweiterung von neuronalen Operatoren für Out-of-Distribution-Eingaben durch Kernel-Approximation und RKHS-Theorie, was eine zuverlässige Erfassung von Funktionswerten und Ableitungen ermöglicht und an elliptischen PDEs auf Mannigfaltigkeiten validiert wird.

Blaine Quackenbush, Paul J. Atzberger2026-03-05🤖 cs.LG

Image-based Prompt Injection: Hijacking Multimodal LLMs through Visually Embedded Adversarial Instructions

Diese Arbeit untersucht Image-based Prompt Injection (IPI), eine Black-Box-Angriffsmethode, bei der durch visuelle Anpassungen getarnte adversarische Anweisungen in Bilder eingebettet werden, um Multimodal Large Language Models (MLLMs) erfolgreich zu manipulieren und dabei bis zu 64 % Erfolgsrate unter Stealth-Bedingungen zu erreichen.

Neha Nagaraja, Lan Zhang, Zhilong Wang + 2 more2026-03-05🤖 cs.AI

InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

Das Paper stellt InfinityStory vor, ein neuartiges Framework, Dataset und Modell, das durch konsistente Hintergründe, nahtlose Übergänge zwischen mehreren Subjekten und Skalierbarkeit auf stundenlange Erzählungen die Herausforderungen der langformatigen Videoerstellung löst und dabei auf VBench neue Bestwerte in Bezug auf Konsistenz und Kohärenz erzielt.

Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen + 27 more2026-03-05💻 cs

One-Step Face Restoration via Shortcut-Enhanced Coupling Flow

Der Artikel stellt SCFlowFR vor, einen einstufigen Ansatz zur Gesichtswiederherstellung, der durch datenabhängige Kopplung, bedingte Mittelwertschätzung und eine Shortcut-Beschränkung die Effizienz und Qualität von Flow-Matching-Modellen verbessert.

Xiaohui Sun, Hanlin Wu2026-03-05💻 cs

Field imaging framework for morphological characterization of aggregates with computer vision: Algorithms and applications

Diese Dissertation stellt ein umfassendes Feldbildgebungsframework vor, das mithilfe von Computer-Vision-Algorithmen und integrierten 3D-Rekonstruktions- und Segmentierungsmethoden eine automatisierte morphologische Charakterisierung von Baustoffaggregaten unter realen Bedingungen ermöglicht.

Haohang Huang2026-03-05🤖 cs.AI

InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models

Die Arbeit stellt InEdit-Bench vor, das erste Benchmark zur Evaluierung der Fähigkeit multimodaler Generativmodelle, logisch kohärente Zwischenschritte bei komplexen Bildbearbeitungsaufgaben zu planen, und zeigt dabei erhebliche Defizite bestehender Modelle auf.

Zhiqiang Sheng, Xumeng Han, Zhiwei Zhang + 6 more2026-03-05🤖 cs.AI

Machine Pareidolia: Protecting Facial Image with Emotional Editing

Die Arbeit stellt MAP vor, eine neuartige Methode zum Schutz der Gesichtserkennung, die durch gezielte emotionale Bearbeitung und die gemeinsame Optimierung von Zielidentität und Mimik die Privatsphäre in schwarzen Kisten-Szenarien wirksam bewahrt und dabei eine hohe Bildqualität sowie Robustheit gegenüber verschiedenen demografischen Gruppen und Erkennungssystemen gewährleistet.

Binh M. Le, Simon S. Woo2026-03-05🤖 cs.LG

EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs

Der Artikel stellt EvoPrune vor, eine effiziente Methode zur frühen Pruning von visuellen Tokens während des Kodierungsprozesses multimodaler großer Sprachmodelle, die durch eine schichtweise Strategie die Inferenzgeschwindigkeit signifikant steigert und dabei nur minimale Leistungseinbußen verursacht.

Yuhao Chen, Bin Shan, Xin Ye + 1 more2026-03-05🤖 cs.AI

Polyp Segmentation Using Wavelet-Based Cross-Band Integration for Enhanced Boundary Representation

Die vorgestellte Arbeit schlägt ein Wellenlet-basiertes Segmentierungsmodell vor, das durch die Integration von Graustufen- und RGB-Darstellungen im Frequenzbereich die präzise Abgrenzung von Polypen trotz geringer Kontraste und ungleichmäßiger Beleuchtung verbessert.

Haesung Oh, Jaesung Lee2026-03-05💻 cs

Error as Signal: Stiffness-Aware Diffusion Sampling via Embedded Runge-Kutta Guidance

Die Arbeit stellt ERK-Guid vor, eine neue Methode für Diffusionsmodelle, die solverinduzierte Fehler in steifen Bereichen als Leitungs-Signal nutzt, um die lokale Abbruchfehler zu reduzieren und die Probenqualität signifikant zu verbessern.

Inho Kong, Sojin Lee, Youngjoon Hong + 1 more2026-03-05🤖 cs.AI

← Zurück Weiter →