cs.CV Arbeiten | Gist.Science

Phi-4-reasoning-vision-15B Technical Report

Dieser technische Bericht stellt Phi-4-reasoning-vision-15B vor, ein kompaktes, open-weight multimodales Reasoning-Modell, das durch sorgfältige Architekturwahl, strenge Datenkuratierung und hochwertige synthetische Augmentierung bei geringem Rechenaufwand hervorragende Leistungen in wissenschaftlichen, mathematischen und UI-Aufgaben erzielt.

Jyoti Aneja, Michael Harrison, Neel Joshi + 3 more2026-03-05🤖 cs.AI

GeoSeg: Training-Free Reasoning-Driven Segmentation in Remote Sensing Imagery

Das Paper stellt GeoSeg vor, ein trainingsfreies, zero-shot Framework, das durch MLLM-Reasoning, koordinatenbasierte Verfeinerung und duale Prompting-Mechanismen eine generalisierbare, instruktionsgesteuerte Segmentierung in der Fernerkundung ermöglicht und durch den neuen GeoSeg-Bench evaluiert wird.

Lifan Jiang, Yuhang Pei, oxi Wu + 5 more2026-03-05🤖 cs.AI

RIVER: A Real-Time Interaction Benchmark for Video LLMs

Die Arbeit stellt RIVER Bench vor, ein neues Benchmark für die Echtzeit-Interaktion mit Video-LLMs, das durch die Einführung von Aufgaben zur retrospektiven Erinnerung, Live-Wahrnehmung und proaktiven Antizipation die Lücke zwischen Offline-Modellen und echtem interaktiven Dialog schließt und gleichzeitig eine allgemeine Verbesserungsmethode für langfristiges Gedächtnis und zukünftige Wahrnehmung bietet.

Yansong Shi, Qingsong Zhao, Tianxiang Jiang + 3 more2026-03-05💻 cs

When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models

Diese Arbeit stellt einen diagnostischen Rahmen vor, der anhand von Gesichtsparäidolie zeigt, wie unterschiedliche Repräsentationsarchitekturen in Vision-Modellen bei mehrdeutigen visuellen Eingaben zu systematisch unterschiedlichen Interpretationsmechanismen führen, wobei Sprach-Vision-Modelle zu semantischer Überaktivierung neigen, während Detektionsmodelle durch konservative Priors eine geringere Verzerrung aufweisen.

Qianpu Chen, Derya Soydaner, Rob Saunders2026-03-05🤖 cs.AI

Weakly Supervised Patch Annotation for Improved Screening of Diabetic Retinopathy

Die Studie stellt SAFE vor, ein zweistufiges Framework zur schwach überwachten Annotation von Diabetischer Retinopathie-Läsionen durch Feature-Space-Ensembles, das spärliche Expertenmarkierungen erweitert und die Leistung nachgelagerter Klassifikationsmodelle signifikant verbessert.

Shramana Dey, Abhirup Banerjee, B. Uma Shankar + 2 more2026-03-05💻 cs

Discriminative Perception via Anchored Description for Reasoning Segmentation

Die Arbeit stellt DPAD vor, eine Methode, die durch das Erzwingen einer beschreibenden Caption und deren diskriminierenden Abgleich mit dem Kontext die reasoning chains von Multimodal Large Language Models für die Reasoning Segmentation fokussierter und effizienter macht, was zu signifikanten Leistungssteigerungen auf Benchmarks führt.

Tao Yang, Qing Zhou, Yanliang Li + 1 more2026-03-05🤖 cs.AI

Rethinking the Efficiency and Effectiveness of Reinforcement Learning for Radiology Report Generation

Diese Arbeit stellt einen neuen Reinforcement-Learning-Ansatz für die automatische Generierung radiologischer Berichte vor, der durch eine datenbasierte Stichprobenstrategie und eine token-gewichtete Optimierungs-Methode (DiTPO) die klinische Genauigkeit bei deutlich geringerem Datenbedarf verbessert.

Zilin Lu, Ruifeng Yuan, Weiwei Cao + 6 more2026-03-05💻 cs

Volumetric Directional Diffusion: Anchoring Uncertainty Quantification in Anatomical Consensus for Ambiguous Medical Image Segmentation

Der Artikel stellt das Volumetrische Richtungs-Diffusions-Modell (VDD) vor, das durch die mathematische Verankerung der generativen Trajektorie an einen deterministischen Konsens-Prior die aleatorische Unsicherheit bei der 3D-Läsionsegmentierung präzise quantifiziert, ohne dabei die anatomische Integrität zu gefährden.

Chao Wu, Kangxian Xie, Mingchen Gao2026-03-05🤖 cs.AI

DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval

Die Arbeit stellt DQE-CIR vor, eine Methode zur kompositen Bildsuche, die durch lernbare Attributgewichte und ein zielrelatives negatives Sampling die Diskriminativität von Abfrage-Embeddings verbessert, um Relevanzunterdrückung und semantische Verwirrung in bestehenden kontrastiven Lernrahmen zu überwinden.

Geon Park, Ji-Hoon Park, Seong-Whan Lee2026-03-05🤖 cs.AI

Long-Term Visual Localization in Dynamic Benthic Environments: A Dataset, Footprint-Based Ground Truth, and Visual Place Recognition Benchmark

Diese Arbeit stellt einen kuratierten Datensatz für die langfristige visuelle Lokalisierung in dynamischen benthischen Umgebungen vor, führt eine neuartige fußabdruckbasierte Methode zur Generierung von Ground-Truth-Daten ein und bewertet darauf aufbauend den Zustand der Technik bei der visuellen Ortserkennung, wobei gezeigt wird, dass herkömmliche Methoden die Leistung in solchen Umgebungen überschätzen.

Martin Kvisvik Larsen, Oscar Pizarro2026-03-05💻 cs

Tuning Just Enough: Lightweight Backdoor Attacks on Multi-Encoder Diffusion Models

Diese Arbeit stellt MELT vor, einen effizienten Backdoor-Angriff auf Multi-Encoder-Diffusionsmodelle wie Stable Diffusion 3, der durch das gezielte Fine-Tuning weniger als 0,2 % der Encoder-Parameter mittels Low-Rank-Adaptern erfolgreich Angriffe ermöglicht, ohne die vortrainierten Gewichte zu verändern.

Ziyuan Chen, Yujin Jeong, Tobias Braun + 1 more2026-03-05🤖 cs.LG

Revisiting the Role of Foundation Models in Cell-Level Histopathological Image Analysis under Small-Patch Constraints -- Effects of Training Data Scale and Blur Perturbations on CNNs and Vision Transformers

Die Studie zeigt, dass bei der Zellklassifizierung in histopathologischen Bildern unter extremen räumlichen Einschränkungen (40x40 Pixel) spezialisierte Architekturen wie CustomViT effizienter und genauer sind als große vortrainierte Foundation-Modelle, sobald ausreichend Trainingsdaten verfügbar sind.

Hiroki Kagiyama, Toru Nagasaka, Yukari Adachi + 5 more2026-03-05💻 cs

EgoPoseFormer v2: Accurate Egocentric Human Motion Estimation for AR/VR

Das Paper stellt EgoPoseFormer v2 vor, eine Transformer-basierte Methode mit einem automatischen Labeling-System, die durch zeitlich konsistente Schätzung und unsichere semi-überwachte Lernverfahren die Genauigkeit der egozentrischen menschlichen Bewegungsbestimmung für AR/VR-Anwendungen erheblich verbessert.

Zhenyu Li, Sai Kumar Dwivedi, Filip Maric + 11 more2026-03-05💻 cs

CLIP-Guided Multi-Task Regression for Multi-View Plant Phenotyping

Die Arbeit stellt ein CLIP-basiertes, mehrstufiges Vision-Language-Framework vor, das durch die Aggregation von Rotationsansichten und die Nutzung textueller Priors die Vorhersage von Pflanzenalter und Blattzahl aus mehransichtigen Bildern signifikant verbessert und dabei die Robustheit gegenüber unvollständigen Eingaben erhöht.

Simon Warmers, Muhammad Zawish, Fayaz Ali Dharejo + 2 more2026-03-05💻 cs

Real Eyes Realize Faster: Gaze Stability and Pupil Novelty for Efficient Egocentric Learning

Die Arbeit stellt einen effizienten, modellfreien Ansatz zur Auswahl von Egocentric-Video-Frames vor, der Blickstabilität und Pupillenreaktionen nutzt, um unter Ressourcenbeschränkungen redundante Aufnahmen zu filtern und gleichzeitig die Lernleistung für verschiedene Aufgaben zu optimieren.

Ajan Subramanian, Sumukh Bettadapura, Rohan Sathish2026-03-05💻 cs

Efficient Point Cloud Processing with High-Dimensional Positional Encoding and Non-Local MLPs

Die Autoren stellen HPENets vor, eine effiziente Familie von MLP-Netzwerken für die Punktwolkenverarbeitung, die auf einem Zwei-Phasen-Abstraktions- und Verfeinerungsansatz (ABS-REF) basiert und durch den Einsatz hochdimensionaler Positions-Kodierung (HPE) sowie nicht-lokaler MLPs eine überlegene Leistung bei deutlich reduzierter Rechenkomplexität im Vergleich zu bestehenden Methoden erzielt.

Yanmei Zou, Hongshan Yu, Yaonan Wang + 4 more2026-03-05🤖 cs.AI

Understanding Sources of Demographic Predictability in Brain MRI via Disentangling Anatomy and Contrast

Die Studie zeigt, dass die Vorhersagbarkeit demografischer Merkmale in Gehirn-MRT-Bildern primär auf anatomischen Variationen und nicht auf acquisitionsspezifischen Kontrastunterschieden beruht, was für eine robuste Bias-Minderung eine explizite Trennung dieser beiden Quellen erfordert.

Mehmet Yigit Avci, Akshit Achara, Andrew King + 1 more2026-03-05🤖 cs.AI

Any2Any: Unified Arbitrary Modality Translation for Remote Sensing

Das Paper stellt Any2Any vor, ein einheitliches Framework für die beliebige Modality-Übersetzung in der Fernerkundung, das auf einem gemeinsamen latenten Raum und einem neuartigen Datensatz (RST-1M) basiert, um quadratische Komplexität zu vermeiden und eine starke Generalisierung auf bisher nicht gesehene Modalkombinationen zu ermöglichen.

Haoyang Chen, Jing Zhang, Hebaixu Wang + 7 more2026-03-05💻 cs

TextBoost: Boosting Scene Text Fidelity in Ultra-low Bitrate Image Compression

Der vorgestellte TextBoost-Ansatz verbessert die Wiedergabe von Szenentexten bei extrem niedrigen Bitraten, indem er OCR-generierte semantische Informationen als Leitfaden für den Decoder nutzt, um die Texterkennungsqualität signifikant zu steigern, ohne dabei die globale Bildqualität zu beeinträchtigen.

Bingxin Wang, Yuan Lan, Zhaoyi Sun + 2 more2026-03-05💻 cs

A Baseline Study and Benchmark for Few-Shot Open-Set Action Recognition with Feature Residual Discrimination

Diese Studie stellt einen neuen Benchmark für die Few-Shot Open-Set-Erkennung von Handlungen in Videos vor, bei dem ein Feature-Residual-Diskriminator entwickelt wurde, um die Erkennung unbekannter Klassen zu verbessern, ohne die Genauigkeit für bekannte Klassen zu beeinträchtigen.

Stefano Berti, Giulia Pasquale, Lorenzo Natale2026-03-05💻 cs

← Zurück Weiter →