cs.CV Arbeiten | Gist.Science

Context-Aware Asymmetric Ensembling for Interpretable Retinopathy of Prematurity Screening via Active Query and Vascular Attention

Die Studie stellt das Context-Aware Asymmetric Ensemble (CAA Ensemble) vor, ein interpretierbares Deep-Learning-Modell, das durch die Kombination einer Multi-Scale Active Query Network für strukturelle Merkmale und eines VascuMIL-Netzwerks für Gefäßtopologien mittels aktiver Abfrage und klinischer Kontexte einen neuen Maßstab für die automatisierte Screening-Diagnose der Frühgeborenenretinopathie auf kleinen, unausgewogenen Datensätzen setzt.

Md. Mehedi Hassan, Taufiq Hasan2026-02-23⚡ eess

FireRed-Image-Edit-1.0 Technical Report

Der Bericht stellt FireRed-Image-Edit vor, ein diffusion-basiertes Transformer-Modell für instruktionsgesteuerte Bildbearbeitung, das durch eine optimierte Datenkurierung, einen mehrstufigen Trainingsprozess und neuartige Techniken zur Stabilisierung sowie durch die Einführung des umfassenden REDEdit-Bench-Tests benchmarks den State-of-the-Art in diesem Bereich erreicht.

Super Intelligence Team, Changhao Qiao, Chao Hui + 16 more2026-02-23⚡ eess

LeafNet: A Large-Scale Dataset and Comprehensive Benchmark for Foundational Vision-Language Understanding of Plant Diseases

Die Studie stellt LeafNet, einen umfassenden multimodalen Datensatz mit 186.000 Pflanzenbildern, und LeafBench, einen Benchmark zur Evaluierung von Vision-Language-Modellen bei der Pflanzenkrankheitsdiagnose, vor und zeigt, dass multimodale Architekturen zwar über rein visuelle Modelle hinausgehen, jedoch weiterhin erhebliche Lücken bei der feinkörnigen Pathogen- und Artenidentifikation bestehen.

Khang Nguyen Quoc, Phuong D. Dao, Luyl-Da Quach2026-02-23🤖 cs.AI

GeoEyes: On-Demand Visual Focusing for Evidence-Grounded Understanding of Ultra-High-Resolution Remote Sensing Imagery

Das Paper stellt GeoEyes vor, ein trainiertes Framework für multimodale Sprachmodelle, das durch eine spezielle Datensammlung und eine verstärkende Lernmethode das Problem der homogenisierten Werkzeugnutzung löst und so eine gezielte, evidenzbasierte Analyse von ultra-hochauflösenden Fernerkundungsbildern ermöglicht.

Fengxiang Wang, Mingshuo Chen, Yueying Li + 10 more2026-02-23🤖 cs.AI

Uncertainty-Aware Vision-Language Segmentation for Medical Imaging

Die Autoren stellen einen neuartigen, unsicherheitsbewussten multimodalen Segmentierungsrahmen für die medizinische Bildgebung vor, der durch einen Modality Decoding Attention Block und eine spektral-entropische Unsicherheitsverlustfunktion eine präzise Diagnose sowie eine hohe Recheneffizienz bei der Fusion von Röntgenbildern und klinischen Texten ermöglicht.

Aryan Das, Tanishq Rachamalla, Koushik Biswas + 2 more2026-02-23🤖 cs.LG

Efficient Text-Guided Convolutional Adapter for the Diffusion Model

Die Autoren stellen Nexus Adapters vor, eine effiziente, textgeführte Erweiterung für Diffusionsmodelle, die durch die Integration von Cross-Attention-Mechanismen strukturerhaltende Bildgenerierung mit deutlich weniger Parametern als bestehende Methoden wie T2I-Adapter ermöglicht.

Aryan Das, Koushik Biswas, Swalpa Kumar Roy + 2 more2026-02-23💻 cs

LGQ: Learning Discretization Geometry for Scalable and Stable Image Tokenization

Die Arbeit stellt LGQ (Learnable Geometric Quantization) vor, einen diskreten Bild-Tokenisierer, der durch das Erlernen der Diskretisierungsgeometrie mittels temperaturgesteuerter weicher Zuordnungen und spezieller Regularisierer eine stabile Optimierung und eine effiziente, ausgewogene Codebuch-Nutzung ermöglicht, wodurch bei deutlich reduzierter Anzahl aktiver Einträge eine überlegene Rekonstruktionsqualität im Vergleich zu bestehenden Methoden erreicht wird.

Idil Bilge Altun, Mert Onur Cakiroglu, Elham Buxton + 2 more2026-02-23🤖 cs.LG

Uncertainty-Guided Inference-Time Depth Adaptation for Transformer-Based Visual Tracking

Der Artikel stellt UncL-STARK vor, einen Ansatz zur dynamischen, unsicherheitsgesteuerten Anpassung der Inferenz-Tiefe bei Transformer-basierten Objektverfolgern, der durch eine Feedback-Steuerung auf Basis von Vorhersageunsicherheit und zeitlicher Kohärenz die Rechenkosten und die Latenz signifikant senkt, ohne dabei die Tracking-Genauigkeit zu beeinträchtigen.

Patrick Poggi, Divake Kumar, Theja Tulabandhula + 1 more2026-02-23💻 cs

When & How to Write for Personalized Demand-aware Query Rewriting in Video Search

Das Paper stellt WeWrite vor, ein personalisiertes, bedarfsgesteuertes Framework für die Suchanfrage-Umschreibung in Videosuchsystemen, das durch eine automatische Mustererkennung für den Schreibzeitpunkt, ein hybrides Trainingsverfahren aus SFT und GRPO sowie eine latenzarme Architektur die Klickrate für Videos über 10 Sekunden um 1,07 % steigert und die Neukonfiguration von Suchanfragen um 2,97 % senkt.

Cheng cheng, Chenxing Wang, Aolin Li + 3 more2026-02-23🤖 cs.LG

Probabilistic NDVI Forecasting from Sparse Satellite Time Series and Weather Covariates

Diese Arbeit stellt einen probabilistischen Transformer-basierten Ansatz vor, der historische NDVI-Zeitreihen mit Wetterdaten kombiniert und durch eine zeitdistanzgewichtete Verlustfunktion sowie spezielle Wetter-Feature-Engineering-Methoden die Herausforderungen unregelmäßiger Satellitenüberwachung und Wolkenbedeckung überwindet, um die Feld-level-Vorhersage der Vegetationsdynamik in der Präzisionslandwirtschaft signifikant zu verbessern.

Irene Iele, Giulia Romoli, Daniele Molino + 4 more2026-02-23📊 stat

Robust Pre-Training of Medical Vision-and-Language Models with Domain-Invariant Multi-Modal Masked Reconstruction

Die Arbeit stellt Robust-MMR vor, ein selbstüberwachtes Vorkonzeptierungsframework für medizinische Vision-and-Language-Modelle, das durch asymmetrische Störungs-bewusste Maskierung und Domänen-Konsistenz-Regularisierung domäneninvariante Repräsentationen lernt und so die Robustheit und Leistung bei Aufgaben wie medizinischer Bildbeschreibung und Visual Question Answering unter Domänenverschiebungen signifikant verbessert.

Melika Filvantorkaman, Mohsen Piri2026-02-23💬 cs.CL

Detection and Classification of Cetacean Echolocation Clicks using Image-based Object Detection Methods applied to Advanced Wavelet-based Transformations

Diese Arbeit demonstriert die Wirksamkeit des auf Wavelet-Transformationen und Bilderkennung basierenden Deep-Learning-Modells CLICK-SPOT zur automatisierten Detektion und Klassifizierung von Echolokationsklicks bei Norwegischen Schwertwalen, um die zeitaufwändige manuelle Analyse von Bioakustikdaten zu überwinden.

Christopher Hauer2026-02-23⚡ eess

KPM-Bench: A Kinematic Parsing Motion Benchmark for Fine-grained Motion-centric Video Understanding

Die Arbeit stellt mit KPM-Bench einen neuen Benchmark für die feingranulare Bewegungserkennung in Videos vor und schlägt den linguistisch fundierten MoPE-Algorithmus vor, um Halluzinationen bei der Videobeschreibung systematisch zu reduzieren und die Zuverlässigkeit von Modellen zu verbessern.

Boda Lin, Yongjie Zhu, Xiaocheng Gong + 2 more2026-02-23💻 cs

CLUTCH: Contextualized Language model for Unlocking Text-Conditioned Hand motion modelling in the wild

Die Arbeit stellt den CLUTCH-Modellansatz und den neuen 3D-HIW-Datensatz vor, um durch eine innovative VQ-VAE-Architektur und eine geometrische Verfeinerung textgesteuerte 3D-Handbewegungen erstmals präzise und skalierbar für reale, unkontrollierte Umgebungen zu modellieren.

Balamurugan Thambiraja, Omid Taheri, Radek Danecek + 3 more2026-02-23🤖 cs.LG

Multi-Modal Monocular Endoscopic Depth and Pose Estimation with Edge-Guided Self-Supervision

Die Arbeit stellt PRISM vor, ein selbstüberwachtes Lernframework für die monokulare Tiefen- und Pose-Schätzung in der Koloskopie, das durch Kantenführung und intrinsische Helligkeitszerlegung strukturelle Priors nutzt und zeigt, dass das Training mit realen Daten und einer optimierten Bildwiederholrate die Leistung übertrifft.

Xinwei Ju, Rema Daher, Danail Stoyanov + 2 more2026-02-23💻 cs

LGD-Net: Latent-Guided Dual-Stream Network for HER2 Scoring with Task-Specific Domain Knowledge

Das Paper stellt LGD-Net vor, ein neuartiges Dual-Stream-Netzwerk, das mithilfe von kreuzmodaler Merkmals-Halluzination und domänenspezifischen Regularisierungen HER2-Expressionslevel direkt aus H&E-Histologiebildern vorhersagt und so ressourcenaufwändige IHC-Färbungen sowie rechenintensive virtuelle Färbungsmethoden überflüssig macht.

Peide Zhu, Linbin Lu, Zhiqin Chen + 1 more2026-02-23⚡ eess

Deep Learning for Dermatology: An Innovative Framework for Approaching Precise Skin Cancer Detection

Diese Studie untersucht die Wirksamkeit der Deep-Learning-Modelle VGG16 und DenseNet201 zur Unterscheidung von gutartigen und bösartigen Hautläsionen und zeigt, dass DenseNet201 mit einer Genauigkeit von 93,79 % die beste Leistung erzielt.

Mohammad Tahmid Noor, B. M. Shahria Alam, Tasmiah Rahman Orpa + 3 more2026-02-23⚡ eess

Enabling Training-Free Text-Based Remote Sensing Segmentation

Diese Arbeit stellt einen vollständig trainingsfreien Ansatz vor, der Vision-Language-Modelle mit dem Segment-Anything-Modell (SAM) kombiniert, um ohne zusätzliche Trainingsdaten eine hochpräzise textbasierte Segmentierung von Fernerkundungsbildern zu ermöglichen und dabei neue Maßstäbe für Zero-Shot- und Open-Vocabulary-Aufgaben zu setzen.

Jose Sosa, Danila Rukhovich, Anis Kacem + 1 more2026-02-23💻 cs

Promptable segmentation with region exploration enables minimal-effort expert-level prostate cancer delineation

Die vorgestellte Methode kombiniert Reinforcement Learning mit einer promptgesteuerten Region-Exploitation, um die Prostatatumorsegmentierung in MRT-Bildern mit minimalem manuellem Aufwand auf Expertenniveau zu automatisieren und dabei sowohl die Genauigkeit bestehender vollautomatischer Verfahren zu übertreffen als auch die Annotationszeit um den Faktor zehn zu reduzieren.

Junqing Yang, Natasha Thorley, Ahmed Nadeem Abbasi + 4 more2026-02-23⚡ eess

VQPP: Video Query Performance Prediction Benchmark

Die Autoren stellen mit VQPP den ersten Benchmark für die Vorhersage der Suchleistung in der video-basierten Inhaltsretrieval vor, der auf zwei Datensätzen und Systemen basiert und die Anwendbarkeit durch die Optimierung eines großen Sprachmodells zur Query-Reformulierung demonstriert.

Adrian Catalin Lutu, Eduard Poesina, Radu Tudor Ionescu2026-02-23🤖 cs.LG

← Zurück Weiter →