Context-Aware Asymmetric Ensembling for Interpretable Retinopathy of Prematurity Screening via Active Query and Vascular Attention

Die Studie stellt das Context-Aware Asymmetric Ensemble (CAA Ensemble) vor, ein interpretierbares Deep-Learning-Modell, das durch die Kombination einer Multi-Scale Active Query Network für strukturelle Merkmale und eines VascuMIL-Netzwerks für Gefäßtopologien mittels aktiver Abfrage und klinischer Kontexte einen neuen Maßstab für die automatisierte Screening-Diagnose der Frühgeborenenretinopathie auf kleinen, unausgewogenen Datensätzen setzt.

Md. Mehedi Hassan, Taufiq Hasan2026-02-23⚡ eess

LeafNet: A Large-Scale Dataset and Comprehensive Benchmark for Foundational Vision-Language Understanding of Plant Diseases

Die Studie stellt LeafNet, einen umfassenden multimodalen Datensatz mit 186.000 Pflanzenbildern, und LeafBench, einen Benchmark zur Evaluierung von Vision-Language-Modellen bei der Pflanzenkrankheitsdiagnose, vor und zeigt, dass multimodale Architekturen zwar über rein visuelle Modelle hinausgehen, jedoch weiterhin erhebliche Lücken bei der feinkörnigen Pathogen- und Artenidentifikation bestehen.

Khang Nguyen Quoc, Phuong D. Dao, Luyl-Da Quach2026-02-23🤖 cs.AI

GeoEyes: On-Demand Visual Focusing for Evidence-Grounded Understanding of Ultra-High-Resolution Remote Sensing Imagery

Das Paper stellt GeoEyes vor, ein trainiertes Framework für multimodale Sprachmodelle, das durch eine spezielle Datensammlung und eine verstärkende Lernmethode das Problem der homogenisierten Werkzeugnutzung löst und so eine gezielte, evidenzbasierte Analyse von ultra-hochauflösenden Fernerkundungsbildern ermöglicht.

Fengxiang Wang, Mingshuo Chen, Yueying Li + 10 more2026-02-23🤖 cs.AI

Uncertainty-Aware Vision-Language Segmentation for Medical Imaging

Die Autoren stellen einen neuartigen, unsicherheitsbewussten multimodalen Segmentierungsrahmen für die medizinische Bildgebung vor, der durch einen Modality Decoding Attention Block und eine spektral-entropische Unsicherheitsverlustfunktion eine präzise Diagnose sowie eine hohe Recheneffizienz bei der Fusion von Röntgenbildern und klinischen Texten ermöglicht.

Aryan Das, Tanishq Rachamalla, Koushik Biswas + 2 more2026-02-23🤖 cs.LG

LGQ: Learning Discretization Geometry for Scalable and Stable Image Tokenization

Die Arbeit stellt LGQ (Learnable Geometric Quantization) vor, einen diskreten Bild-Tokenisierer, der durch das Erlernen der Diskretisierungsgeometrie mittels temperaturgesteuerter weicher Zuordnungen und spezieller Regularisierer eine stabile Optimierung und eine effiziente, ausgewogene Codebuch-Nutzung ermöglicht, wodurch bei deutlich reduzierter Anzahl aktiver Einträge eine überlegene Rekonstruktionsqualität im Vergleich zu bestehenden Methoden erreicht wird.

Idil Bilge Altun, Mert Onur Cakiroglu, Elham Buxton + 2 more2026-02-23🤖 cs.LG

Uncertainty-Guided Inference-Time Depth Adaptation for Transformer-Based Visual Tracking

Der Artikel stellt UncL-STARK vor, einen Ansatz zur dynamischen, unsicherheitsgesteuerten Anpassung der Inferenz-Tiefe bei Transformer-basierten Objektverfolgern, der durch eine Feedback-Steuerung auf Basis von Vorhersageunsicherheit und zeitlicher Kohärenz die Rechenkosten und die Latenz signifikant senkt, ohne dabei die Tracking-Genauigkeit zu beeinträchtigen.

Patrick Poggi, Divake Kumar, Theja Tulabandhula + 1 more2026-02-23💻 cs

When & How to Write for Personalized Demand-aware Query Rewriting in Video Search

Das Paper stellt WeWrite vor, ein personalisiertes, bedarfsgesteuertes Framework für die Suchanfrage-Umschreibung in Videosuchsystemen, das durch eine automatische Mustererkennung für den Schreibzeitpunkt, ein hybrides Trainingsverfahren aus SFT und GRPO sowie eine latenzarme Architektur die Klickrate für Videos über 10 Sekunden um 1,07 % steigert und die Neukonfiguration von Suchanfragen um 2,97 % senkt.

Cheng cheng, Chenxing Wang, Aolin Li + 3 more2026-02-23🤖 cs.LG

Probabilistic NDVI Forecasting from Sparse Satellite Time Series and Weather Covariates

Diese Arbeit stellt einen probabilistischen Transformer-basierten Ansatz vor, der historische NDVI-Zeitreihen mit Wetterdaten kombiniert und durch eine zeitdistanzgewichtete Verlustfunktion sowie spezielle Wetter-Feature-Engineering-Methoden die Herausforderungen unregelmäßiger Satellitenüberwachung und Wolkenbedeckung überwindet, um die Feld-level-Vorhersage der Vegetationsdynamik in der Präzisionslandwirtschaft signifikant zu verbessern.

Irene Iele, Giulia Romoli, Daniele Molino + 4 more2026-02-23📊 stat

Robust Pre-Training of Medical Vision-and-Language Models with Domain-Invariant Multi-Modal Masked Reconstruction

Die Arbeit stellt Robust-MMR vor, ein selbstüberwachtes Vorkonzeptierungsframework für medizinische Vision-and-Language-Modelle, das durch asymmetrische Störungs-bewusste Maskierung und Domänen-Konsistenz-Regularisierung domäneninvariante Repräsentationen lernt und so die Robustheit und Leistung bei Aufgaben wie medizinischer Bildbeschreibung und Visual Question Answering unter Domänenverschiebungen signifikant verbessert.

Melika Filvantorkaman, Mohsen Piri2026-02-23💬 cs.CL

Detection and Classification of Cetacean Echolocation Clicks using Image-based Object Detection Methods applied to Advanced Wavelet-based Transformations

Diese Arbeit demonstriert die Wirksamkeit des auf Wavelet-Transformationen und Bilderkennung basierenden Deep-Learning-Modells CLICK-SPOT zur automatisierten Detektion und Klassifizierung von Echolokationsklicks bei Norwegischen Schwertwalen, um die zeitaufwändige manuelle Analyse von Bioakustikdaten zu überwinden.

Christopher Hauer2026-02-23⚡ eess

Promptable segmentation with region exploration enables minimal-effort expert-level prostate cancer delineation

Die vorgestellte Methode kombiniert Reinforcement Learning mit einer promptgesteuerten Region-Exploitation, um die Prostatatumorsegmentierung in MRT-Bildern mit minimalem manuellem Aufwand auf Expertenniveau zu automatisieren und dabei sowohl die Genauigkeit bestehender vollautomatischer Verfahren zu übertreffen als auch die Annotationszeit um den Faktor zehn zu reduzieren.

Junqing Yang, Natasha Thorley, Ahmed Nadeem Abbasi + 4 more2026-02-23⚡ eess