Learning with less: label-efficient land cover classification at very high spatial resolution using self-supervised deep learning

Diese Studie demonstriert, dass selbstüberwachtes Deep Learning mit nur 1.000 annotierten Bildpatches eine label-effiziente Methode zur Erstellung hochauflösender (1-m) Landbedeckungskarten für den gesamten US-Bundesstaat Mississippi ermöglicht und dabei die Abhängigkeit von großen Mengen manueller Trainingsdaten erheblich reduziert.

Dakota Hester, Vitor S. Martins, Lucas B. Ferreira + 1 more2026-02-27💻 cs

Q2^2: Quantization-Aware Gradient Balancing and Attention Alignment for Low-Bit Quantization

Die Arbeit stellt Q² vor, einen Zwei-Phasen-Ansatz mit gradientenbasierter Fusion und aufmerksamkeitsgestützter Ausrichtung, der durch den Ausgleich von Gradientenungleichgewichten und die Stabilisierung der Überwachung die Leistung von Low-Bit-Quantisierung bei komplexen visuellen Aufgaben wie Objekterkennung und Bildsegmentierung signifikant verbessert, ohne zusätzliche Inferenzkosten zu verursachen.

Zhaoyang Wang, Dong Wang2026-02-27🤖 cs.AI

USF-Net: A Unified Spatiotemporal Fusion Network for Ground-Based Remote Sensing Cloud Image Sequence Extrapolation

Die Arbeit stellt USF-Net vor, ein einheitliches räumlich-zeitliches Fusionsnetzwerk mit adaptiven großen Kerneln und einem effizienten Aufmerksamkeitsmechanismus, das zusammen mit dem neuen ASI-CIS-Datensatz die Extrapolation von Wolkenbildsequenzen für Photovoltaiksysteme in Bezug auf Genauigkeit und Recheneffizienz signifikant verbessert.

Penghui Niu, Taotao Cai, Suqi Zhang + 4 more2026-02-27💻 cs

Diffusion Model in Latent Space for Medical Image Segmentation Task

Die Studie stellt MedSegLatDiff vor, einen effizienten Diffusionsmodell-Ansatz im latenten Raum, der durch die Kombination mit einem VAE und einer gewichteten Kreuzentropie-Loss-Funktion nicht nur präzise Segmentierungsergebnisse für medizinische Bilder liefert, sondern auch durch die Generierung mehrerer plausibler Masken und Konfidenzkarten die Unsicherheit erfasst und die klinische Interpretierbarkeit verbessert.

Huynh Trinh Ngoc, Toan Nguyen Hai, Ba Luong Son + 1 more2026-02-27🤖 cs.AI

ClimaOoD: Improving Anomaly Segmentation via Physically Realistic Synthetic Data

Die Arbeit stellt ClimaDrive, ein semantikgesteuertes Bild-zu-Bild-Framework zur Erzeugung physikalisch realistischer und wetterdiverser synthetischer Anomaliedaten, sowie den daraus abgeleiteten Benchmark ClimaOoD vor, die gemeinsam die Generalisierungsfähigkeit und Robustheit von Modellen für die Anomalie-Segmentierung im autonomen Fahren signifikant verbessern.

Yuxing Liu, Zheng Li, Huanhuan Liang + 3 more2026-02-27💻 cs

VLM-Pruner: Buffering for Spatial Sparsity in an Efficient VLM Centrifugal Token Pruning Paradigm

Das Paper stellt VLM-Pruner vor, einen trainingfreien Token-Pruning-Algorithmus für Vision-Language-Modelle, der durch ein zentrifugales Auswahlverfahren und ein Puffer-Kriterium für räumliche Sparsität Redundanz reduziert und gleichzeitig die räumliche Abdeckung wichtiger Objektdetails sicherstellt, um die Inferenzgeschwindigkeit auf mobilen Geräten erheblich zu steigern.

Zhenkai Wu, Xiaowen Ma, Zhenliang Ni + 4 more2026-02-27🤖 cs.LG

Thinking Beyond Labels: Vocabulary-Free Fine-Grained Recognition using Reasoning-Augmented LMMs

Die Arbeit stellt FiNDR vor, ein bahnbrechendes Framework, das reasoning-fähige Large Multi-Modal Models nutzt, um vokabularfreie, feingranulare Bilderkennung durch automatische Generierung, Filterung und Klassifizierung von Bildbeschreibungen zu ermöglichen und dabei bestehende Methoden sowie Zero-Shot-Baselines mit vordefinierten Labels signifikant zu übertreffen.

Dmitry Demidov, Zaigham Zaheer, Zongyan Han + 2 more2026-02-27💻 cs

WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks

Das Paper stellt WebGym vor, eine bisher größte Open-Source-Umgebung mit fast 300.000 realistischen Web-Aufgaben, die durch ein skalierbares Reinforcement-Learning-Verfahren dazu führt, dass ein auf Qwen-3-VL-8B-Instruct basierender Agent bei der Bewältigung bisher unbekannter Webseiten signifikant besser abschneidet als proprietäre Modelle wie GPT-4o und GPT-5-Thinking.

Hao Bai, Alexey Taymanov, Tong Zhang + 2 more2026-02-27🤖 cs.LG

ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

Der Paper stellt ThinkRL-Edit vor, ein auf Verstärkungslernen basierendes Framework, das durch die Entkopplung von visuellem Denken und Bildsynthese sowie die Einführung von Chain-of-Thought-Strategien und unvoreingenommenen Belohnungsmechanismen die Leistung bei instruktionsgesteuerten Bildbearbeitungen mit komplexer logischer Schlussfolgerung erheblich verbessert.

Hengjia Li, Liming Jiang, Qing Yan + 6 more2026-02-27💻 cs

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

Die Arbeit stellt Molmo2 vor, eine Familie von Open-Weight-Vision-Language-Modellen, die durch ein neues Set aus sieben Videodatensätzen und zwei Multi-Bild-Datensätzen sowie eine optimierte Trainingsmethode state-of-the-art-Leistungen in Videoverständnis und pixelgenauer Verankerung (Grounding) erzielt und dabei sowohl bestehende Open-Source-Modelle als auch proprietäre Systeme wie Gemini 3 Pro übertrifft.

Christopher Clark, Jieyu Zhang, Zixian Ma + 18 more2026-02-27🤖 cs.AI