BloomNet: Exploring Single vs. Multiple Object Annotation for Flower Recognition Using YOLO Variants

Diese Studie stellt den neuen FloralSix-Datensatz vor und zeigt, dass YOLOv8m und YOLOv12n unter Verwendung des SGD-Optimierers je nach Annotierungsdichte (einzelne vs. mehrere Bounding-Boxen) und Umgebungsbedingungen (isoliert vs. dicht) unterschiedlich optimiert sind, um die präzise Blumenerkennung für landwirtschaftliche Anwendungen zu verbessern.

Safwat Nusrat, Prithwiraj Bhattacharjee2026-02-24🤖 cs.AI

Narrating For You: Prompt-guided Audio-visual Narrating Face Generation Employing Multi-entangled Latent Space

Die Arbeit stellt einen neuartigen Ansatz vor, der aus einem statischen Bild, einer Sprachprofil- und einem Zieltext realistische sprechende Gesichter und Stimmen erzeugt, indem ein multi-verflochtener latenter Raum genutzt wird, um die räumlich-zeitlichen, personenbezogenen Merkmale zwischen den Audio- und Videomodaliäten zu verknüpfen.

Aashish Chandra, Aashutosh A, Abhijit Das2026-02-24💻 cs

NeXt2Former-CD: Efficient Remote Sensing Change Detection with Modern Vision Architectures

Die Arbeit stellt NeXt2Former-CD vor, ein effizientes Framework für die Fernerkundungs-Veränderungserkennung, das ConvNeXt-Encoder mit DINOv3-Vorabtrainierung, eine deformierbare Aufmerksamkeitsfusion und einen Mask2Former-Decoder kombiniert, um bei überlegener Genauigkeit gegenüber Mamba-basierten Methoden eine vergleichbare Inferenzgeschwindigkeit zu erreichen.

Yufan Wang, Sokratis Makrogiannis, Chandra Kambhamettu2026-02-24💻 cs

Phase-Consistent Magnetic Spectral Learning for Multi-View Clustering

Dieser Beitrag stellt eine Methode für das Multi-View-Clustering vor, die durch die explizite Modellierung von Phasenübereinstimmungen in komplexwertigen magnetischen Affinitäten und die Extraktion stabiler spektraler Signale über einen hermiteschen Laplace-Operator robuste, phasenkonsistente Repräsentationen auch bei widersprüchlichen Sichtweisen und Rauschen ermöglicht.

Mingdong Lu, Zhikui Chen, Meng Liu + 2 more2026-02-24🤖 cs.LG

MiSCHiEF: A Benchmark in Minimal-Pairs of Safety and Culture for Holistic Evaluation of Fine-Grained Image-Caption Alignment

Die Arbeit stellt MiSCHiEF vor, ein Benchmark aus zwei Datensätzen für Sicherheits- und Kulturszenarien, der mittels kontrastiver Minimalpaare zeigt, dass aktuelle Vision-Language-Modelle bei der feingranularen Bild-Text-Ausrichtung, insbesondere bei der Unterscheidung subtiler sicherheitsrelevanter oder kultureller Nuancen, weiterhin erhebliche Schwierigkeiten aufweisen.

Sagarika Banerjee, Tangatar Madi, Advait Swaminathan + 4 more2026-02-24🤖 cs.AI