MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding

Die Arbeit stellt MSJoE vor, ein neuartiges Framework, das durch die gemeinsame Optimierung eines Multimodal Large Language Models und eines leichten Keyframe-Samplers mittels Reinforcement Learning die effiziente Verarbeitung langer Videos ermöglicht und dabei auf einem neuen Datensatz sowie mehreren Benchmarks signifikante Genauigkeitssteigerungen erzielt.

Wenhui Tan, Xiaoyi Yu, Jiaze Li + 5 more2026-02-27💻 cs

Velocity and stroke rate reconstruction of canoe sprint team boats based on panned and zoomed video recordings

Diese Studie stellt ein automatisiertes, auf KI-basierendes Framework vor, das mittels YOLOv8, U-Net und optischem Fluss aus gepanzerten und herangezoomten Videoaufnahmen präzise Geschwindigkeits- und Schlagfrequenzprofile für Kanusprint-Teamboote rekonstruiert und damit eine GPS-unabhängige Leistungsanalyse ermöglicht.

Julian Ziegler, Daniel Matthes, Finn Gerdts + 5 more2026-02-27💻 cs

Small Object Detection Model with Spatial Laplacian Pyramid Attention and Multi-Scale Features Enhancement in Aerial Images

Diese Arbeit stellt ein verbessertes Modell zur Erkennung kleiner Objekte in Luftbildern vor, das durch die Integration eines räumlichen Laplace-Pyramiden-Aufmerksamkeitsmoduls, einer Multi-Skalen-Feature-Verbesserung und deformierbarer Faltungen zur Ausrichtung der Feature-Pyramid-Netzwerke die Detektionsleistung auf den Datensätzen VisDrone und DOTA signifikant steigert.

Zhangjian Ji, Huijia Yan, Shaotong Qiao + 2 more2026-02-27💻 cs

Cytoarchitecture in Words: Weakly Supervised Vision-Language Modeling for Human Brain Microscopy

Die Studie stellt eine schwach überwachte Methode vor, die mithilfe von Labels und synthetischen Texten aus der Literatur bestehende Vision-Modelle für die menschliche Hirnmikroskopie mit Sprachmodellen koppelt, um cytoarchitektonische Merkmale in natürlicher Sprache zu beschreiben, ohne auf umfangreiche manuell gepaarte Bild-Text-Daten angewiesen zu sein.

Matthew Sutton, Katrin Amunts, Timo Dickscheid + 1 more2026-02-27💻 cs

Locally Adaptive Decay Surfaces for High-Speed Face and Landmark Detection with Event Cameras

Die Studie stellt „Locally Adaptive Decay Surfaces" (LADS) vor, eine neuartige Ereignisdarstellung für Event-Kameras, die durch lokale Anpassung der zeitlichen Zerfallsrate sowohl bei niedrigen als auch bei extrem hohen Frequenzen (bis 240 Hz) die Genauigkeit von Gesichts- und Landmarkenerkennung übertrifft und dabei leichtere Netzwerkarchitekturen ermöglicht.

Paul Kielty, Timothy Hanley, Peter Corcoran2026-02-27💻 cs

FLIGHT: Fibonacci Lattice-based Inference for Geometric Heading in real-Time

Die Arbeit stellt FLIGHT vor, eine neuartige Methode zur Echtzeit-Schätzung der Kamerarichtung aus monokularen Videos, die eine generalisierte Hough-Transformation auf der Einheitskugel unter Verwendung eines Fibonacci-Gitters nutzt, um auch bei hohem Rauschen und Ausreißern eine hohe Genauigkeit und Effizienz zu gewährleisten und so die Leistung von SLAM-Systemen zu verbessern.

David Dirnfeld, Fabien Delattre, Pedro Miraldo + 1 more2026-02-27💻 cs

Devling into Adversarial Transferability on Image Classification: Review, Benchmark, and Evaluation

Diese Arbeit adressiert das Fehlen eines standardisierten Bewertungsrahmens für adversarielle Transferangriffe in der Bildklassifizierung, indem sie eine umfassende Übersicht bestehender Methoden bietet, ein Benchmark-Framework einführt und Strategien zur Verbesserung der Transferierbarkeit sowie potenzielle Verzerrungen bei Vergleichen analysiert.

Xiaosen Wang, Zhijin Ge, Bohan Liu + 5 more2026-02-27🤖 cs.AI

TriLite: Efficient Weakly Supervised Object Localization with Universal Visual Features and Tri-Region Disentanglement

TriLite ist ein effizienter, einstufiger Ansatz für die schwach überwachte Objektlokalisierung, der durch die Nutzung vortrainierter Vision-Transformer und eines TriHead-Moduls zur Entwirrung von Vordergrund-, Hintergrund- und unsicheren Regionen eine neue State-of-the-Art-Leistung bei minimalem Trainierparameterbedarf und ohne aufwändiges End-to-End-Training erreicht.

Arian Sabaghi, José Oramas2026-02-27💻 cs

From Calibration to Refinement: Seeking Certainty via Probabilistic Evidence Propagation for Noisy-Label Person Re-Identification

Die Arbeit stellt CARE vor, ein zweistufiges Framework zur Personensuche mit verrauschten Labels, das durch probabilistische Evidenzpropagierung, eine Evidenzkalibrierung zur Überwindung von Softmax-Überkonfidenz und eine Evidenzverfeinerung mit kompositen Winkelrändern sowie sphärischer Gewichtung eine zuverlässigere Merkmalsdiskriminierung ermöglicht.

Xin Yuan, Zhiyong Zhang, Xin Xu + 2 more2026-02-27💻 cs