Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

Die Studie stellt das kostengünstige, modulare Kamerasystem CSLICS vor, das mithilfe von Computer-Vision-Techniken und menschlicher Rückkopplung die automatisierte Zählung von Korallenlaich ermöglicht und damit den manuellen Aufwand bei der Riffrestaurierung drastisch reduziert sowie die Überwachung der Larvengesundheit verbessert.

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett RaineWed, 11 Ma💻 cs

Learning Encoding-Decoding Direction Pairs to Unveil Concepts of Influence in Deep Vision Networks

Diese Arbeit stellt eine unüberwachte Methode vor, die durch die Identifizierung von Entschlüsselungsrichtungen mittels Aktivierungs-Clustering und die Schätzung von Verschlüsselungsrichtungen über Signalvektoren sowie Uncertainty Region Alignment die latenten Mechanismen zur Kodierung und Dekodierung von Konzepten in Deep-Vision-Netzwerken aufdeckt, um deren Black-Box-Charakter zu durchdringen und interpretierbare Eingriffe zu ermöglichen.

Alexandros Doumanoglou, Kurt Driessens, Dimitrios ZarpalasWed, 11 Ma💻 cs

Mapping Historic Urban Footprints in France: Balancing Quality, Scalability and AI Techniques

Diese Studie überwindet die Datenlücke für den französischen Stadtflächenwandel vor den 1970er-Jahren, indem sie eine skalierbare Deep-Learning-Pipeline mit einem zweistufigen U-Net-Ansatz entwickelt, um aus historischen Karten (1925–1950) erstmals einen flächendeckenden, offenen Datensatz urbaner Strukturen für ganz Frankreich zu erstellen.

Walid Rabehi, Marion Le Texier, Rémi LemoyWed, 11 Ma💻 cs

Real-Time Neural Video Compression with Unified Intra and Inter Coding

Die vorgestellte Arbeit stellt ein Echtzeit-Neurales-Videokompressions-Framework mit vereinheitlichter Intra- und Inter-Codierung vor, das durch die adaptive Verarbeitung jedes Einzelbildes in einem einzigen Modell sowie eine simultane Zwei-Bild-Kompression Probleme wie Disokklusion und Fehlerfortpflanzung löst und dabei eine signifikant bessere Kompressionseffizienz als DCVC-RT bei gleichzeitiger Wahrung der Echtzeitfähigkeit erreicht.

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong LiuWed, 11 Ma💻 cs

Revisiting Replanning from Scratch: Real-Time Incremental Planning with Fast Almost-Surely Asymptotically Optimal Planners

Diese Arbeit widerlegt die Annahme, dass reaktives Neuplanen zwingend eine Aktualisierung bestehender Pläne erfordert, und zeigt, dass stattdessen eine Abfolge unabhängiger Probleme mit schnellen, fast sicher asymptotisch optimalen Algorithmen wie EIT* effizienter gelöst werden kann.

Mitchell E. C. Sabbadini, Andrew H. Liu, Joseph Ruan, Tyler S. Wilson, Zachary Kingston, Jonathan D. GammellWed, 11 Ma💻 cs

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

Diese Studie zeigt, dass die Auswahl eines geeigneten Teilsets von Körpermarkierungen in Kombination mit einer Spline-basierten Imputation die Genauigkeit der Erkennung isolierter Gebärden der brasilianischen Gebärdensprache (LIBRAS) auf das Niveau modernster Methoden hebt und gleichzeitig die Verarbeitungszeit im Vergleich zu früheren Ansätzen um das Fünffache reduziert.

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. PaixãoWed, 11 Ma💻 cs

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

Die Arbeit stellt V-Attack vor, eine neue Methode zur gezielten adversarialen Manipulation von Large Vision-Language Models (LVLMs), die durch die Ausnutzung entwirrter Wertmerkmale (Value Features) statt verknüpfter Patch-Tokens eine bisher unerreichte Kontrolle über lokale Bildsemantik ermöglicht und die Angriffserfolgsrate im Vergleich zu bestehenden Methoden um durchschnittlich 36 % steigert.

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin ChenWed, 11 Ma💻 cs

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

Das Paper stellt AFRO vor, ein selbstüberwachtes Framework, das durch die Modellierung von Zustands-Aktions-Dynamiken in einem gemeinsamen latenten Raum ohne explizite geometrische Rekonstruktion oder Aktionsüberwachung dynamische Bewusstsein 3D-Repräsentationen lernt und so die Manipulationserfolgsraten von Robotern in simulierten und realen Umgebungen erheblich verbessert.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing XuWed, 11 Ma💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

Die Arbeit stellt AVGGT vor, eine trainingsfreie Zwei-Schritt-Strategie, die durch die Umwandlung früher globaler Aufmerksamkeitsschichten in Frame-Attention und ein Subsampling von K/V-Tokens die Inferenzgeschwindigkeit von VGGT und π3\pi^3 um das 2- bis 10-fache steigert, ohne dabei die Genauigkeit in dichten Multi-View-Szenarien zu beeinträchtigen.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu ZhangWed, 11 Ma💻 cs