Detection and Identification of Penguins Using Appearance and Motion Features

Cette étude propose un cadre intégrant des caractéristiques d'apparence et de mouvement pour améliorer la détection et l'identification des pingouins dans des environnements complexes, en adaptant YOLO11 pour traiter des séquences d'images et en appliquant un apprentissage contrastif basé sur des trajectoires afin de réduire les erreurs d'identification.

Kasumi Seko, Hiroki Kinoshita, Raj Rajeshwar Malinda + 1 more2026-03-05💻 cs

LeafInst - Unified Instance Segmentation Network for Fine-Grained Forestry Leaf Phenotype Analysis: A New UAV based Benchmark

Cet article présente LeafInst, un réseau de segmentation d'instances unifié conçu pour l'analyse phénotypique fine des feuilles d'arbres en plein champ, accompagné du nouveau jeu de données Poplar-leaf basé sur des images UAV, et démontre des performances supérieures aux modèles existants grâce à une architecture intégrant des modules spécialisés pour gérer les variations d'échelle et les morphologies irrégulières.

Taige Luo, Junru Xie, Chenyang Fan + 5 more2026-03-05💻 cs

InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

Le papier présente InfinityStory, un cadre novateur qui permet la génération de vidéos narratives de longue durée avec une cohérence visuelle mondiale et des transitions fluides entre les plans pour plusieurs sujets, surmontant ainsi les limitations actuelles en matière de stabilité de l'arrière-plan et de cohérence des personnages.

Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen + 27 more2026-03-05💻 cs

Field imaging framework for morphological characterization of aggregates with computer vision: Algorithms and applications

Cette thèse présente un cadre d'imagerie sur site intégrant des algorithmes de vision par ordinateur pour la caractérisation morphologique automatisée des agrégats de construction, tant individuels que sous forme de tas, en combinant reconstruction 3D, segmentation d'instances et complétion de formes pour surmonter les limites des méthodes actuelles.

Haohang Huang2026-03-05🤖 cs.AI

InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models

Ce papier présente InEdit-Bench, le premier benchmark conçu pour évaluer la capacité des modèles d'édition d'images à raisonner sur les voies logiques intermédiaires dans des scénarios complexes, révélant ainsi des lacunes majeures chez les modèles actuels et orientant la recherche vers des systèmes multimodaux plus intelligents et conscients du raisonnement.

Zhiqiang Sheng, Xumeng Han, Zhiwei Zhang + 6 more2026-03-05🤖 cs.AI