Towards Instance Segmentation with Polygon Detection Transformers

Deze paper introduceert Poly-DETR, een lichtgewicht transformer-model dat instantiesegmentatie omvormt tot regressie van polygonen via polaire representatie, waardoor het de afhankelijkheid van dichte pixelmaskers elimineert en aanzienlijk betere prestaties en lagere geheugenvraag bereikt dan bestaande methoden, vooral bij hoge resoluties en regelmatige objecten.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao LiWed, 11 Ma💻 cs

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Dit onderzoek presenteert een veelzijdige aanpak voor autonoom rijden die gebruikmaakt van diep learning en computer vision voor taken zoals verkeersbord- en voertuigdetectie, rijstrookherkenning en gedragskloon, met als doel de robuustheid en betrouwbaarheid van zelfrijdende systemen te verbeteren.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun MukherjeeWed, 11 Ma🤖 cs.AI

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Deze paper introduceert een nieuw raamwerk voor visueel-taalnavigatie dat gebruikmaakt van webvideo's en impliciete geometrische representaties om agents te trainen in realistische omgevingen, wat leidt tot state-of-the-art prestaties en robuuste zero-shot navigatie.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan LaptevWed, 11 Ma💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

Dit paper introduceert See, Plan, Rewind (SPR), een vooruitgangsgevoelig vision-language-action-framework dat robuuste robotmanipulatie bereikt door taken te onderbreken in verifieerbare mijlpalen en automatisch terug te keren naar een herstelpunt bij fouten, wat resulteert in state-of-the-art prestaties en generalisatie op uitdagende benchmarks.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun ChangWed, 11 Ma💻 cs

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

Deze paper introduceert SpaceSense-Bench, een groot-schalig meer-modale benchmark met 136 satellietmodellen en nauwkeurige ground-truth annotaties gegenereerd in Unreal Engine 5, die dient om spacecraft-perceptie en pose-schatting te evalueren en aantoont dat het vergroten van de trainingsdiversiteit cruciaal is voor het verbeteren van prestaties op nieuwe doelen.

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue WanWed, 11 Ma🤖 cs.AI

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Dit paper introduceert de STAR-benchmark, een multi-agent evaluatiekader dat het strategische redeneren en snelle besluitvorming van grote taalmodellen in nul-som omgevingen test, waarbij een significante kloof wordt blootgelegd tussen diep redeneren en effectieve uitvoering onder tijdsdruk.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao ZhuWed, 11 Ma🤖 cs.AI