BEVTraj: Map-Free End-to-End Trajectory Prediction in Bird's-Eye View with Deformable Attention and Sparse Goal Proposals

Das Paper stellt BEVTraj vor, ein kartengestütztes, end-to-end Framework für die Trajektorienvorhersage im autonomen Fahren, das mittels deformierbarer Aufmerksamkeit und sparsamer Zielvorschläge präzise Vorhersagen direkt aus Rohdaten im Bird's-Eye-View ermöglicht, ohne auf teure HD-Karten angewiesen zu sein.

Minsang Kong, Myeongjun Kim, Sang Gu Kang + 3 more2026-02-17💻 cs

Curriculum Multi-Task Self-Supervision Improves Lightweight Architectures for Onboard Satellite Hyperspectral Image Segmentation

Die Autoren stellen ein neuartiges Curriculum Multi-Task Self-Supervised Learning (CMTSSL)-Framework vor, das durch die Kombination von Masked Image Modeling und entkoppelten räumlich-spektralen Jigsaw-Puzzles leichtgewichtige Architekturen für die onboard-Hyperspektralbildsegmentierung von Satelliten erheblich verbessert und dabei eine über 16.000-fache Gewichtsreduktion im Vergleich zu State-of-the-Art-Modellen ermöglicht.

Hugo Carlesso, Josiane Mothe, Radu Tudor Ionescu2026-02-17🤖 cs.AI

Pyramid Token Pruning for High-Resolution Large Vision-Language Models via Region, Token, and Instruction-Guided Importance

Das Paper stellt Pyramid Token Pruning (PTP) vor, eine trainingsfreie Strategie, die durch die hierarchische Kombination von visuellen Saliency-Merkmalen und instruktionsgesteuerter Relevanz die Rechenkosten und Latenz bei hochauflösenden Large Vision-Language Models drastisch reduziert, ohne die Leistung signifikant zu beeinträchtigen.

Yuxuan Liang, Xu Li, Xiaolei Chen + 4 more2026-02-17💻 cs

DiffusionNFT: Online Diffusion Reinforcement with Forward Process

Die Arbeit stellt DiffusionNFT vor, ein effizientes Online-Reinforcement-Learning-Verfahren für Diffusionsmodelle, das den Trainingsprozess durch Optimierung des Vorwärtsprozesses mittels Flow Matching vereinfacht, keine Likelihood-Schätzung benötigt und dabei eine bis zu 25-fach höhere Effizienz sowie überlegene Leistung im Vergleich zu bestehenden Methoden wie FlowGRPO erzielt.

Kaiwen Zheng, Huayu Chen, Haotian Ye + 7 more2026-02-17🤖 cs.AI

UGround: Towards Unified Visual Grounding with Unrolled Transformers

Das Paper stellt UGround vor, ein einheitliches Paradigma für visuelles Grounding, das durch eine Reinforcement-Learning-gesteuerte, stochastische Auswahl von Zwischenschichten in unrollierten Transformern und die Nutzung von Masken als explizite räumliche Prompts die Fehlerakkumulation herkömmlicher Ansätze überwindet und eine Vielzahl von Aufgaben von der Referenzsegmentierung bis hin zur Reasoning-Segmentierung in einem einzigen Framework vereint.

Rui Qian, Xin Yin, Chuanhang Deng + 4 more2026-02-17💻 cs

Algorithms Trained on Normal Chest X-rays Can Predict Health Insurance Types

Diese Studie zeigt, dass KI-Modelle, die auf normalen Röntgenbildern des Thorax trainiert wurden, die Art der Krankenversicherung – und damit sozioökonomische Ungleichheiten – mit signifikanter Genauigkeit vorhersagen können, was darauf hindeutet, dass medizinische Bilddaten keine neutralen biologischen Informationen sind, sondern subtile soziale Signaturen enthalten.

Chi-Yu Chen, Rawan Abulibdeh, Arash Asgari + 8 more2026-02-17🤖 cs.AI