Scalable Residual Feature Aggregation Framework with Hybrid Metaheuristic Optimization for Robust Early Pancreatic Neoplasm Detection in Multimodal CT Imaging

Diese Studie stellt ein skalierbares Framework zur robusten Früherkennung von Pankreastumoren in multimodalen CT-Bildern vor, das durch die Kombination von MAGRes-UNet, DenseNet-121, einem hybriden ViT-EfficientNet-B3-Klassifikator und metaheuristischen Optimierungsverfahren eine Genauigkeit von 96,23 % erreicht.

Janani Annur Thiruvengadam, Kiran Mayee Nabigaru, Anusha Kovi2026-02-19💻 cs

Visualizing the Invisible: Enhancing Radiologist Performance in Breast Mammography via Task-Driven Chromatic Encoding

Die Studie stellt MammoColor vor, ein Framework mit einem aufgabenorientierten chromatischen Kodierungsmodul, das die Lesegenauigkeit von Radiologen bei der Brustkrebsfrüherkennung, insbesondere bei dichtem Brustgewebe, durch visuelle Hervorhebung relevanter Merkmale verbessert und gleichzeitig die Anzahl der falsch-positiven Befunde reduziert.

Hui Ye, Shilong Yang, Chulong Zhang + 4 more2026-02-19💻 cs

Vision and Language: Novel Representations and Artificial intelligence for Driving Scene Safety Assessment and Autonomous Vehicle Planning

Diese Arbeit untersucht die Integration von Vision-Language-Modellen in autonome Fahrsysteme und zeigt, dass diese zwar vielversprechend für die semantische Risikobewertung und die Formulierung von Verhaltensbeschränkungen sind, ihre erfolgreiche Anwendung jedoch eine sorgfältige, aufgabenspezifische Systemgestaltung erfordert, anstatt einfache Merkmalseinfügung.

Ross Greer, Maitrayee Keskar, Angel Martinez-Sanchez + 3 more2026-02-19🤖 cs.AI

Adaptive Illumination Control for Robot Perception

Das Paper stellt „Lightning" vor, ein geschlossenes Regelungsframework für die robotische Wahrnehmung, das durch die Kombination von physikalisch konsistenter Relighting-Synthese, offline-Optimierung und Imitationslernen eine adaptive Beleuchtungssteuerung ermöglicht, die die Robustheit von visuellem SLAM unter schwierigen Lichtverhältnissen verbessert und gleichzeitig den Energieverbrauch optimiert.

Yash Turkar, Shekoufeh Sadeghi, Karthik Dantu2026-02-19💻 cs

EarthSpatialBench: Benchmarking Spatial Reasoning Capabilities of Multimodal LLMs on Earth Imagery

Die Autoren stellen mit EarthSpatialBench einen umfassenden Benchmark vor, der über 325.000 Frage-Antwort-Paare enthält, um die räumlichen Schlussfolgerungsfähigkeiten multimodaler Sprachmodelle bei der Analyse von Erdbeobachtungsdaten hinsichtlich quantitativer Distanzen, Richtungen, topologischer Beziehungen und komplexer Geometrien zu evaluieren.

Zelin Xu, Yupu Zhang, Saugat Adhikari + 6 more2026-02-19🤖 cs.AI

World Action Models are Zero-shot Policies

Das Paper stellt DreamZero vor, ein World Action Model auf Basis eines Video-Diffusions-Backbones, das als Zero-Shot-Policy durch das gemeinsame Lernen von Video und Aktionen eine überlegene Generalisierungsfähigkeit auf neue Aufgaben und Umgebungen sowie eine effiziente Echtzeit-Steuerung und Embodiment-Transferfähigkeit im Vergleich zu herkömmlichen Vision-Language-Action-Modellen erreicht.

Seonghyeon Ye, Yunhao Ge, Kaiyuan Zheng + 33 more2026-02-19🤖 cs.LG

DocSplit: A Comprehensive Benchmark Dataset and Evaluation Approach for Document Packet Recognition and Splitting

Die Arbeit stellt DocSplit vor, den ersten umfassenden Benchmark-Datensatz mit neuen Evaluierungsmetriken, um die Fähigkeit von multimodalen Large Language Models zu testen, heterogene Dokumentenpakete in einzelne Einheiten zu zerlegen, was für zahlreiche branchenspezifische Anwendungen entscheidend ist.

Md Mofijul Islam, Md Sirajus Salekin, Nivedha Balakrishnan + 6 more2026-02-19💬 cs.CL