Point-MoE: Large-Scale Multi-Dataset Training with Mixture-of-Experts for 3D Semantic Segmentation

Die Arbeit stellt Point-MoE vor, ein Mixture-of-Experts-Modell, das durch spärlich aktivierte Experten und einen Router die gemeinsame Schulung heterogener 3D-Punktwolken-Datensätze ohne manuelle Datensatz-Labels ermöglicht und dabei sowohl auf bekannten als auch in Zero-Shot-Szenarien den aktuellen Stand der Technik übertrifft.

Xuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury + 1 more2026-03-03💻 cs

Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing

Die vorgestellte Arbeit adressiert die mangelnde Generalisierungsfähigkeit herkömmlicher Methoden zur Gesichtserkennung von Spoofing-Angriffen, indem sie den ersten groß angelegten Visual-Question-Answering-Datensatz namens FaceCoT mit Chain-of-Thought-Annotationen sowie eine darauf aufbauende progressive Lernstrategie (CEPL) einführt, die Multimodal Large Language Models nutzt, um sowohl die Robustheit als auch die Interpretierbarkeit von Face Anti-Spoofing-Systemen signifikant zu verbessern.

Honglu Zhang, Zhiqin Fang, Ningning Zhao + 4 more2026-03-03💻 cs

Improving Wildlife Out-of-Distribution Detection: Africas Big Five

Diese Studie verbessert die Erkennung von nicht im Trainingsdatensatz enthaltenen Wildtieren (Out-of-Distribution) bei Afrikas „Big Five" durch den Vergleich parametrischer und nicht-parametrischer Methoden, wobei sich herausstellt, dass ein auf ImageNet vortrainierter Nearest-Class-Mean-Ansatz die Leistung bestehender OOD-Methoden signifikant übertrifft.

Mufhumudzi Muthivhi, Jiahao Huo, Fredrik Gustafsson + 1 more2026-03-03🤖 cs.AI

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

Die Arbeit stellt eine Meta-Lern-Methode namens Meta-Adaptive Prompt Distillation vor, die durch die Anpassung von aus aufgabenrelevanten visuellen Merkmalen destillierten Soft-Prompts die Few-Shot-Fähigkeiten von Large Multimodal Models für das Visual Question Answering verbessert und dabei die Leistung herkömmlicher In-Context-Learning-Ansätze signifikant übertrifft.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

Die Arbeit stellt BitVLA vor, ein vollständig natives 1-Bit-Vision-Language-Action-Modell für die robotische Manipulation, das durch ein effizientes Design und eine Quantisierungs-Distillations-Strategie eine mit vollpräzisen Baseline-Modellen vergleichbare Leistung bei einer 11-fachen Reduktion des Speicherverbrauchs und einer 4,4-fachen Verringerung der Latenz auf ressourcenbeschränkten Edge-Geräten ermöglicht.

Hongyu Wang, Chuyan Xiong, Ruiping Wang + 1 more2026-03-03💻 cs

PD2^{2}GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting

Die Arbeit stellt PD2^{2}GS vor, ein neuartiges, vollständig selbstüberwachtes Framework, das mittels Gauß-Splatting und kontinuierlicher Deformation präzise part-level Entkopplung und kinematische Modellierung von artikulierte Objekten ermöglicht und dabei durch die Einführung des RS-Art-Datensatzes auch realistische Evaluierungsmöglichkeiten bietet.

Haowen Wang, Xiaoping Yuan, Zhao Jin + 6 more2026-03-03💻 cs

Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

Die Arbeit stellt VisionDrop vor, ein trainingsfreies Framework zur visuellen Token-Reduktion in Large Vision-Language Models, das durch die Vermeidung von textbasierten Annahmen und die Nutzung einer fortschrittlichen, rein visuellen Selektion sowie schrittweisen Pruning-Prozesse die Rechenkosten erheblich senkt, ohne dabei die Modellleistung signifikant zu beeinträchtigen.

Rui Xu, Yunke Wang, Yong Luo + 1 more2026-03-03💻 cs