cs.CV Arbeiten | Gist.Science

SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data

Die vorgestellte SGMA-Methode adressiert die Herausforderungen der semantischen Segmentierung mit unvollständigen multimodalen Fernerkundungsdaten durch semantisch geführte Fusion und modality-bewusstes Sampling, um Modaldiskrepanzen auszugleichen und die Leistung insbesondere bei fragilen Modalitäten zu verbessern.

Lekang Wen, Liang Liao, Jing Xiao + 1 more2026-03-04💻 cs

Beyond Anatomy: Explainable ASD Classification from rs-fMRI via Functional Parcellation and Graph Attention Networks

Diese Studie zeigt, dass ein Graph Attention Network-Ensemble, das auf funktionell abgeleiteten Hirnparzellierungen (MSDL) statt auf anatomischen Atlanten basiert, die Klassifizierung von Autismus-Spektrum-Störungen mittels Ruhe-fMRT-Daten mit einer Genauigkeit von 95 % deutlich verbessert und dabei neuropathologisch relevante Hirnregionen identifiziert.

Syeda Hareem Madani, Noureen Bibi, Adam Rafiq Jeraj + 3 more2026-03-04💻 cs

NeighborMAE: Exploiting Spatial Dependencies between Neighboring Earth Observation Images in Masked Autoencoders Pretraining

Das Paper stellt NeighborMAE vor, einen Masked Autoencoder, der durch die gemeinsame Rekonstruktion benachbarter Erdbeobachtungsbilder und eine dynamische Anpassung der Maskierungsparameter räumliche Abhängigkeiten nutzt, um die Selbstüberwachungsvorverarbeitung für Erdbeobachtungsdaten signifikant zu verbessern.

Liang Zeng, Valerio Marsocci, Wufan Zhao + 2 more2026-03-04💻 cs

EIMC: Efficient Instance-aware Multi-modal Collaborative Perception

Die Arbeit stellt EIMC vor, einen effizienten multi-modalen kollaborativen Wahrnehmungsansatz für autonomes Fahren, der durch eine frühe Kollaboration mit leichten Voxeln und einem instanzbasierten Konsensprotokoll die Bandbreitennutzung drastisch reduziert und gleichzeitig die Genauigkeit bei der Erkennung verdeckter Objekte verbessert.

Kang Yang, Peng Wang, Lantao Li + 4 more2026-03-04💻 cs

Functional Properties of the Focal-Entropy

Diese Arbeit liefert eine umfassende informationstheoretische Analyse der Focal-Entropie als Pendant zum Focal-Loss, indem sie deren mathematische Eigenschaften untersucht, die Existenz und Struktur des Minimierers beweist und aufzeigt, wie der Focal-Loss bei Klassenungleichgewichten mittlere Wahrscheinlichkeiten verstärkt und extreme Wahrscheinlichkeiten unterdrückt.

Jaimin Shah, Martina Cardone, Alex Dytso2026-03-04📊 stat

ForestPersons: A Large-Scale Dataset for Under-Canopy Missing Person Detection

Die Studie stellt ForestPersons vor, einen groß angelegten Datensatz mit über 96.000 Bildern und detaillierten Annotationen aus Unter-Dach-Perspektiven, der entwickelt wurde, um die Erkennung vermisster Personen in dichten Wäldern für Such- und Rettungseinsätze zu verbessern, wo herkömmliche Luftaufnahmen oft versagen.

Deokyun Kim, Jeongjun Lee, Jungwon Choi + 6 more2026-03-04💻 cs

On Discriminative vs. Generative classifiers: Rethinking MLLMs for Action Understanding

Die Arbeit stellt vor, dass diskriminative Klassifikatoren für das Verständnis geschlossener Aktionen effizienter und genauer sind als generative Ansätze, und schlägt mit dem GAD-Klassifikator eine hybride Methode vor, die während des Fine-Tunings generative Modellierung nutzt, um die Genauigkeit zu steigern und gleichzeitig die Inferenzgeschwindigkeit zu erhöhen.

Zhanzhong Pang, Dibyadip Chatterjee, Fadime Sener + 1 more2026-03-04💻 cs

SemGS: Feed-Forward Semantic 3D Gaussian Splatting from Sparse Views for Generalizable Scene Understanding

SemGS ist ein feed-forward Framework, das aus wenigen Ansichten generalisierbare semantische 3D-Szenen rekonstruiert, indem es eine Dual-Branch-Architektur mit einer kamera-bewussten Aufmerksamkeitsmechanik kombiniert, um sowohl geometrische Konsistenz als auch semantische Kohärenz für eine schnelle und skalierbare Szenenverständnis zu gewährleisten.

Sheng Ye, Zhen-Hui Dong, Ruoyu Fan + 2 more2026-03-04💻 cs

Give me scissors: Collision-Free Dual-Arm Surgical Assistive Robot for Instrument Delivery

Diese Arbeit stellt einen kollisionsfreien dualarmigen chirurgischen Assistenzroboter vor, der mithilfe eines Vision-Language-Modells und einer Echtzeit-Hindernisvermeidung chirurgische Instrumente autonom und sicher anweist, um die Belastung des OP-Personals zu reduzieren.

Xuejin Luo, Shiquan Sun, Runshi Zhang + 2 more2026-03-04🤖 cs.LG

Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation

Die vorgestellte Arbeit führt Generalizable Knowledge Distillation (GKD) ein, ein mehrstufiges Framework, das durch die Entkopplung von Repräsentations- und Aufgabenlernen sowie einen query-basierten weichen Distillationsmechanismus die Generalisierungsfähigkeit von Vision Foundation Models bei der semantischen Segmentierung über Domänengrenzen hinweg signifikant verbessert.

Chonghua Lv, Dong Zhao, Shuang Wang + 4 more2026-03-04💻 cs

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs

Das Paper stellt VC-STaR vor, ein neuartiges Selbstverbesserungs-Framework für Vision-Language-Modelle, das durch die Nutzung kontrastiver Bildpaare Halluzinationen in den Schlussfolgerungen reduziert und so mit dem daraus generierten VisCoR-55K-Datensatz die visuelle Reasoning-Fähigkeit von Modellen signifikant verbessert.

Zhiyu Pan, Yizheng Wu, Jiashen Hua + 5 more2026-03-04💬 cs.CL

CAPT: Confusion-Aware Prompt Tuning for Reducing Vision-Language Misalignment

Das Paper stellt CAPT vor, einen Prompt-Tuning-Ansatz, der durch die explizite Modellierung und Nutzung von Verwechlungsmustern zwischen ähnlichen Kategorien die Fehlklassifizierungen in Vision-Language-Modellen wie CLIP signifikant reduziert und deren Diskriminierungsfähigkeit verbessert.

Maoyuan Shao, Yutong Gao, Xinyang Huang + 3 more2026-03-04🤖 cs.AI

CAWM-Mamba: A unified model for infrared-visible image fusion and compound adverse weather restoration

Die Arbeit stellt CAWM-Mamba vor, ein einheitliches End-to-End-Modell, das erstmals die Bildfusion und die Wiederherstellung von Bildern unter komplexen, kombinierten Wetterbedingungen (wie Nebel, Regen und Schnee gleichzeitig) erfolgreich vereint und dabei durch innovative Module wie WAPM, CFIM und WSSB den aktuellen Stand der Technik in verschiedenen Szenarien und nachgelagerten Aufgaben übertrifft.

Huichun Liu, Xiaosong Li, Zhuangfan Huang + 3 more2026-03-04💻 cs

SOLAR: SVD-Optimized Lifelong Attention for Recommendation

Das Paper stellt SOLAR vor, ein Empfehlungssystem-Framework, das durch die Einführung von SVD-Attention die quadratische Komplexität der Transformer-Aufmerksamkeit auf lineare Komplexität reduziert, während die Softmax-Funktion erhalten bleibt, und ermöglicht so die effiziente Verarbeitung extrem langer Verhaltenssequenzen, was in der Online-Empfehlung von Kuaishou zu messbaren Verbesserungen der Videoaufrufe führt.

Chenghao Zhang, Chao Feng, Yuanhao Pu + 8 more2026-03-04🤖 cs.LG

ATD: Improved Transformer with Adaptive Token Dictionary for Image Restoration

Die Autoren stellen ATD vor, eine neuartige Transformer-Architektur für die Bildwiederherstellung, die durch einen adaptiven Token-Wörterbuch und einen Cross-Attention-Mechanismus globale Abhängigkeiten mit linearer Komplexität modelliert und dabei sowohl den Rechenaufwand reduziert als auch den State-of-the-Art in verschiedenen Aufgaben wie Super-Resolution und Entrauschung erreicht.

Leheng Zhang, Wei Long, Yawei Li + 3 more2026-03-04💻 cs

Neural Electromagnetic Fields for High-Resolution Material Parameter Reconstruction

Das Paper stellt NEMF vor, ein neuartiges Framework, das durch die Entkopplung von Geometrie und Umgebungsfeld unter Nutzung nicht-invasiver Daten die präzise Rekonstruktion physikalischer Materialeigenschaften ermöglicht und so funktionsfähige, simulierbare digitale Zwillinge schafft.

Zhe Chen, Peilin Zheng, Wenshuo Chen + 3 more2026-03-04⚡ eess

Maximizing Generalization: The Effect of Different Augmentation Techniques on Lightweight Vision Transformer for Bengali Character Classification

Diese Studie zeigt, dass die Kombination aus zufälliger Affintransformation und Farbverzerrung die Generalisierungsfähigkeit eines leichten Vision-Transformers für die Klassifizierung bengalischer Handschrift auf den Datensätzen Ekush und AIBangla mit Genauigkeiten von bis zu 97,57 % signifikant verbessert und so das Problem begrenzter Trainingsdaten für ressourcenarme Sprachen adressiert.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04💻 cs

Synthetic-Child: An AIGC-Based Synthetic Data Pipeline for Privacy-Preserving Child Posture Estimation

Die Studie stellt „Synthetic-Child" vor, eine AIGC-basierte Pipeline, die mithilfe von 3D-Modellen und Generativer KI vollständig synthetische, datenschutzkonforme Trainingsdaten für die Kind-Haltungsschätzung erzeugt und damit ein präzises, quantisiertes Echtzeit-Modell für Edge-Geräte ermöglicht, ohne auf echte Kinderfotos zurückzugreifen.

Taowen Zeng2026-03-04💻 cs

VLMFusionOcc3D: VLM Assisted Multi-Modal 3D Semantic Occupancy Prediction

Die Arbeit stellt VLMFusionOcc3D vor, ein robuster multimodaler Rahmen für die 3D-Semantische-Belegungs-Vorhersage im autonomen Fahren, der durch die Integration von Vision-Language-Modellen, instanzgestützter Aufmerksamkeit und wetteradaptiver Fusion semantische Mehrdeutigkeiten auflöst und die Leistung unter widrigen Wetterbedingungen verbessert.

A. Enes Doruk, Hasan F. Ates2026-03-04💻 cs

Direct Reward Fine-Tuning on Poses for Single Image to 3D Human in the Wild

Die Arbeit stellt DrPose vor, einen Algorithmus zur direkten Belohnungsbasierten Feinabstimmung von Multi-View-Diffusionsmodellen, der mithilfe des neuen DrPose15K-Datensatzes und einer differenzierbaren PoseScore-Belohnung realistische 3D-Menschenrekonstruktionen aus einzelnen Bildern auch bei dynamischen und herausfordernden Posen ermöglicht, ohne teure 3D-Assets zu benötigen.

Seunguk Do, Minwoo Huh, Joonghyuk Shin + 1 more2026-03-04💻 cs

← Zurück Weiter →