cs.CV Arbeiten | Gist.Science

Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering

Die vorgestellte Arbeit stellt einen trainingsfreien, Inferenzzeit-Steuerungsansatz namens Semantically Decoupled Latent Steering (SDLS) vor, der durch semantisch entkoppelte, orthogonale Vektoren Halluzinationen bei der automatisierten Generierung von Röntgenbefunden effektiv unterdrückt, ohne dabei die klinische Genauigkeit zu beeinträchtigen.

Ao Li, Rui Liu, Mingjie Li + 6 more2026-03-02💻 cs

Vision-Language Semantic Grounding for Multi-Domain Crop-Weed Segmentation

Das Paper stellt VL-WS vor, ein neuartiges Vision-Language-Framework, das durch die semantische Verankerung von CLIP-Embeddings und sprachgesteuerten Modulationsschichten eine robuste und generalisierbare Segmentierung von Kulturpflanzen und Unkräutern über verschiedene landwirtschaftliche Domänen hinweg ermöglicht.

Nazia Hossain, Xintong Jiang, Yu Tian + 3 more2026-03-02💻 cs

Any Model, Any Place, Any Time: Get Remote Sensing Foundation Model Embeddings On Demand

Das Paper stellt rs-embed vor, eine Python-Bibliothek, die durch eine einheitliche, ROI-zentrierte Schnittstelle die einfache und effiziente Abrufung von Embeddings beliebiger Fernerkundungs-Grundmodelle für beliebige geografische Standorte und Zeiträume ermöglicht.

Dingqi Ye, Daniel Kiv, Wei Hu + 2 more2026-03-02🤖 cs.LG

HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

Das Paper stellt HiDrop vor, ein Framework für Multimodale Large Language Models, das durch späte Injektion visueller Tokens, konvexe Pyramiden-Pruning mit Early-Exit-Mechanismus und weitere Optimierungen etwa 90 % der visuellen Tokens reduziert und dabei die Leistung beibehält sowie das Training um das 1,72-fache beschleunigt.

Hao Wu, Yingqi Fan, Jinyang Dai + 3 more2026-03-02💬 cs.CL

A Reliable Indoor Navigation System for Humans Using AR-based Technique

Diese Arbeit stellt ein zuverlässiges Indoor-Navigationssystem für Menschen vor, das Augmented Reality mit Vuforia Area Target, NavMesh und dem A*-Algorithmus kombiniert, um eine präzisere, effizientere und benutzerfreundlichere Wegführung in Innenräumen im Vergleich zu herkömmlichen Methoden zu ermöglichen.

Vijay U. Rathod, Manav S. Sharma, Shambhavi Verma + 3 more2026-03-02💻 cs

EgoGraph: Temporal Knowledge Graph for Egocentric Video Understanding

Das Paper stellt EgoGraph vor, ein training-freies Framework zur Konstruktion dynamischer Wissensgraphen, das durch die explizite Kodierung langfristiger, entitätsübergreifender Abhängigkeiten in ultra-langen Egocentric-Videos einen neuen State-of-the-Art für das Verständnis und die Beantwortung von Fragen über solche Sequenzen erreicht.

Shitong Sun, Ke Han, Yukai Huang + 2 more2026-03-02💻 cs

Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities?

Die Studie stellt fest, dass einheitliche multimodale Sprachmodelle zwar über starke textbasierte Schlussfolgerungs- und Bildgenerierungsfähigkeiten verfügen, jedoch an einer signifikanten semantischen Inkonsistenz leiden, wenn sie komplexe Fragen direkt in visuelle Antworten umsetzen müssen, was auf eine mangelnde semantische Ausrichtung zwischen den Modalitäten und nicht auf eine generative Unzulänglichkeit hinweist.

Hongbo Jiang, Jie Li, Yunhang Shen + 4 more2026-03-02💻 cs

StemVLA:An Open-Source Vision-Language-Action Model with Future 3D Spatial Geometry Knowledge and 4D Historical Representation

Die Arbeit stellt StemVLA vor, ein Open-Source-Vision-Language-Action-Modell, das durch die explizite Integration zukünftiger 3D-Raumgeometrie und historischer 4D-Spatiotemporal-Darstellungen die räumliche Schlussfolgerung und langfristige Entscheidungsfindung bei Robotermanipulationsaufgaben verbessert und damit neue Maßstäbe auf dem CALVIN ABC-D-Benchmark setzt.

Jiasong Xiao, Yutao She, Kai Li + 3 more2026-03-02💻 cs

A Difference-in-Difference Approach to Detecting AI-Generated Images

Die Autoren stellen eine neuartige Differenz-der-Differenzen-Methode vor, die durch die Berechnung der Varianz des Rekonstruktionsfehlers (eine zweite Differenz) anstelle des Rekonstruktionsfehlers selbst die Erkennung von KI-generierten Bildern trotz deren zunehmender Ähnlichkeit zu realen Bildern deutlich verbessert.

Xinyi Qi, Kai Ye, Chengchun Shi + 3 more2026-03-02💻 cs

UTPTrack: Towards Simple and Unified Token Pruning for Visual Tracking

Die Arbeit stellt UTPTrack vor, ein einheitliches Framework zur Token-Pruning, das erstmals alle Komponenten eines One-Stream-Trackers gemeinsam komprimiert und dabei durch eine aufmerksamkeitsgesteuerte Strategie sowohl die Recheneffizienz als auch die Genauigkeit in RGB- und multimodalen Szenarien signifikant verbessert.

Hao Wu, Xudong Wang, Jialiang Zhang + 5 more2026-03-02💬 cs.CL

U-Mind: A Unified Framework for Real-Time Multimodal Interaction with Audiovisual Generation

Das Paper stellt U-Mind vor, ein einheitliches Framework für intelligente, Echtzeit-Multimodal-Interaktionen, das durch eine neuartige Ausrichtungs- und Denkstrategie sowie eine textbasierte Inferenzpipeline Sprache, Sprache, Bewegung und Videosynthese in einem einzigen, synchronisierten Kreislauf vereint.

Xiang Deng, Feng Gao, Yong Zhang + 5 more2026-03-02💻 cs

Shape vs. Context: Examining Human--AI Gaps in Ambiguous Japanese Character Recognition

Diese Studie untersucht die Verhaltensunterschiede zwischen Menschen und Vision-Language-Modellen bei der Erkennung mehrdeutiger japanischer Zeichen und zeigt auf, dass sich deren Entscheidungsgrenzen im reinen Formkontext unterscheiden, während der Einbettungskontext die menschliche Übereinstimmung in bestimmten Fällen verbessern kann.

Daichi Haraguchi2026-03-02💻 cs

Unsupervised Causal Prototypical Networks for De-biased Interpretable Dermoscopy Diagnosis

Die Arbeit stellt CausalProto vor, ein unüberwachtes kausales prototypisches Netzwerk, das mithilfe eines strukturellen kausalen Modells und eines Informationsengpasses Umwelteinflüsse von pathologischen Merkmalen entkoppelt, um in der Dermoskopie sowohl eine höhere diagnostische Genauigkeit als auch eine vertrauenswürdige, verzerrungsfreie visuelle Interpretierbarkeit zu erreichen.

Junhao Jia, Yueyi Wu, Huangwei Chen + 4 more2026-03-02⚡ eess

Neural Image Space Tessellation

Die Arbeit stellt NIST vor, einen leichten post-processing-Ansatz, der durch neuronale Bildraum-Tessellation und eine implizite Verformung von Konturen den visuellen Effekt von Tessellation auf Low-Poly-Meshes in Echtzeit erzeugt, ohne die geometrische Komplexität zu erhöhen.

Youyang Du, Junqiu Zhu, Zheng Zeng + 2 more2026-03-02💻 cs

Learning Accurate Segmentation Purely from Self-Supervision

Die Arbeit stellt Selfment vor, ein vollständig selbstüberwachtes Framework, das ohne manuelle Annotationen präzise Objektsegmentierungen durch iterative Patch-Optimierung und kontrastives Lernen erzeugt und dabei neue State-of-the-Art-Ergebnisse auf mehreren Benchmarks sowie eine bemerkenswerte Zero-Shot-Verallgemeinerung auf getarnte Objekte erreicht.

Zuyao You, Zuxuan Wu, Yu-Gang Jiang2026-03-02💻 cs

OPTIAGENT: A Physics-Driven Agentic Framework for Automated Optical Design

Die Arbeit stellt OPTIAGENT vor, ein physikgetriebenes Agenten-Framework, das mittels eines spezialisierten Datensatzes, hybrider Trainingsziele und einer lexikografischen Belohnungsfunktion Large Language Models befähigt, komplexe optische Linsensysteme automatisch und präzise zu entwerfen.

Yuyu Geng, Lei Sun, Yao Gao + 6 more2026-03-02🤖 cs.LG

VideoPulse: Neonatal heart rate and peripheral capillary oxygen saturation (SpO2) estimation from contact free video

Die Studie stellt VideoPulse vor, einen Datensatz und eine End-to-End-Pipeline, die mittels berührungsloser Videobehandlung Herzfrequenz und Sauerstoffsättigung (SpO2) bei Neugeborenen präzise schätzt und so eine kostengünstige, nicht-invasive Überwachung in der Intensivmedizin ermöglicht.

Deependra Dewagiri, Kamesh Anuradha, Pabadhi Liyanage + 6 more2026-03-02⚡ eess

Breaking the Data Barrier: Robust Few-Shot 3D Vessel Segmentation using Foundation Models

Diese Arbeit stellt einen neuartigen Rahmen vor, der einen vortrainierten Vision-Foundation-Modell (DINOv3) mit spezialisierten 3D-Anpassungsmechanismen kombiniert, um bei extrem wenigen Trainingsdaten eine robuste und domänenübergreifende Gefäßsegmentierung zu ermöglichen und dabei den aktuellen Standard nnU-Net signifikant zu übertreffen.

Kirato Yoshihara, Yohei Sugawara, Yuta Tokuoka + 1 more2026-03-02⚡ eess

FluoCLIP: Stain-Aware Focus Quality Assessment in Fluorescence Microscopy

Die Arbeit stellt mit FluoMix das erste Datenset und mit FluoCLIP ein darauf aufbauendes zweistufiges Vision-Language-Framework vor, um die bisher vernachlässigte stäbchenabhängige Fokusqualitätsbewertung in der Fluoreszenzmikroskopie durch eine stäbchenbewusste Modellierung zu ermöglichen.

Hyejin Park, Jiwon Yoon, Sumin Park + 5 more2026-03-02⚡ eess

EMO-R3: Reflective Reinforcement Learning for Emotional Reasoning in Multimodal Large Language Models

Das Paper stellt EMO-R3 vor, ein Framework für reflektives Reinforcement Learning, das durch strukturiertes emotionales Denken und einen reflexiven emotionalen Belohnungsmechanismus die Interpretierbarkeit und emotionale Intelligenz multimodaler Sprachmodelle verbessert.

Yiyang Fang, Wenke Huang, Pei Fu + 5 more2026-03-02🤖 cs.AI

← Zurück Weiter →