cs.CV Arbeiten | Gist.Science

OPGAgent: An Agent for Auditable Dental Panoramic X-ray Interpretation

Die Arbeit stellt OPGAgent vor, ein mehrstufiges Agentensystem mit spezialisierten Werkzeugen und einem Konsensmechanismus, das die interpretierbare und präzise Analyse von dentalen Panoramaröntgenbildern ermöglicht und dabei bestehende Vision-Language-Modelle sowie medizinische Agenten-Frameworks übertrifft.

Zhaolin Yu, Litao Yang, Ben Babicka + 7 more2026-03-03🤖 cs.AI

DreamWorld: Unified World Modeling in Video Generation

Das Paper stellt DreamWorld vor, ein einheitliches Framework für die Videogenerierung, das durch ein gemeinsames Modellierungsparadigma, konsistente Constraint-Annealing und Multi-Source-Inner-Guidance eine kohärente Weltvorstellung mit verbesserter räumlicher, zeitlicher und semantischer Konsistenz erreicht.

Boming Tan, Xiangdong Zhang, Ning Liao + 5 more2026-03-03💻 cs

High Dynamic Range Imaging Based on an Asymmetric Event-SVE Camera System

Die Autoren stellen ein hardware-algorithmisch co-designtes HDR-Bildgebungssystem vor, das eine asymmetrische Kombination aus einem SVE-Mikroabschwächungskamera- und einem Event-Sensor durch ein zweistufiges Ausrichtungsframework und ein fusionierendes Rekonstruktionsnetzwerk nutzt, um in extremen Lichtverhältnissen überbelichtete Bereiche zu rekonstruieren und die Bildqualität gegenüber reinen Einzelmodalitätsansätzen signifikant zu verbessern.

Pengju Sun, Banglei Guan, Jing Tao + 4 more2026-03-03💻 cs

Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols

Die Arbeit stellt mit FEWTRANS ein umfassendes Benchmark und das Hyperparameter-Ensemble-Protokoll vor, um die Few-Shot-Übertragbarkeit vorzutrainierter Modelle rigoros zu evaluieren und dabei zu zeigen, dass einfache Vollparameter-Fine-Tuning-Methoden aufgrund verteilter Mikroanpassungen oft komplexeren Ansätzen überlegen sind.

Xu Luo, Ji Zhang, Lianli Gao + 2 more2026-03-03🤖 cs.LG

U-VLM: Hierarchical Vision Language Modeling for Report Generation

Das Paper stellt U-VLM vor, ein hierarchisches Vision-Language-Modell, das durch progressive Vorverarbeitung von Segmentierungs- zu Klassifikations- und Berichtsaufgaben sowie durch mehrschichtige visuelle Injektion von U-Net-Features in den Sprachdecoder den aktuellen Stand der Technik bei der automatisierten Generierung radiologischer Berichte aus 3D-Bildern übertrifft.

Pengcheng Shi, Minghui Zhang, Kehan Song + 3 more2026-03-03💻 cs

Analyzing Physical Adversarial Example Threats to Machine Learning in Election Systems

Diese Arbeit entwickelt ein probabilistisches Rahmenwerk zur Quantifizierung des Einflusses physischer adversarialer Beispiele auf Wahlergebnisse und zeigt durch umfangreiche Experimente mit 144.000 ausgedruckten Stimmzetteln auf, dass sich die effektivsten Angriffsarten im physischen Bereich von denen im digitalen Bereich unterscheiden.

Khaleque Md Aashiq Kamal, Surya Eada, Aayushi Verma + 4 more2026-03-03🤖 cs.LG

TokenCom: Vision-Language Model for Multimodal and Multitask Token Communications

Das Paper stellt TaiChi vor, ein neuartiges Vision-Language-Model-Framework mit einer dualen Visual-Tokenizer-Architektur, einem bilateralen Aufmerksamkeitsnetzwerk und einem KAN-basierten Projektionsmodul, das die Grenzen bestehender Modelle überwindet und eine effiziente multimodale sowie multitaskige Token-Kommunikation ermöglicht.

Feibo Jiang, Siwei Tu, Li Dong + 5 more2026-03-03🔢 math

RAISE: Requirement-Adaptive Evolutionary Refinement for Training-Free Text-to-Image Alignment

Das Paper stellt RAISE vor, ein trainingsfreies, evolutionäres Framework, das durch anforderungsbasierte adaptive Skalierung und Selbstverbesserung während der Inferenz eine präzise Text-zu-Bild-Ausrichtung bei gleichzeitiger Reduzierung der Rechenkosten erreicht.

Liyao Jiang, Ruichen Chen, Chao Gao + 1 more2026-03-03🤖 cs.AI

Random Wins All: Rethinking Grouping Strategies for Vision Tokens

Die Arbeit stellt fest, dass eine einfache zufällige Gruppierungsstrategie für Vision-Token komplexe, speziell entworfene Methoden übertrifft, sofern vier Schlüsselkriterien wie Positionsinformation und globale Rezeptivfelder erfüllt sind, und demonstriert ihre Wirksamkeit über verschiedene visuelle und multimodale Aufgaben hinweg.

Qihang Fan, Yuang Ai, Huaibo Huang + 1 more2026-03-03💻 cs

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

Der Artikel stellt ArtiFixer vor, eine zweistufige Methode, die ein bidirektionales generatives Modell mit einem neuartigen Opazitäts-Mixing-Strategie trainiert und dieses in ein kausales auto-regressives Modell destilliert, um 3D-Rekonstruktionen durch die effiziente Generierung konsistenter neuer Ansichten zu verbessern und Artefakte in nicht beobachteten Bereichen zu beheben.

Riccardo de Lutio, Tobias Fischer, Yen-Yu Chang + 7 more2026-03-03🤖 cs.LG

COG: Confidence-aware Optimal Geometric Correspondence for Unsupervised Single-reference Novel Object Pose Estimation

Das Paper stellt COG vor, ein unüberwachtes Framework, das durch die Formulierung der Korrespondenzschätzung als konfidenzbewusstes Optimal-Transport-Problem robuste 6DoF-Pose-Schätzungen für neue Objekte aus einer einzigen Referenzansicht ermöglicht und dabei visuelle Grundmodelle zur Regularisierung nutzt.

Yuchen Che, Jingtu Wu, Hao Zheng + 1 more2026-03-03💻 cs

M $^2$ : Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval

Die Arbeit stellt M² vor, ein trainingsfreies, dual-memorisches Framework, das durch dynamische Trajektorienzusammenfassung und Wissensabruf die Effizienz und Erfolgsrate von multimodalen Web-Agenten bei langfristigen Aufgaben erheblich steigert.

Dawei Yan, Haokui Zhang, Guangda Huzhang + 8 more2026-03-03💻 cs

Hierarchical Classification for Improved Histopathology Image Analysis

Die Studie stellt HiClass vor, ein hierarchisches Klassifizierungsframework für die Histopathologie, das durch bidirektionale Feature-Integration und maßgeschneiderte Verlustfunktionen die diagnostische Genauigkeit bei der Analyse von Ganzschnittbildern verbessert, indem es sowohl grobe als auch feine Klassenbeziehungen nutzt.

Keunho Byeon, Jinsol Song, Seong Min Hong + 2 more2026-03-03💻 cs

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

Diese Studie stellt mit dem Werkzeug EmbedLens fest, dass Multimodale Large Language Models (MLLMs) eine ausgeprägte semantische Spärlichkeit aufweisen, bei der nur etwa 60 % der visuellen Tokens („alive") relevante Bildinformationen tragen, wodurch die meisten internen visuellen Berechnungen als redundant entlarvt werden und eine effizientere Architektur durch Token-Pruning sowie die direkte Injektion in mittlere LLM-Schichten ermöglicht wird.

Yingqi Fan, Junlong Tong, Anhao Zhao + 1 more2026-03-03🤖 cs.AI

Multimodal Adaptive Retrieval Augmented Generation through Internal Representation Learning

Die Arbeit stellt MMA-RAG vor, ein multimodales System, das durch die Analyse interner Repräsentationen dynamisch entscheidet, wann externe Wissensabrufe zur Reduzierung von Halluzinationen in der Visual Question Answering integriert werden sollten, und dadurch die Antwortgenauigkeit auf mehreren Datensätzen signifikant verbessert.

Ruoshuang Du, Xin Sun, Qiang Liu + 4 more2026-03-03🤖 cs.LG

MLLM-4D: Towards Visual-based Spatial-Temporal Intelligence

Die Arbeit stellt MLLM-4D vor, ein Framework, das durch eine kosteneffiziente Datenerstellung und eine spezielle Nachtrainierungsstrategie mit GRPO und räumlich-zeitlichem Chain-of-Thought die Fähigkeit multimodaler Großsprachenmodelle verbessert, 3D-Räume über die Zeit ausschließlich aus 2D-RGB-Bildern zu verstehen und zu schlussfolgern.

Xingyilang Yin, Chengzhengxu Li, Jiahao Chang + 2 more2026-03-03💻 cs

Vision-TTT: Efficient and Expressive Visual Representation Learning with Test-Time Training

Das Paper stellt Vision-TTT vor, eine effiziente und ausdrucksstarke visuelle Repräsentationsmethode, die Test-Time Training mit bidirektionalen Scans und Conv2d-Modulen kombiniert, um die quadratische Komplexität von Vision Transformern zu überwinden und dabei auf ImageNet hohe Genauigkeit bei deutlich reduziertem Rechenaufwand und Speicherbedarf zu erreichen.

Quan Kong, Yanru Xiao, Yuhao Shen + 1 more2026-03-03💻 cs

Jano: Adaptive Diffusion Generation with Early-stage Convergence Awareness

Das Paper stellt Jano vor, ein training-freies Framework für Diffusionsmodelle, das durch die Erkennung heterogener Konvergenzmuster in frühen Denoising-Schritten und eine adaptive Token-Scheduling-Strategie die Recheneffizienz um das 2- bis 2,4-fache steigert, ohne die Generierungsqualität zu beeinträchtigen.

Yuyang Chen, Linqian Zeng, Yijin ZHou + 2 more2026-03-03💻 cs

Mesh-Pro: Asynchronous Advantage-guided Ranking Preference Optimization for Artist-style Quadrilateral Mesh Generation

Die Arbeit stellt Mesh-Pro vor, ein asynchrones Reinforcement-Learning-Framework mit einem neuartigen ARPO-Algorithmus und einer diagonalbewussten Tokenisierung, das die Trainingsgeschwindigkeit und die Generierungsqualität von künstlerischen quadratischen Meshes im Vergleich zu bestehenden Methoden signifikant verbessert.

Zhen Zhou, Jian Liu, Biwen Lei + 10 more2026-03-03💻 cs

TP-Spikformer: Token Pruned Spiking Transformer

Die Arbeit stellt TP-Spikformer vor, eine effiziente Token-Pruning-Methode für Spiking Transformer, die durch ein heuristisches Kriterium zur Erhaltung räumlich-zeitlicher Informationen und eine Block-Level-Frühstopstrategie den Rechen- und Speicherbedarf reduziert, ohne die Genauigkeit zu beeinträchtigen und dabei trainingsfrei funktioniert.

Wenjie Wei, Xiaolong Zhou, Malu Zhang + 8 more2026-03-03💻 cs

← Zurück Weiter →

cs.CV