cs.CV Arbeiten | Gist.Science

MC-INR: Efficient Encoding of Multivariate Scientific Simulation Data using Meta-Learning and Clustered Implicit Neural Representations

Der vorgestellte Ansatz MC-INR überwindet die Einschränkungen bestehender Implicit Neural Representations für multivariate wissenschaftliche Simulationsdaten auf unstrukturierten Gittern durch die Kombination von Meta-Learning, einem dynamischen Re-Clustering-Mechanismus und einer verzweigten Netzarchitektur, um eine effiziente und flexible Kodierung komplexer Strukturen zu ermöglichen.

Hyunsoo Son, Jeonghyun Noh, Suemin Jeon + 2 more2026-03-04🤖 cs.LG

CoBELa: Steering Transparent Generation via Concept Bottlenecks on Energy Landscapes

CoBELa ist ein decoder-freies, energie-basiertes Framework, das transparente Bildgenerierung durch explizite Konzept-Bottlenecks ermöglicht, indem es ein vortrainiertes Generator-Modell ohne Nachtraining steuert und dabei sowohl hohe Bildqualität als auch zuverlässige, zusammensetzbare Konzeptinterventionen erreicht.

Sangwon Kim, Kyoungoh Lee, Jeyoun Dong + 1 more2026-03-04🤖 cs.AI

InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation

Das Paper stellt InstructVLA vor, ein End-to-End-Modell, das durch eine neuartige Vision-Language-Action Instruction Tuning (VLA-IT)-Paradigme die flexible multimodale Reasoning-Fähigkeit großer Sprachmodelle mit präziser robotischer Manipulation verbindet und dabei sowohl in Simulationen als auch in der realen Welt signifikante Verbesserungen gegenüber bestehenden Ansätzen erzielt.

Shuai Yang, Hao Li, Bin Wang + 7 more2026-03-04💻 cs

DMTrack: Spatio-Temporal Multimodal Tracking via Dual-Adapter

Das Paper stellt DMTrack vor, einen effizienten Multimodal-Tracker, der durch eine innovative Dual-Adapter-Architektur mit einem räumlich-zeitlichen Modus-Adapter und einem progressiven komplementären Adapter State-of-the-Art-Ergebnisse bei nur 0,93 Millionen trainierbaren Parametern erzielt.

Weihong Li, Shaohua Dong, Haonan Lu + 3 more2026-03-04🤖 cs.AI

Zero-shot CT Super-Resolution using Diffusion-based 2D Projection Priors and Signed 3D Gaussians

Die Autoren stellen ein neues Zero-Shot-Framework für die CT-Super-Resolution vor, das Diffusionsmodelle zur Verbesserung von 2D-Projektionen mit einer neuartigen Signed 3D-Gaussian-Splatting-Methode kombiniert, um hochauflösende 3D-Bilder aus einzelnen Niedrigauflösungs-Eingaben ohne überwachtes Training zu rekonstruieren.

Jeonghyun Noh, Hyun-Jic Oh, Won-Ki Jeong2026-03-04⚡ eess

MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs

Der Artikel stellt MMTok vor, eine effiziente Methode zur Beschleunigung von Vision-Language-Modellen, die durch die gleichzeitige Maximierung der Abdeckung von Bild- und Text-Token die Anzahl der Vision-Token reduziert und dabei die Leistungsfähigkeit der Modelle weitgehend erhält.

Sixun Dong, Juhua Hu, Mian Zhang + 3 more2026-03-04💻 cs

ConEQsA: Concurrent and Asynchronous Embodied Questions Scheduling and Answering

Diese Arbeit stellt ConEQsA vor, ein agentic Framework für die gleichzeitige und asynchrone Beantwortung von Fragen in einer physischen Umgebung, das durch eine gemeinsame Gruppenmemorie und eine dringlichkeitsbasierte Planung die Effizienz steigert und durch den neuen CAEQs-Benchmark sowie entsprechende Metriken fair evaluiert wird.

Haisheng Wang, Dong Liu, Weiming Zhi2026-03-04🤖 cs.AI

Are VLMs Ready for Lane Topology Awareness in Autonomous Driving?

Diese Arbeit stellt fest, dass Vision-Language-Modelle trotz ihrer Fortschritte im multimodalen Reasoning für das autonome Fahren noch nicht bereit sind, da ihnen die räumliche Topologie-Erkenntnis als fundamentale Barriere fehlt, wobei die Leistung zwar mit Modellgröße und Reasoning-Tokens korreliert, aber insbesondere bei offenen Modellen und komplexen räumlichen Fragen unzureichend bleibt.

Xin Chen, Jia He, Maozheng Li + 5 more2026-03-04💻 cs

SiNGER: A Clearer Voice Distills Vision Transformers Further

Das Paper stellt SiNGER vor, einen neuartigen Wissensdistillationsrahmen, der durch eine nullraumgesteuerte Perturbation in Kombination mit einem LoRA-basierten Adapter Artefakte in Vision-Transformern unterdrückt, während informative Signale erhalten bleiben, was zu überlegenen Schülermodellen und klareren Repräsentationen führt.

Geunhyeok Yu, Sunjae Jeong, Yoonyoung Choi + 2 more2026-03-04🤖 cs.AI

Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents

Die Arbeit stellt Earth-Agent vor, ein bahnbrechendes Agenten-Framework, das erstmals RGB- und spektrale Erdbeobachtungsdaten in einer MCP-basierten Tool-Umgebung vereint, um komplexe, mehrstufige wissenschaftliche Analysen zu ermöglichen, und ergänzt dies durch den umfassenden Benchmark Earth-Bench zur systematischen Evaluierung.

Peilin Feng, Zhutao Lv, Junyan Ye + 8 more2026-03-04💻 cs

PROFusion: Robust and Accurate Dense Reconstruction via Camera Pose Regression and Optimization

Das Paper stellt PROFusion vor, ein Echtzeit-System zur robusten und präzisen dichten 3D-Rekonstruktion bei instabilen Kamerabewegungen, das durch die Kombination eines lernbasierten Pose-Regressionsnetzwerks für die Initialisierung und einer anschließenden optimierungsbasierten Verfeinerung die Stärken beider Ansätze vereint.

Siyan Dong, Zijun Wang, Lulu Cai + 2 more2026-03-04💻 cs

Proxy-GS: Unified Occlusion Priors for Training and Inference in Structured 3D Gaussian Splatting

Die Arbeit stellt Proxy-GS vor, eine Methode, die ein schnelles Proxy-System nutzt, um Okklusionsbewusstsein in das Training und Rendering von 3D-Gaussian-Splatting zu integrieren, wodurch sowohl die Wiedergabequalität in stark verdeckten Szenen verbessert als auch die Rendering-Geschwindigkeit im Vergleich zu bestehenden Ansätzen wie Octree-GS signifikant gesteigert wird.

Yuanyuan Gao, Yuning Gong, Yifei Liu + 6 more2026-03-04💻 cs

EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model

Das Paper stellt EchoGen vor, ein bahnbrechendes Feed-Forward-Framework, das auf Visual Auto-Regressive (VAR)-Modellen basiert und durch eine innovative Dual-Pfad-Injektionsstrategie eine effiziente, hochqualitative und kontrollierbare generative Erzeugung von visuellen Echos beliebiger Subjekte in beliebigen Szenen ermöglicht.

Ruixiao Dong, Zhendong Wang, Keli Liu + 5 more2026-03-04💻 cs

TTT3R: 3D Reconstruction as Test-Time Training

Die Arbeit stellt TTT3R vor, eine trainingsfreie Testzeit-Trainingsmethode, die durch eine geschlossene Lernrate für Speicherupdates die Generalisierungsfähigkeit von rekurrenten 3D-Rekonstruktionsmodellen auf lange Sequenzen erheblich verbessert und dabei hohe Effizienz bei geringer Rechenleistung gewährleistet.

Xingyu Chen, Yue Chen, Yuliang Xiu + 2 more2026-03-04💻 cs

BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

BindWeave ist ein neuartiges Framework, das mittels der Integration eines vortrainierten multimodalen Sprachmodells mit einem Diffusions-Transformer komplexe Prompt-Semantik in konkrete visuelle Subjekte übersetzt, um konsistente und hochauflösende Videos mit mehreren Akteuren zu generieren.

Zhaoyang Li, Dongjun Qian, Kai Su + 6 more2026-03-04💻 cs

Arbitrary Generative Video Interpolation

Die Arbeit stellt ArbInterp vor, ein neuartiges generatives Framework zur Video-Framinterpolation, das dank einer timestamp-bewussten Rotationspositionseingebettung (TaRoPE) und einer segmentweisen Zerlegung mit entkoppelter Konditionierung die flexible Synthese von Zwischenbildern zu beliebigen Zeitpunkten und in beliebigen Längen ermöglicht und dabei die bisherigen Methoden in Bezug auf Bildqualität und räumlich-zeitliche Kohärenz übertrifft.

Guozhen Zhang, Haiguang Wang, Chunyu Wang + 3 more2026-03-04💻 cs

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

Die Arbeit stellt D2E vor, ein Framework, das durch die Vorverarbeitung von skalierbaren Desktop- und Spieldaten auf einem 1-Milliarden-Parameter-Modell eine effiziente Übertragung sensorischer Fähigkeiten auf physische Roboter ermöglicht und dabei die Leistung deutlich größerer Modelle in Manipulations- und Navigationsaufgaben erreicht.

Suhwan Choi, Jaeyoon Jung, Haebin Seong + 7 more2026-03-04🤖 cs.AI

Human3R: Everyone Everywhere All at Once

Human3R ist ein einheitliches, feed-forward Framework, das aus zufällig aufgenommenen monokularen Videos in einem einzigen Vorwärtsschritt gleichzeitig globale Mehrpersonen-SMPL-X-Körper, dichte 3D-Szenen und Kameratrajektorien rekonstruiert und dabei auf iterative Verfeinerung sowie schwere Vorverarbeitung verzichtet.

Yue Chen, Xingyu Chen, Yuxuan Xue + 3 more2026-03-04💻 cs

MIRAGE: Runtime Scheduling for Multi-Vector Image Retrieval with Hierarchical Decomposition

Das MIRAGE-Framework optimiert die Bildwiedergewinnung für multimodale LLMs durch eine hierarchische Zerlegung, die die Genauigkeit erhöht und die Rechenkosten durch Reduzierung redundanter Berechnungen um das 3,5-fache senkt.

Maoliang Li, Ke Li, Yaoyang Liu + 5 more2026-03-04💻 cs

Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment

Diese Arbeit zeigt, dass Reinforcement-Learning-basierte Bildqualitätsmodelle Generalisierung durch die Umwandlung visueller Merkmale in kompakte Textrepräsentationen erreichen, und stellt darauf aufbauend RALI vor, ein effizientes Verfahren, das diese generalisierbaren Repräsentationen direkt mittels kontrastivem Lernen nutzt, um die Inferenzkosten drastisch zu senken, ohne auf komplexe Schlussfolgerungsprozesse oder große Sprachmodelle angewiesen zu sein.

Shijie Zhao, Xuanyu Zhang, Weiqi Li + 4 more2026-03-04💻 cs

← Zurück Weiter →