cs Arbeiten | Gist.Science

MoE-GS: Mixture of Experts for Dynamic Gaussian Splatting

Die Arbeit stellt MoE-GS vor, ein neuartiges Framework für die dynamische 3D-Gaussian-Splatting-Rekonstruktion, das durch einen volumenbewussten Pixel-Router mehrere spezialisierte Experten kombiniert, um die Qualität der Novel-View-Synthese zu verbessern und gleichzeitig durch Pruning sowie Destillationstechniken die Effizienz zu steigern.

In-Hwan Jin, Hyeongju Mun, Joonsoo Kim, Kugjin Yun, Kyeongbo Kong2026-03-10💻 cs

Next Generation Cloud-native In-Memory Stores: From Redis to Valkey and Beyond

Diese Studie bewertet die Leistung, Effizienz und langfristige Tragfähigkeit moderner Cloud-nativer In-Memory-Speicher wie Valkey, KeyDB und Garnet im Vergleich zu Redis durch experimentelle Benchmarks in Kubernetes-Umgebungen.

Carl-Johan Fauvelle Munck af Rosensch"old, Feras M. Awaysheh, Ahmad Awad2026-03-10💻 cs

Human-Centered LLM-Agent System for Detecting Anomalous Digital Asset Transactions

Das Paper stellt HCLA vor, ein menschenzentriertes Multi-Agenten-System, das durch die Trennung von Evidenzbewertung und expertenähnlicher Begründung die Interpretierbarkeit und Rechenschaftspflicht bei der Erkennung anomaler Transaktionen digitaler Vermögenswerte verbessert, indem es algorithmische Befunde mit regulatorischen Urteilen in Einklang bringt.

Gyuyeon Na, Minjung Park, Hyeonjeong Cha, Sangmi Chai2026-03-10💻 cs

AnyPcc: Compressing Any Point Cloud with a Single Universal Model

Die Arbeit stellt AnyPcc vor, ein universelles Framework zur Komprimierung von Punktwolken, das durch ein robustes universelles Kontextmodell und eine instanzadaptive Feinabstimmung (IAFT) die Generalisierungsfähigkeit über verschiedene Datensätze hinweg verbessert und dabei einen neuen State-of-the-Art bei gleichzeitig geringer Komplexität erreicht.

Kangli Wang, Qianxi Yi, Yuqi Ye, Shihao Li, Wei Gao2026-03-10💻 cs

Automated Pest Counting in Water Traps through Active Robotic Stirring for Occlusion Handling

Diese Arbeit stellt ein automatisiertes System zur Zählung von Schädlingen in Wasserfallen vor, das durch einen robotergesteuerten Rührmechanismus mit adaptiver Geschwindigkeit und optimierten Rührmustern die durch Überlappungen verursachten Zählfehler signifikant reduziert und gleichzeitig die Effizienz im Vergleich zu herkömmlichen statischen Bildanalysen steigert.

Xumin Gao, Mark Stevens, Grzegorz Cielniak2026-03-10💻 cs

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

Die Arbeit stellt CountFormer vor, ein exemplarfreies Framework, das durch den Einsatz des selbstüberwachten Vision-Modells DINOv2 die strukturelle Konsistenz beim Zählen unbekannter Objekte verbessert und zeigt, dass die Qualität der Repräsentation entscheidend für die Leistungsfähigkeit in diesem Bereich ist.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

LagMemo: Language 3D Gaussian Splatting Memory for Multi-modal Open-vocabulary Multi-goal Visual Navigation

Das Paper stellt LagMemo vor, ein Navigationssystem, das eine 3D-Gauß-Splatting-Speichertechnologie mit Sprachdaten nutzt, um effiziente, offene und multimodale Zielsuche in komplexen Umgebungen zu ermöglichen, und wird durch den neu erstellten GOAT-Core-Datensatz rigoros evaluiert.

Haotian Zhou, Xiaole Wang, He Li, Zhuo Qi, Jinrun Yin, Haiyu Kong, Jianghuan Xu, Huijing Zhao2026-03-10💻 cs

SAGE: Structure-Aware Generative Video Transitions between Diverse Clips

Die Arbeit stellt SAGE vor, eine Zero-Shot-Methode für strukturbewusste generative Videoübergänge, die durch die Kombination von struktureller Führung und Generierung nahtlose Übergänge zwischen inhaltlich unterschiedlichen Clips ermöglicht und dabei bestehende Methoden in Quantität und Nutzerakzeptanz übertrifft.

Mia Kan, Yilin Liu, Niloy Mitra2026-03-10💻 cs

MobiDock: Design and Control of A Modular Self Reconfigurable Bimanual Mobile Manipulator via Robotic Docking

Die Studie stellt MobiDock vor, ein modulares, selbstrekonfigurierbares bimanuelles mobiles Manipulatorsystem, das durch eine autonome visuelle Docking-Strategie und einen neuen Gewindeschrauben-Verschluss zwei Roboter zu einer stabilen Einheit verbindet, wodurch die Koordination vereinfacht und die dynamische Stabilität sowie die Effizienz bei komplexen Aufgaben im Vergleich zu unabhängig kooperierenden Robotern signifikant verbessert werden.

Xuan-Thuan Nguyen, Khac Nam Nguyen, Ngoc Duy Tran, Thi Thoa Mac, Anh Nguyen, Hoang Hiep Ly, Tung D. Ta2026-03-10💻 cs

Vectorized Online POMDP Planning

Das Paper stellt VOPP vor, einen vektorisierten Online-POMDP-Planer, der durch die Umwandlung aller Planungsdatenstrukturen in Tensoren und die vollständige Vektorisierung der Berechnungen massive Parallelisierung ohne Synchronisationsengpässe ermöglicht und damit sowohl effizientere Lösungen als auch eine um den Faktor 1000 reduzierte Planungsbudget-Nutzung im Vergleich zu bestehenden Solvern erreicht.

Marcus Hoerger, Muhammad Sudrajat, Hanna Kurniawati2026-03-10💻 cs

Detecting AI-Generated Images via Diffusion Snap-Back Reconstruction: A Forensic Approach

Die vorgestellte Arbeit schlägt einen forensischen Ansatz zur Erkennung von KI-generierten Bildern vor, der auf der Analyse des „Diffusion Snap-Back"-Verhaltens basiert, bei dem die Rekonstruktion eines Bildes durch ein Diffusionsmodell genutzt wird, um mit einer hohen Genauigkeit von 0,993 AUROC zwischen echten und synthetischen Bildern zu unterscheiden.

Mohd Ruhul Ameen, Akif Islam2026-03-10💻 cs

PhantomFetch: Obfuscating Loads against Prefetcher Side-Channel Attacks

Die Arbeit stellt PhantomFetch vor, eine hardwareunabhängige und prefetcher-erhaltende Verteidigungsmethode, die durch Verschlüsselung der sensiblen Ladeeffekte Side-Channel-Angriffe über IP-Stride-Prefetcher mit vernachlässigbarem Overhead verhindert.

Xingzhi Zhang, Buyi Lv, Yimin Lu, Kai Bu2026-03-10💻 cs

MUGSQA: Novel Multi-Uncertainty-Based Gaussian Splatting Quality Assessment Method, Dataset, and Benchmarks

Die Arbeit stellt MUGSQA vor, eine neue Methode zur subjektiven Qualitätsbewertung von Gaussian Splatting-Rekonstruktionen, die auf multiplen Unsicherheiten basiert und ein entsprechendes Datenset sowie Benchmarks zur Evaluierung von Rekonstruktionsmethoden und Qualitätsmetriken bereitstellt.

Tianang Chen, Jian Jin, Shilv Cai, Zhuangzi Li, Weisi Lin2026-03-10💻 cs

Counting Through Occlusion: Framework for Open World Amodal Counting

Die Arbeit stellt CountOCC vor, ein Framework für das amodale Zählen in offenen Umgebungen, das durch hierarchische multimodale Führung und einen visuellen Äquivalenz-Objektiv die durch Verdeckung verursachten Fehlerzustände überwindet und damit neue State-of-the-Art-Ergebnisse auf verdeckungsreichen Datensätzen erzielt.

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs

Think, Speak, Decide: Language-Augmented Multi-Agent Reinforcement Learning for Economic Decision-Making

Das Paper stellt LAMP vor, ein Framework für sprachaugmentiertes Multi-Agenten-Reinforcement-Learning, das durch eine „Denken-Sprechen-Entscheiden"-Pipeline numerische Daten mit sprachlicher Analyse verbindet und in Wirtschaftssimulationen signifikant bessere Ergebnisse als herkömmliche MARL- oder reine LLM-Ansätze erzielt.

Heyang Ma, Qirui Mi, Qipeng Yang, Zijun Fan, Bo Li, Haifeng Zhang2026-03-10💻 cs

Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning

Der Artikel stellt Video2Layout vor, ein Framework, das mithilfe von kontinuierlichen Objektgrenzkoordinaten und einem zweistufigen Feinabstimmungsprozess metrisch fundierte räumliche Layouts aus Videos rekonstruiert, um die Fähigkeiten von Multimodalen Large Language Models zur räumlichen推理 im Vergleich zu diskretisierten Gitterkarten signifikant zu verbessern.

Yibin Huang, Wang Xu, Wanyue Zhang, Helu Zhi, Jingjing Huang, Yangbin Xu, Yangang Sun, Conghui Zhu, Tiejun Zhao2026-03-10💻 cs

Multi-Order Matching Network for Alignment-Free Depth Super-Resolution

Diese Arbeit stellt das Multi-Order Matching Network (MOMNet) vor, ein neuartiges, ausrichtungsunabhängiges Framework, das durch eine mehrstufige Abgleich- und Aggregationsstrategie robuste und präzise Tiefen-Super-Resolution auch bei fehlender räumlicher Abstimmung zwischen RGB- und Tiefendaten ermöglicht.

Zhengxue Wang, Zhiqiang Yan, Yuan Wu, Guangwei Gao, Xiang Li, Jian Yang2026-03-10💻 cs

Learning to Think Fast and Slow for Visual Language Models

Die Arbeit stellt DualMindVLM vor, ein visuelles Sprachmodell, das durch eine adaptive Dual-System-Architektur und GRPO-basiertes Training die natürliche Tendenz von Modellen zu unterschiedlich langen Antworten nutzt, um bei komplexen Aufgaben tiefgründiges Nachdenken mit effizienten, schnellen Reaktionen bei einfachen Fragen zu verbinden und dabei sowohl die Leistung als auch die Token-Effizienz zu maximieren.

Chenyu Lin, Cheng Chi, Jinlin Wu, Sharon Li, Kaiyang Zhou2026-03-10💻 cs

Radiative-Structured Neural Operator for Continuous and Extrapolative Spectral Super-Resolution

Die vorgestellte Arbeit stellt den Radiative-Structured Neural Operator (RSNO) vor, einen neuartigen Ansatz zur kontinuierlichen spektralen Super-Auflösung, der physikalische Strahlungsprinzipien und eine mehrstufige Architektur nutzt, um realistischere hyperspektrale Bilder aus multispektralen Beobachtungen zu rekonstruieren und dabei Farbverzerrungen zu minimieren.

Ziye Zhang, Bin Pan, Zhenwei Shi2026-03-10💻 cs

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

Der Artikel stellt UnfoldLDM vor, ein Deep-Unfolding-Framework, das durch die Integration eines latenten Diffusionsmodells und spezieller Module zur Schätzung von Degradationen sowie zur Wiederherstellung von Hochfrequenzdetails Blind Image Restoration verbessert.

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

← Zurück Weiter →