cs Arbeiten | Gist.Science

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Die Arbeit stellt InternVL-U vor, ein leichtgewichtiges 4-Milliarden-Parameter-Modell, das durch eine modulare Architektur und eine datengetriebene Synthesepipeline Verständnis, Schlussfolgerung, Generierung und Bearbeitung in einem einheitlichen Rahmen vereint und dabei trotz seiner geringen Größe leistungsstärkere Basismodelle mit über 14 Milliarden Parametern in verschiedenen Aufgaben übertrifft.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Die Arbeit stellt DISPLAY vor, ein Framework zur Erzeugung von kontrollierbaren und physikalisch konsistenten Videos menschlicher Objektinteraktionen, das durch eine spärliche Bewegungssteuerung mittels Handgelenkskoordinaten und einem objektabstrakten Bounding-Box-Rahmen sowie durch einen objektfokussierten Aufmerksamkeitsmechanismus und ein Multi-Task-Auxiliary-Training für verbesserte Robustheit und Generalisierung sorgt.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Robust Cooperative Localization in Featureless Environments: A Comparative Study of DCL, StCL, CCL, CI, and Standard-CL

Diese Arbeit vergleicht fünf kooperative Lokalisierungsmethoden in featurelosen Umgebungen und zeigt, dass Covariance Intersection (CI) den besten Kompromiss zwischen Genauigkeit und Konsistenz bietet, während sequenzielle Ansätze zwar präzise, aber für sicherheitskritische Anwendungen ungeeignet sind.

Nivand Khosravi, Meysam Basiri, Rodrigo Ventura2026-03-11💻 cs

Overview of the TREC 2025 Retrieval Augmented Generation (RAG) Track

Der TREC 2025 RAG-Wettbewerb fördert die Entwicklung vertrauenswürdiger Systeme, die Abruf und Generierung integrieren, indem er komplexe, narrative Suchanfragen stellt und ein mehrstufiges Evaluierungsframework zur Sicherstellung von Relevanz, Vollständigkeit und faktischer Fundierung einsetzt.

Shivani Upadhyay, Nandan Thakur, Ronak Pradeep, Nick Craswell, Daniel Campos, Jimmy Lin2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Die Autoren stellen mit CourtSI und dem zugehörigen Benchmark CourtSI-Bench das erste groß angelegte Datenset und Evaluierungsframework vor, das speziell darauf ausgelegt ist, die räumliche Intelligenz von Vision-Language-Modellen in dynamischen Sport-Szenarien zu testen und zu verbessern, wobei Fine-Tuning auf diesem Datensatz zu signifikanten Leistungssteigerungen führt.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

The 802.11 MAC protocol leads to inefficient equilibria

Die Studie zeigt, dass das 802.11-MAC-Protokoll in nicht-kooperativen Umgebungen zu ineffizienten Nash-Gleichgewichten führt, während ein idealisiertes Protokoll durch die Entkopplung der Ressourcenallokation von den Übertragungsstrategien höhere Durchsätze für alle Knoten ermöglicht.

Godfrey Tan, John Guttag2026-03-11💻 cs

Role Classification of Hosts within Enterprise Networks Based on Connection Patterns

Diese Arbeit definiert das Problem der Rollenklassifizierung von Hosts in Unternehmensnetzwerken und stellt zwei praktische Algorithmen vor, die Hosts basierend auf Verbindungsmustern gruppieren, um die Netzwerkstruktur zu vereinfachen und die Verwaltung sowie Überwachung zu verbessern.

Godfrey Tan, Massimiliano Poletto, John Guttag, Frans Kaashoek2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

Das Paper stellt WikiCLIP vor, einen effizienten kontrastiven Rahmen für die offene visuelle Entitätserkennung, der durch den Einsatz von LLM-Embeddings, einem Vision-Guided Knowledge Adaptor und einer Hard-Negative-Synthese eine signifikante Leistungssteigerung bei gleichzeitig drastisch reduzierter Inferenzlatenz im Vergleich zu generativen Modellen erzielt.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

Die Arbeit zeigt, dass die direkte Optimierung des Chamfer-Abstands in der 3D-Formoptimierung aufgrund eines strukturellen Gradientenproblems zum Kollaps führt, der nur durch nicht-lokale Kopplung, wie sie durch geteilte Basisdeformationen oder einen differentiable MPM-Prior bereitgestellt wird, wirksam verhindert werden kann.

Chang-Yong Song, David Hyde2026-03-11💻 cs

How to Write to SSDs

Diese Arbeit zeigt, dass der Wechsel von In-Place- zu Out-of-Place-Schreiboperationen in Datenbank-Systemen wie LeanStore die SSD-Leistung erheblich steigert, die Schreibverstärkung drastisch reduziert und die Unterstützung moderner SSD-Schnittstellen wie ZNS ermöglicht.

Bohyun Lee, Tobias Ziegler, Viktor Leis2026-03-11💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Die vorgestellte Arbeit verbessert die Text-Bewegungs-Rückgewinnung durch eine interpretierbare, joint-basierte Darstellung als Pseudo-Bild und einen Token-Patch-Late-Interaction-Mechanismus, der feingranulare Korrespondenzen ermöglicht und den aktuellen Stand der Technik auf HumanML3D und KIT-ML übertrifft.

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao2026-03-11💻 cs

Unsupervised Domain Adaptation with Target-Only Margin Disparity Discrepancy

Die Arbeit stellt einen neuartigen Ansatz für das unüberwachte Domänen-Adaptionslernen vor, der auf einer reformulierten Margin-Disparity-Discrepancy-Methode basiert, um die Segmentierung der Leber in interventionalen CBCT-Bildern durch die Nutzung annotierter CT-Daten zu verbessern und dabei den Mangel an annotierten CBCT-Daten zu überwinden.

Gauthier Miralles, Loïc Le Folgoc, Vincent Jugnon, Pietro Gori2026-03-11💻 cs

A Voronoi Cell Formulation for Principled Token Pruning in Late-Interaction Retrieval Models

Diese Arbeit stellt ein neuartiges Framework vor, das die Token-Pruning in Late-Interaction-Retrieval-Modellen durch die Interpretation als Voronoi-Zellenschätzung im Einbettungsraum formal fundiert, um den Indexspeicherbedarf signifikant zu senken, ohne die Suchqualität zu beeinträchtigen.

Yash Kankanampati, Yuxuan Zong, Nadi Tomeh, Benjamin Piwowarksi, Joseph Le Roux2026-03-11💻 cs

Leveraging whole slide difficulty in Multiple Instance Learning to improve prostate cancer grading

Diese Arbeit führt das Konzept der „Whole Slide Difficulty" (WSD) ein, das auf der Meinungsverschiedenheit zwischen Experten und Nicht-Experten basiert, und zeigt, dass die Integration dieser Schwierigkeitsmetrik in Multi-Instance-Learning-Modelle die Genauigkeit der Prostatakrebs-Grading insbesondere bei höheren Gleason-Graden verbessert.

Marie Arrivat, Rémy Peyret, Elsa Angelini, Pietro Gori2026-03-11💻 cs

Kinodynamic Motion Retargeting for Humanoid Locomotion via Multi-Contact Whole-Body Trajectory Optimization

Die Arbeit stellt KDMR vor, ein neuartiges Framework für die kinodynamische Bewegungsnachbildung bei humanoiden Robotern, das durch die Formulierung als multi-kontaktbasierte Ganzkörper-Trajektorienoptimierung physikalisch konsistente und dynamisch machbare Bewegungsabläufe erzeugt, die rein kinematischen Methoden überlegen sind und die Effizienz sowie Stabilität nachgelagerter Lernstrategien signifikant verbessern.

Xiaoyu Zhang, Steven Haener, Varun Madabushi, Maegan Tucker2026-03-11💻 cs

Tetris is Hard with Just One Piece Type

Diese Arbeit widerlegt eine 23 Jahre alte Vermutung, indem sie die NP-Härte des Tetris-Clairings und des Überlebens für fast alle Tetromino-Typen unter dem Standard-Rotationssystem nachweist, während sie gleichzeitig polynomielle Algorithmen für Domino- und $1\times k$-Steine liefert.

MIT Hardness Group, Josh Brunner, Erik D. Demaine, Della Hendrickson, Jeffery Li2026-03-11💻 cs

ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare

ReCoSplat ist ein autoregressives Feed-Forward-Modell für das Gaussian Splatting, das durch einen Render-and-Compare-Mechanismus und eine hybride KV-Cache-Komprimierung robuste Online-Neuansichtssynthese aus sequenziellen, oft ungeordneten Beobachtungen ermöglicht und dabei State-of-the-Art-Ergebnisse erzielt.

Freeman Cheng, Botao Ye, Xueting Li, Junqi You, Fangneng Zhan, Ming-Hsuan Yang2026-03-11💻 cs

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

Das Paper stellt TiPToP vor, ein modulares Open-Vocabulary-Planungssystem für Roboter, das vortrainierte Vision-Modelle mit einem Task-and-Motion-Planer kombiniert, um komplexe Manipulationsaufgaben allein aus RGB-Bildern und Sprachbefehlen zu lösen, ohne dass roboterspezifische Trainingsdaten erforderlich sind.

William Shen, Nishanth Kumar, Sahit Chintalapudi, Jie Wang, Christopher Watson, Edward Hu, Jing Cao, Dinesh Jayaraman, Leslie Pack Kaelbling, Tomás Lozano-Pérez2026-03-11💻 cs

d-DNNF Modulo Theories: A General Framework for Polytime SMT Queries

Diese Arbeit stellt ein allgemeines Framework vor, das durch die Kombination von SMT-Formeln mit vorab berechneten Theorie-Lemmas die kompilierte d-DNNF-Darstellung für polytime-Abfragen auf SMT-Ebene nutzbar macht, indem sie diese auf propositionale Ebene reduziert.

Gabriele Masina, Emanuale Civini, Massimo Michelutti, Giuseppe Spallitta, Roberto Sebastiani2026-03-11💻 cs

Agent based decision making for Integrated Air Defense system

Dieser Beitrag stellt ein vollautomatisches, auf BDI-Architekturen basierendes Multi-Agenten-System für integrierte Luftverteidigung vor, das durch Meta-Ebenen-Planung eigenständig Ziele erkennt, Bedrohungen bewertet und Waffen zuweist, um die Kommando- und Kontrollautonomie im Netzwerkzentrierten Krieg zu gewährleisten.

Sumanta Kumar Das, Sumant Mukherjee2026-03-10💻 cs

← Zurück Weiter →