cs Arbeiten | Gist.Science

Prompt-Driven Color Accessibility Evaluation in Diffusion-based Image Generation Models

Diese Arbeit stellt eine systematische Evaluierung der Farbzugänglichkeit in diffusionsbasierten Bildgenerierungsmodellen vor, führt die neue Metrik „CVDLoss" ein und zeigt auf, dass aktuelle Modelle auf zugänglichkeitsorientierte Prompts nicht zuverlässig reagieren.

Xinyao Zhuang, Jose Echevarria, Kaan Aksit2026-03-11💻 cs

Gap-ETH-Tight Algorithms for Hyperbolic TSP and Steiner Tree

Die Autoren stellen einen Gap-ETH-optimalen randomisierten Approximationsalgorithmus für das Traveling-Salesman-Problem und den Steiner-Baum in hyperbolischen Räumen vor, der auf einer neuartigen hybriden hyperbolischen Quadtree-Zerlegung und einer nicht-uniformen Portalplatzierung basiert.

Sándor Kisfaludi-Bak, Saeed Odak, Satyam Singh, Geert van Wordragen2026-03-11💻 cs

RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation

Der Artikel stellt RecThinker vor, ein agentisches Framework für die Empfehlungssysteme, das durch einen „Analyze-Plan-Act"-Ansatz und den autonomen Einsatz von Werkzeugen passive Informationsbeschaffung durch proaktive, selbstgesteuerte Ermittlungen ersetzt, um die Empfehlungsgenauigkeit bei unvollständigen Benutzerprofilen zu verbessern.

Haobo Zhang, Yutao Zhu, Kelong Mao, Tianhao Li, Zhicheng Dou2026-03-11💻 cs

Almost-Optimal Upper and Lower Bounds for Clustering in Low Dimensional Euclidean Spaces

Diese Arbeit verbessert den Laufzeitkomplexitätsfaktor für $(1+\varepsilon)$ -Approximationsalgorithmen des $k$ -Median- und $k$ -Means-Clustering in niedrigdimensionalen euklidischen Räumen auf $2^{\tilde{O}(1/\varepsilon)^{d-1}} \cdot n \cdot \text{polylog}(n)$ und beweist unter der Gap-Exponential-Time-Hypothese, dass diese Laufzeit bis auf polylogarithmische Faktoren optimal ist.

Vincent Cohen-Addad, Karthik C. S., David Saulpic, Chris Schwiegelshohn2026-03-11💻 cs

MissBench: Benchmarking Multimodal Affective Analysis under Imbalanced Missing Modalities

Die Arbeit stellt MissBench vor, einen Benchmark und ein Framework zur Evaluierung multimodaler affektiver Analysen unter realistischen, unausgewogenen Bedingungen fehlender Modalitäten, das durch neue Metriken wie den Modality Equity Index (MEI) und den Modality Learning Index (MLI) verborgene Ungleichheiten und Optimierungsprobleme in bestehenden Modellen aufdeckt.

Tien Anh Pham, Phuong-Anh Nguyen, Duc-Trong Le, Cam-Van Thi Nguyen2026-03-11💻 cs

The Bureaucracy of Speed: Structural Equivalence Between Memory Consistency Models and Multi-Agent Authorization Revocation

Die Arbeit stellt ein Capability Coherence System (CCS) vor, das durch die Übertragung von Speicher-Konsistenzmodellen auf die Autorisierungsverwaltung die Anzahl nicht autorisierter API-Aufrufe bei schnellen Agenten-Revokationen im Vergleich zu herkömmlichen zeitbasierten Strategien drastisch reduziert.

Vladyslav Parakhin2026-03-11💻 cs

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Die Arbeit stellt InternVL-U vor, ein leichtgewichtiges 4-Milliarden-Parameter-Modell, das durch eine modulare Architektur und eine datengetriebene Synthesepipeline Verständnis, Schlussfolgerung, Generierung und Bearbeitung in einem einheitlichen Rahmen vereint und dabei trotz seiner geringen Größe leistungsstärkere Basismodelle mit über 14 Milliarden Parametern in verschiedenen Aufgaben übertrifft.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Die Arbeit stellt DISPLAY vor, ein Framework zur Erzeugung von kontrollierbaren und physikalisch konsistenten Videos menschlicher Objektinteraktionen, das durch eine spärliche Bewegungssteuerung mittels Handgelenkskoordinaten und einem objektabstrakten Bounding-Box-Rahmen sowie durch einen objektfokussierten Aufmerksamkeitsmechanismus und ein Multi-Task-Auxiliary-Training für verbesserte Robustheit und Generalisierung sorgt.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Robust Cooperative Localization in Featureless Environments: A Comparative Study of DCL, StCL, CCL, CI, and Standard-CL

Diese Arbeit vergleicht fünf kooperative Lokalisierungsmethoden in featurelosen Umgebungen und zeigt, dass Covariance Intersection (CI) den besten Kompromiss zwischen Genauigkeit und Konsistenz bietet, während sequenzielle Ansätze zwar präzise, aber für sicherheitskritische Anwendungen ungeeignet sind.

Nivand Khosravi, Meysam Basiri, Rodrigo Ventura2026-03-11💻 cs

Overview of the TREC 2025 Retrieval Augmented Generation (RAG) Track

Der TREC 2025 RAG-Wettbewerb fördert die Entwicklung vertrauenswürdiger Systeme, die Abruf und Generierung integrieren, indem er komplexe, narrative Suchanfragen stellt und ein mehrstufiges Evaluierungsframework zur Sicherstellung von Relevanz, Vollständigkeit und faktischer Fundierung einsetzt.

Shivani Upadhyay, Nandan Thakur, Ronak Pradeep, Nick Craswell, Daniel Campos, Jimmy Lin2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Die Autoren stellen mit CourtSI und dem zugehörigen Benchmark CourtSI-Bench das erste groß angelegte Datenset und Evaluierungsframework vor, das speziell darauf ausgelegt ist, die räumliche Intelligenz von Vision-Language-Modellen in dynamischen Sport-Szenarien zu testen und zu verbessern, wobei Fine-Tuning auf diesem Datensatz zu signifikanten Leistungssteigerungen führt.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

The 802.11 MAC protocol leads to inefficient equilibria

Die Studie zeigt, dass das 802.11-MAC-Protokoll in nicht-kooperativen Umgebungen zu ineffizienten Nash-Gleichgewichten führt, während ein idealisiertes Protokoll durch die Entkopplung der Ressourcenallokation von den Übertragungsstrategien höhere Durchsätze für alle Knoten ermöglicht.

Godfrey Tan, John Guttag2026-03-11💻 cs

Role Classification of Hosts within Enterprise Networks Based on Connection Patterns

Diese Arbeit definiert das Problem der Rollenklassifizierung von Hosts in Unternehmensnetzwerken und stellt zwei praktische Algorithmen vor, die Hosts basierend auf Verbindungsmustern gruppieren, um die Netzwerkstruktur zu vereinfachen und die Verwaltung sowie Überwachung zu verbessern.

Godfrey Tan, Massimiliano Poletto, John Guttag, Frans Kaashoek2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

Das Paper stellt WikiCLIP vor, einen effizienten kontrastiven Rahmen für die offene visuelle Entitätserkennung, der durch den Einsatz von LLM-Embeddings, einem Vision-Guided Knowledge Adaptor und einer Hard-Negative-Synthese eine signifikante Leistungssteigerung bei gleichzeitig drastisch reduzierter Inferenzlatenz im Vergleich zu generativen Modellen erzielt.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

Die Arbeit zeigt, dass die direkte Optimierung des Chamfer-Abstands in der 3D-Formoptimierung aufgrund eines strukturellen Gradientenproblems zum Kollaps führt, der nur durch nicht-lokale Kopplung, wie sie durch geteilte Basisdeformationen oder einen differentiable MPM-Prior bereitgestellt wird, wirksam verhindert werden kann.

Chang-Yong Song, David Hyde2026-03-11💻 cs

How to Write to SSDs

Diese Arbeit zeigt, dass der Wechsel von In-Place- zu Out-of-Place-Schreiboperationen in Datenbank-Systemen wie LeanStore die SSD-Leistung erheblich steigert, die Schreibverstärkung drastisch reduziert und die Unterstützung moderner SSD-Schnittstellen wie ZNS ermöglicht.

Bohyun Lee, Tobias Ziegler, Viktor Leis2026-03-11💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Die vorgestellte Arbeit verbessert die Text-Bewegungs-Rückgewinnung durch eine interpretierbare, joint-basierte Darstellung als Pseudo-Bild und einen Token-Patch-Late-Interaction-Mechanismus, der feingranulare Korrespondenzen ermöglicht und den aktuellen Stand der Technik auf HumanML3D und KIT-ML übertrifft.

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao2026-03-11💻 cs

Unsupervised Domain Adaptation with Target-Only Margin Disparity Discrepancy

Die Arbeit stellt einen neuartigen Ansatz für das unüberwachte Domänen-Adaptionslernen vor, der auf einer reformulierten Margin-Disparity-Discrepancy-Methode basiert, um die Segmentierung der Leber in interventionalen CBCT-Bildern durch die Nutzung annotierter CT-Daten zu verbessern und dabei den Mangel an annotierten CBCT-Daten zu überwinden.

Gauthier Miralles, Loïc Le Folgoc, Vincent Jugnon, Pietro Gori2026-03-11💻 cs

A Voronoi Cell Formulation for Principled Token Pruning in Late-Interaction Retrieval Models

Diese Arbeit stellt ein neuartiges Framework vor, das die Token-Pruning in Late-Interaction-Retrieval-Modellen durch die Interpretation als Voronoi-Zellenschätzung im Einbettungsraum formal fundiert, um den Indexspeicherbedarf signifikant zu senken, ohne die Suchqualität zu beeinträchtigen.

Yash Kankanampati, Yuxuan Zong, Nadi Tomeh, Benjamin Piwowarksi, Joseph Le Roux2026-03-11💻 cs

Leveraging whole slide difficulty in Multiple Instance Learning to improve prostate cancer grading

Diese Arbeit führt das Konzept der „Whole Slide Difficulty" (WSD) ein, das auf der Meinungsverschiedenheit zwischen Experten und Nicht-Experten basiert, und zeigt, dass die Integration dieser Schwierigkeitsmetrik in Multi-Instance-Learning-Modelle die Genauigkeit der Prostatakrebs-Grading insbesondere bei höheren Gleason-Graden verbessert.

Marie Arrivat, Rémy Peyret, Elsa Angelini, Pietro Gori2026-03-11💻 cs

← Zurück Weiter →