cs Arbeiten | Gist.Science

RA-SSU: Towards Fine-Grained Audio-Visual Learning with Region-Aware Sound Source Understanding

Die Autoren stellen mit RA-SSU eine neue feinabgestufte Audio-Visual-Learning-Aufgabe vor, unterstützen diese durch zwei annotierte Datensätze (f-Music und f-Lifescene) und entwickeln das SSUFormer-Modell, das durch innovative Module eine präzise Segmentierung und detaillierte textuelle Beschreibung von Schallquellen auf Frame-Ebene ermöglicht.

Muyi Sun, Yixuan Wang, Hong Wang, Chen Su, Man Zhang, Xingqun Qi, Qi Li, Zhenan Sun2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

Der Paper stellt ConfCtrl vor, einen konfidenzbasierten Interpolationsrahmen für Videodiffusionsmodelle, der durch eine Kalman-inspirierte Korrekturmechanik präzise Kamerasteuerung ermöglicht und gleichzeitig verdeckte Bildbereiche bei großen Blickwinkeländerungen aus nur zwei Eingabebildern konsistent rekonstruiert.

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

EmoSURA: Towards Accurate Evaluation of Detailed and Long-Context Emotional Speech Captions

Die Arbeit stellt EmoSURA vor, ein neuartiges Evaluierungsframework, das durch die Zerlegung von emotionalen Sprachbeschreibungen in atomare Einheiten und deren audio-basierte Verifizierung sowie die Einführung des SURABench-Tests eine genauere und zuverlässigere Bewertung als herkömmliche Metriken ermöglicht.

Xin Jing, Andreas Triantafyllopoulos, Jiadong Wang, Shahin Amiriparian, Jun Luo, Björn Schuller2026-03-11💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

Das Paper stellt BrainSTR vor, ein Framework für spatio-temporales kontrastives Lernen, das durch adaptive Phasentrennung und graphbasierte Merkmalsextraktion interpretierbare dynamische Hirnnetzwerke modelliert, um subtile diagnostische Signaturen bei neuropsychiatrischen Erkrankungen wie Autismus, bipolarer Störung und Depression präzise zu identifizieren.

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. Zaiane2026-03-11💻 cs

VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models

Der Artikel stellt VLM-Loc vor, ein Framework, das die räumliche Schlussfolgerungsfähigkeit von Vision-Language-Modellen nutzt, um aus natürlichen Sprachbeschreibungen präzise Positionen in 3D-Punktwolkenkarten abzuleiten, und führt gleichzeitig den neuen Benchmark CityLoc zur Evaluierung ein.

Shuhao Kang, Youqi Liao, Peijie Wang, Wenlong Liao, Qilin Zhang, Benjamin Busam, Xieyuanli Chen, Yun Liu2026-03-11💻 cs

Prompt-Driven Color Accessibility Evaluation in Diffusion-based Image Generation Models

Diese Arbeit stellt eine systematische Evaluierung der Farbzugänglichkeit in diffusionsbasierten Bildgenerierungsmodellen vor, führt die neue Metrik „CVDLoss" ein und zeigt auf, dass aktuelle Modelle auf zugänglichkeitsorientierte Prompts nicht zuverlässig reagieren.

Xinyao Zhuang, Jose Echevarria, Kaan Aksit2026-03-11💻 cs

Gap-ETH-Tight Algorithms for Hyperbolic TSP and Steiner Tree

Die Autoren stellen einen Gap-ETH-optimalen randomisierten Approximationsalgorithmus für das Traveling-Salesman-Problem und den Steiner-Baum in hyperbolischen Räumen vor, der auf einer neuartigen hybriden hyperbolischen Quadtree-Zerlegung und einer nicht-uniformen Portalplatzierung basiert.

Sándor Kisfaludi-Bak, Saeed Odak, Satyam Singh, Geert van Wordragen2026-03-11💻 cs

RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation

Der Artikel stellt RecThinker vor, ein agentisches Framework für die Empfehlungssysteme, das durch einen „Analyze-Plan-Act"-Ansatz und den autonomen Einsatz von Werkzeugen passive Informationsbeschaffung durch proaktive, selbstgesteuerte Ermittlungen ersetzt, um die Empfehlungsgenauigkeit bei unvollständigen Benutzerprofilen zu verbessern.

Haobo Zhang, Yutao Zhu, Kelong Mao, Tianhao Li, Zhicheng Dou2026-03-11💻 cs

Almost-Optimal Upper and Lower Bounds for Clustering in Low Dimensional Euclidean Spaces

Diese Arbeit verbessert den Laufzeitkomplexitätsfaktor für $(1+\varepsilon)$ -Approximationsalgorithmen des $k$ -Median- und $k$ -Means-Clustering in niedrigdimensionalen euklidischen Räumen auf $2^{\tilde{O}(1/\varepsilon)^{d-1}} \cdot n \cdot \text{polylog}(n)$ und beweist unter der Gap-Exponential-Time-Hypothese, dass diese Laufzeit bis auf polylogarithmische Faktoren optimal ist.

Vincent Cohen-Addad, Karthik C. S., David Saulpic, Chris Schwiegelshohn2026-03-11💻 cs

MissBench: Benchmarking Multimodal Affective Analysis under Imbalanced Missing Modalities

Die Arbeit stellt MissBench vor, einen Benchmark und ein Framework zur Evaluierung multimodaler affektiver Analysen unter realistischen, unausgewogenen Bedingungen fehlender Modalitäten, das durch neue Metriken wie den Modality Equity Index (MEI) und den Modality Learning Index (MLI) verborgene Ungleichheiten und Optimierungsprobleme in bestehenden Modellen aufdeckt.

Tien Anh Pham, Phuong-Anh Nguyen, Duc-Trong Le, Cam-Van Thi Nguyen2026-03-11💻 cs

The Bureaucracy of Speed: Structural Equivalence Between Memory Consistency Models and Multi-Agent Authorization Revocation

Die Arbeit stellt ein Capability Coherence System (CCS) vor, das durch die Übertragung von Speicher-Konsistenzmodellen auf die Autorisierungsverwaltung die Anzahl nicht autorisierter API-Aufrufe bei schnellen Agenten-Revokationen im Vergleich zu herkömmlichen zeitbasierten Strategien drastisch reduziert.

Vladyslav Parakhin2026-03-11💻 cs

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Die Arbeit stellt InternVL-U vor, ein leichtgewichtiges 4-Milliarden-Parameter-Modell, das durch eine modulare Architektur und eine datengetriebene Synthesepipeline Verständnis, Schlussfolgerung, Generierung und Bearbeitung in einem einheitlichen Rahmen vereint und dabei trotz seiner geringen Größe leistungsstärkere Basismodelle mit über 14 Milliarden Parametern in verschiedenen Aufgaben übertrifft.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Die Arbeit stellt DISPLAY vor, ein Framework zur Erzeugung von kontrollierbaren und physikalisch konsistenten Videos menschlicher Objektinteraktionen, das durch eine spärliche Bewegungssteuerung mittels Handgelenkskoordinaten und einem objektabstrakten Bounding-Box-Rahmen sowie durch einen objektfokussierten Aufmerksamkeitsmechanismus und ein Multi-Task-Auxiliary-Training für verbesserte Robustheit und Generalisierung sorgt.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Robust Cooperative Localization in Featureless Environments: A Comparative Study of DCL, StCL, CCL, CI, and Standard-CL

Diese Arbeit vergleicht fünf kooperative Lokalisierungsmethoden in featurelosen Umgebungen und zeigt, dass Covariance Intersection (CI) den besten Kompromiss zwischen Genauigkeit und Konsistenz bietet, während sequenzielle Ansätze zwar präzise, aber für sicherheitskritische Anwendungen ungeeignet sind.

Nivand Khosravi, Meysam Basiri, Rodrigo Ventura2026-03-11💻 cs

Overview of the TREC 2025 Retrieval Augmented Generation (RAG) Track

Der TREC 2025 RAG-Wettbewerb fördert die Entwicklung vertrauenswürdiger Systeme, die Abruf und Generierung integrieren, indem er komplexe, narrative Suchanfragen stellt und ein mehrstufiges Evaluierungsframework zur Sicherstellung von Relevanz, Vollständigkeit und faktischer Fundierung einsetzt.

Shivani Upadhyay, Nandan Thakur, Ronak Pradeep, Nick Craswell, Daniel Campos, Jimmy Lin2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Die Autoren stellen mit CourtSI und dem zugehörigen Benchmark CourtSI-Bench das erste groß angelegte Datenset und Evaluierungsframework vor, das speziell darauf ausgelegt ist, die räumliche Intelligenz von Vision-Language-Modellen in dynamischen Sport-Szenarien zu testen und zu verbessern, wobei Fine-Tuning auf diesem Datensatz zu signifikanten Leistungssteigerungen führt.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

The 802.11 MAC protocol leads to inefficient equilibria

Die Studie zeigt, dass das 802.11-MAC-Protokoll in nicht-kooperativen Umgebungen zu ineffizienten Nash-Gleichgewichten führt, während ein idealisiertes Protokoll durch die Entkopplung der Ressourcenallokation von den Übertragungsstrategien höhere Durchsätze für alle Knoten ermöglicht.

Godfrey Tan, John Guttag2026-03-11💻 cs

Role Classification of Hosts within Enterprise Networks Based on Connection Patterns

Diese Arbeit definiert das Problem der Rollenklassifizierung von Hosts in Unternehmensnetzwerken und stellt zwei praktische Algorithmen vor, die Hosts basierend auf Verbindungsmustern gruppieren, um die Netzwerkstruktur zu vereinfachen und die Verwaltung sowie Überwachung zu verbessern.

Godfrey Tan, Massimiliano Poletto, John Guttag, Frans Kaashoek2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

Das Paper stellt WikiCLIP vor, einen effizienten kontrastiven Rahmen für die offene visuelle Entitätserkennung, der durch den Einsatz von LLM-Embeddings, einem Vision-Guided Knowledge Adaptor und einer Hard-Negative-Synthese eine signifikante Leistungssteigerung bei gleichzeitig drastisch reduzierter Inferenzlatenz im Vergleich zu generativen Modellen erzielt.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

Die Arbeit zeigt, dass die direkte Optimierung des Chamfer-Abstands in der 3D-Formoptimierung aufgrund eines strukturellen Gradientenproblems zum Kollaps führt, der nur durch nicht-lokale Kopplung, wie sie durch geteilte Basisdeformationen oder einen differentiable MPM-Prior bereitgestellt wird, wirksam verhindert werden kann.

Chang-Yong Song, David Hyde2026-03-11💻 cs

← Zurück Weiter →