cs Arbeiten | Gist.Science

Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

Der Paper stellt Granulon vor, ein neuartiges multimodales Large Language Model, das auf dem DINOv3-Visual-Encoder basiert und durch adaptive Granularitätssteuerung sowie tokenaggregierende Module eine einheitliche Bildanalyse von Pixelebene bis zu groben semantischen Konzepten ermöglicht, wodurch die Genauigkeit um etwa 30 % gesteigert und Halluzinationen um 20 % reduziert werden.

Junyuan Mao, Qiankun Li, Linghao Meng, Zhicheng He, Xinliang Zhou, Kun Wang, Yang Liu, Yueming Jin2026-03-11💻 cs

Time warping with Hellinger elasticity

Der Artikel stellt einen Algorithmus zur elastischen Zeitverzerrung für Zeitreihen in beliebigen metrischen Räumen vor, der eine optimale Zuordnung unter Verwendung eines Hellinger-Kerns als Strafterm für die Streckung ermöglicht und dabei eine kubische Rechenkomplexität aufweist.

Yuly Billig2026-03-11💻 cs

Where, What, Why: Toward Explainable 3D-GS Watermarking

Die Arbeit stellt einen erklärungsstarken, nativen Framework für das Wasserzeichen von 3D-Gaussian-Splatting-Assets vor, der durch eine intelligente Trägerauswahl und gradientenkontrollierte Feinabstimmung sowohl eine hohe Robustheit gegen Verzerrungen als auch eine überlegene Bildqualität und Nachvollziehbarkeit der Markierung erreicht.

Mingshu Cai, Jiajun Li, Osamu Yoshie, Yuya Ieiri, Yixuan Li2026-03-11💻 cs

Age-Related Differences in the Perception of Eye-Gaze from a Social Robot

Diese Studie untersucht, wie sich altersbedingte Unterschiede in der Wahrnehmung von Blickkontakt bei der Interaktion mit sozialen Robotern auswirken, um die Gestaltung adaptiver nonverbaler Signale für ältere Menschen zu verbessern.

Lucas Morillo-Mendez, Martien G. S. Schrooten, Oscar Martinez Mozos2026-03-11💻 cs

VisionCreator-R1: A Reflection-Enhanced Native Visual-Generation Agentic Model

Das Paper stellt VisionCreator-R1 vor, einen nativen visuellen Generierungs-Agenten mit explizitem Reflexionsmechanismus und einer neuartigen Reflexions-Plan-Optimierung (RPCO), der durch gezieltes Training auf einem selbst erstellten Datensatz und Reinforcement Learning bestehende Modelle wie Gemini2.5Pro in Ein- und Mehrbild-Aufgaben übertrifft.

Jinxiang Lai, Wenzhe Zhao, Zexin Lu, Hualei Zhang, Qinyu Yang, Rongwei Quan, Zhimin Li, Shuai Shao, Song Guo, Qinglin Lu2026-03-11💻 cs

HMR-1: Hierarchical Massage Robot with Vision-Language-Model for Embodied Healthcare

Die Arbeit stellt HMR-1 vor, ein hierarchisches Massage-Robotersystem, das auf einem multimodalen Datensatz namens MedMassage-12K und feinabgestimmten Vision-Language-Modellen basiert, um präzise Akupunkturpunkterkennung und Bewegungssteuerung für die embodied Healthcare zu ermöglichen.

Rongtao Xu, Mingming Yu, Xiaofeng Han, Yu Zhang, Kaiyi Hu, Zhe Feng, Zenghuang Fu, Changwei Wang, Weiliang Meng, Xiaopeng Zhang2026-03-11💻 cs

Clarifying the Compass: A Reflexive Narrative on Entry Barriers into HCI and Aging Research

Diese Reflexionsarbeit beleuchtet aus der Perspektive zweier nicht auf Alterung spezialisierter Forscher die Lücken in der interdisziplinären HCI-Forschung für ältere Menschen und beschreibt, wie ehrenamtliche Arbeit in einer Seniorenresidenz zu einem tieferen Verständnis und mehr Empathie führte.

Tianyi Li, Jin Wei-Kocsis2026-03-11💻 cs

Impact of Different Failures on a Robot's Perceived Reliability

Diese Studie zeigt, dass verschiedene Roboterversagensarten die wahrgenommene Zuverlässigkeit unterschiedlich stark beeinträchtigen, wobei Fehler in der Zielsetzung weniger schädlich sind als mechanische Ausfälle oder Einfrieren und der Erfolg durch nachfolgende erfolgreiche Aktionen wiederhergestellt werden kann.

Andrew Violette, Zhanxin Wu, Haruki Nishimura, Masha Itkina, Leticia Priebe Rocha, Mark Zolotas, Guy Hoffman, Hadas Kress-Gazit2026-03-11💻 cs

d-QBF with Few Existential Variables Revisited

Diese Arbeit schließt die Lücke zur optimalen Laufzeit für d-QBF mit wenigen existenziellen Variablen, indem sie unter der ETH beweist, dass eine doppel-exponentielle Abhängigkeit von der Variablenzahl unvermeidbar ist, während sie für den Fall mit nur zwei Quantorenblöcken einen fast optimalen Algorithmus mit verbesserter Laufzeit angibt.

Andreas Grigorjew, Michael Lampis2026-03-11💻 cs

Computer Vision-Based Vehicle Allotment System using Perspective Mapping

Diese Arbeit stellt ein kosteneffizientes, computergestütztes Parksystem vor, das mittels YOLOv8-Objekterkennung und inverser Perspektivabbildung (IPM) vier Kameraperspektiven zu einer 3D-Darstellung verfügbarer Parkplätze kombiniert, um die Parkraumbewirtschaftung in Smart Cities zu automatisieren.

Prachi Nandi, Sonakshi Satapathy, Suchismita Chinara2026-03-11💻 cs

HeteroFedSyn: Differentially Private Tabular Data Synthesis for Heterogeneous Federated Settings

Das Paper stellt HeteroFedSyn vor, das erste differenziell private Framework zur Synthese tabellarischer Daten in horizontalen federierten Umgebungen, das durch innovative Techniken zur verteilten Auswahl von Randverteilungen eine hohe Datennützlichkeit trotz heterogener Datenverteilungen und erhöhten Rauschens erreicht.

Xiaochen Li, Fengyu Gao, Xizixiang Wei, Tianhao Wang, Cong Shen, Jing Yang2026-03-11💻 cs

NaviNote: Enabling In-situ Spatial Annotation Authoring to Support Exploration and Navigation for Blind and Low Vision People

Die Studie stellt NaviNote vor, ein System, das auf hochpräziser visueller Lokalisierung und einer agentenbasierten Architektur aufbaut, um blinden und sehbehinderten Menschen die sprachgesteuerte Erstellung räumlicher Annotationen und eine präzisere Navigation zu ermöglichen.

Ruijia Chen, Yuheng Wu, Charlie Houseago, Filipe Gaspar, Filippo Aleotti, Dorian Gálvez-López, Oliver Johnston, Diego Mazala, Guillermo Garcia-Hernando, Maryam Bandukda, Gabriel Brostow, Jessica Van Brummelen2026-03-11💻 cs

Investigating the Effects of LLM Use on Critical Thinking Under Time Constraints: Access Timing and Time Availability

Eine Studie mit 393 Teilnehmern zeigt, dass der Einfluss von Large Language Models auf kritisches Denken unter Zeitdruck umgekehrt ist als bei ausreichender Zeit: Der frühe Zugang verbessert die Leistung bei Zeitmangel, verschlechtert sie jedoch bei充裕er Zeit, während der späte oder fehlende Zugang das umgekehrte Muster aufweist.

Jiayin Zhi, Harsh Kumar, Mina Lee2026-03-11💻 cs

HECTOR: Hybrid Editable Compositional Object References for Video Generation

HECTOR ist ein neuartiger Generierungs-Pipeline, der durch hybride Referenzbedingungen und die explizite Steuerung von Objekttrajektorien eine feingranulare, compositional kontrollierte Videoerstellung mit hoher visueller Qualität und genauer Referenzerhaltung ermöglicht.

Guofeng Zhang, Angtian Wang, Jacob Zhiyuan Fang, Liming Jiang, Haotian Yang, Alan Yuille, Chongyang Ma2026-03-11💻 cs

DeZent: Decentralized z-Anonymity with Privacy-Preserving Coordination

Die Arbeit stellt deZent vor, ein dezentrales Framework für z-Anonymität in Sensor-Netzwerken, das durch eine leichte Koordination und sichere Summenbildung die Abhängigkeit von einer vertrauenswürdigen Zentralinstanz minimiert und dabei eine vergleichbare Datenschutzqualität bei geringerem Kommunikationsaufwand erreicht.

Carolin Brunn, Florian Tschorsch2026-03-11💻 cs

Adaptive SINDy: Residual Force System Identification Based UAV Disturbance Rejection

Diese Arbeit stellt eine adaptive SINDy-Methode vor, die Sparse Identification of Non-Linear Dynamics mit einem RLS-adaptiven Regler kombiniert, um Störungen in turbulenten Umgebungen bei UAVs effektiv zu identifizieren und zu kompensieren, was zu einer verbesserten Trajektorienverfolgung im Vergleich zu herkömmlichen PID- und INDI-Reglern führt.

Fawad Mehboob, Amir Atef Habel, Roohan Ahmed Khan, Mikhail Derevianchenko, Clement Fortin, Dzmitry Tsetserukou2026-03-11💻 cs

OptBench: An Interactive Workbench for AI/ML-SQL Co-Optimization[Extended Demonstration Proposal]

Das Paper stellt OptBench vor, eine interaktive Arbeitsumgebung auf Basis von DuckDB, die es Forschern und Praktikern ermöglicht, Optimierer für hybride SQL+AI/ML-Abfragen transparent zu entwickeln, zu vergleichen und deren Entscheidungsprozesse sowie Ausführungspläne visuell zu analysieren.

Jaykumar Tandel, Douglas Oscarson, Jia Zou2026-03-11💻 cs

Touching Emotions, Smelling Shapes: Exploring Tactile, Olfactory and Emotional Cross-sensory Correspondences in Preschool Aged Children

Die Studie untersucht mit 26 Vorschulkindern die systematischen Zusammenhänge zwischen Geruch, Tastsinn und Emotionen, liefert empirische Erkenntnisse über diese frühkindlichen cross-sensorischen Korrespondenzen und leitet daraus Designrichtlinien sowie eine replizierbare Forschungsmethode ab.

Tegan Roberts-Morgan, Min S. Li, Priscilla Lo, Zhuzhi Fan, Dan Bennett, Oussama Metatla2026-03-11💻 cs

Computing $L_\infty$ Hausdorff Distances Under Translations: The Interplay of Dimensionality, Symmetry and Discreteness

Diese Arbeit untersucht die feingranulare Komplexität der Berechnung der $L_\infty$ -Hausdorff-Distanz unter Translationen und zeigt, wie sich Laufzeitgrenzen je nach Dimension, Diskretisierung und der Unterscheidung zwischen gerichteten und ungerichteten Varianten sowie asymmetrischen Größenverhältnissen der Punktmengen unterscheiden.

Sebastian Angrick, Kevin Buchin, Geri Gokaj, Marvin Künnemann2026-03-11💻 cs

A Decentralized Frontier AI Architecture Based on Personal Instances, Synthetic Data, and Collective Context Synchronization

Diese Arbeit stellt die H3LIX-Architektur vor, ein dezentrales KI-Framework, das durch lokale Instanzen, synthetische Daten und einen synchronisierten kollektiven Kontextfeld-Ansatz eine skalierbare, datenschutzkonforme und energieadaptive Lernmethode ermöglicht, die sich an biologischen neuronalen Netzen orientiert.

Jacek Małecki, Alexander Mathiesen-Ohman, Katarzyna Tworek2026-03-11💻 cs

← Zurück Weiter →

cs