cs Arbeiten | Gist.Science

Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

Das Paper stellt DualFlow vor, ein einheitliches und effizientes Framework, das auf rectified flow basiert und durch den Einsatz von Retrieval-Augmented Generation sowie speziellen Verlustfunktionen erstmals hochwertige, multimodale Zwei-Personen-Bewegungen erzeugt, die interaktiv, reaktiv und semantisch präzise auf Text-, Musik- und Bewegungsdaten reagieren.

Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera2026-03-10💻 cs

ELHPlan: Efficient Long-Horizon Task Planning for Multi-Agent Collaboration

Die Arbeit stellt ELHPlan vor, ein effizientes Framework für die langfristige Aufgabenplanung in der Multi-Agenten-Kollaboration, das durch die Verwendung intentiongebundener Aktionsketten eine hohe Anpassungsfähigkeit bei gleichzeitig deutlich reduzierter Token-Nutzung im Vergleich zu bestehenden Methoden erreicht.

Shaobin Ling, Yun Wang, Chenyou Fan, Tin Lun Lam, Junjie Hu2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

Die Arbeit stellt PHASE-Net vor, ein physikbasiertes, leichtgewichtiges rPPG-Modell, das durch die Integration von Navier-Stokes-Equations, einem Zero-FLOPs Axial Swapper, einem adaptiven räumlichen Filter und einem gated TCN eine robuste und effiziente berührungslose Herzfrequenzmessung unter schwierigen Bedingungen ermöglicht.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

Die Studie stellt LMOD+ vor, ein umfassendes multimodales Datenset und Benchmark mit über 32.000 annotierten Fällen für 12 ophthalmologische Erkrankungen, das zur Entwicklung und systematischen Evaluierung multimodaler großer Sprachmodelle in der Augenheilkunde dient, um deren Potenzial und Grenzen bei Aufgaben wie Krankheitsdiagnose und Stadieneinteilung aufzuzeigen.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Demystifying Codensity Monads via Duality

Die Autoren stellen einen vereinheitlichenden kategorialen Ansatz vor, der Codensity-Monaden durch Dualitätsbeziehungen zu dichten Funktoren erklärt, wodurch bekannte Darstellungen stark vereinfacht und neue Präsentationen für Filter- und Erwartungsmonaden hergeleitet werden.

Fabian Lenke, Nico Wittrock, Stefan Milius, Henning Urbat2026-03-10💻 cs

Radio-based Multi-Robot Odometry and Relative Localization

Diese Arbeit stellt ein robustes, auf Funktechnologien (UWB und Radar) basiertes System zur relativen Lokalisierung und Odometrie für heterogene UGV-UAV-Roboterschwärme vor, das durch eine nichtlineare Optimierung und Pose-Graphen-Framework in ROS 2 implementiert wurde und in Simulationen sowie realen Experimenten eine höhere Genauigkeit als bestehende Methoden erreicht.

Andrés Martínez-Silva, David Alejo, Luis Merino, Fernando Caballero2026-03-10💻 cs

XPPG-PCA: Reference-free automatic speech severity evaluation with principal components

Die Studie stellt XPPG-PCA vor, eine neue, referenzfreie und unüberwachte Methode zur objektiven Bewertung des Schweregrads von Sprachpathologien, die sich durch ihre Robustheit und Leistungsfähigkeit gegenüber etablierten Ansätzen auszeichnet und somit das Potenzial hat, klinische Evaluierungen effizienter und zuverlässiger zu gestalten.

Bence Mark Halpern, Thomas B. Tienkamp, Teja Rebernik + 5 more2026-03-10💻 cs

Beyond Collision Cones: Dynamic Obstacle Avoidance for Nonholonomic Robots via Dynamic Parabolic Control Barrier Functions

Die vorgestellte Arbeit führt dynamische parabolische Kontrollbarrierefunktionen (DPCBF) ein, die durch eine adaptive, abstands- und geschwindigkeitsabhängige Sicherheitsgrenze die Ineffizienz und Infeasibilität herkömmlicher Kegel-basierter Methoden überwinden und nicht-holonomen Robotern eine zuverlässige Navigation in dicht besetzten Umgebungen mit bis zu 100 dynamischen Hindernissen ermöglichen.

Hun Kuk Park, Taekyung Kim, Dimitra Panagou2026-03-10💻 cs

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

Die Arbeit stellt REVEL, eine neue Aufgabe für die interaktive Drag-Manipulation von Videos, und DragStream, eine trainingsfreie Methode zur Vermeidung von Latent-Drift und Kontextstörungen in autoregressiven Videodiffusionsmodellen, vor.

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs

Enhancing Speaker Verification with w2v-BERT 2.0 and Knowledge Distillation guided Structured Pruning

Diese Arbeit stellt ein State-of-the-Art-System zur Sprecherüberprüfung vor, das w2v-BERT 2.0 mit LoRA und MFA-Adaptern kombiniert und durch wissensbasiertes strukturiertes Pruning eine 80%ige Größenreduktion bei minimaler Genauigkeitsverlust erreicht.

Ze Li, Ming Cheng, Ming Li2026-03-10💻 cs

PAD-TRO: Projection-Augmented Diffusion for Direct Trajectory Optimization

Das Papier stellt PAD-TRO vor, einen neuartigen, modellbasierten Diffusionsansatz zur direkten Trajektorienoptimierung, der durch einen gradientenfreien Projektionsmechanismus dynamische Feasibility garantiert und damit in Quadrotor-Navigationsszenarien mit Hindernissen eine deutlich höhere Erfolgsrate und null Fehler bei der dynamischen Machbarkeit im Vergleich zu bestehenden Methoden erzielt.

Jushan Chen, Santiago Paternain2026-03-10💻 cs

Membership Inference Attacks on Tokenizers of Large Language Models

Diese Studie identifiziert Tokenizer als bisher übersehene Angriffsvektoren für Membership-Inference-Angriffe auf Large Language Models, demonstriert deren Verwundbarkeit durch fünf Angriffsmethoden und schlägt eine adaptive Verteidigung vor, um die damit verbundenen Datenschutzrisiken zu mindern.

Meng Tong, Yuntao Du, Kejiang Chen, Weiming Zhang, Ninghui Li2026-03-10💻 cs

Vision-Guided Targeted Grasping and Vibration for Robotic Pollination in Controlled Environments

Diese Arbeit stellt ein vision-gesteuertes robotisches System für die gezielte Bestäubung in kontrollierten Umgebungen vor, das durch die Kombination von 3D-Pflanzenrekonstruktion, zielgerichtetem Greifplanen und physikbasierter Vibrationsmodellierung eine präzise und blüten-schonende Bestäubung ermöglicht.

Jaehwan Jeong, Tuan-Anh Vu, Radha Lahoti, Jiawen Wang, Vivek Alumootil, Sangpil Kim, M. Khalid Jawed2026-03-10💻 cs

Differentiable Variable Fonts

Diese Arbeit stellt „Differentiable Variable Fonts" vor, ein Framework, das die parametrische Steuerung von Schriftarten durch eine differenzierbare mathematische Formulierung mit modernen Optimierungsverfahren verbindet, um automatisierte und intuitive Werkzeuge für das Design und die Animation von Typografie zu ermöglichen.

Kinjal Parikh, Danny M. Kaufman, David I. W. Levin, Alec Jacobson2026-03-10💻 cs

EB-MBD: Emerging-Barrier Model-Based Diffusion for Safe Trajectory Optimization in Highly Constrained Environments

Die Arbeit stellt EB-MBD vor, eine Methode zur sicheren Trajektorienoptimierung in stark eingeschränkten Umgebungen, die durch den Einsatz progressiv eingeführter Barrieren-Funktionen die Ineffizienz und Leistungsverschlechterung herkömmlicher modellbasierter Diffusionsverfahren vermeidet und dabei eine höhere Lösungsqualität bei deutlich geringerem Rechenaufwand als projektionsbasierte Ansätze erreicht.

Raghav Mishra, Ian R. Manchester2026-03-10💻 cs

Real-Time Motion-Controllable Autoregressive Video Diffusion

Die Arbeit stellt AR-Drag vor, das erste RL-gestützte autoregressive Video-Diffusionsmodell mit nur 1,3 Milliarden Parametern, das durch einen Self-Rollout-Mechanismus und eine Trajektorien-basierte Belohnungsfunktion Echtzeit-Bild-zu-Video-Generierung mit präziser Bewegungssteuerung und hoher visueller Qualität ermöglicht.

Kesen Zhao, Jiaxin Shi, Beier Zhu, Junbao Zhou, Xiaolong Shen, Yuan Zhou, Qianru Sun, Hanwang Zhang2026-03-10💻 cs

CDE: Concept-Driven Exploration for Reinforcement Learning

Das Paper stellt CDE (Concept-Driven Exploration) vor, eine Methode, die vortrainierte Vision-Language-Modelle nutzt, um durch rekonstruktionsbasierte intrinsische Belohnungen eine effiziente Exploration in visuellen Reinforcement-Learning-Aufgaben zu ermöglichen, was sich durch robuste Leistung in Simulationen und eine 80-prozentige Erfolgsrate bei einem realen Franka-Roboterbewegungsmanöver bestätigt.

Le Mao, Andrew H. Liu, Renos Zabounidis, Yanan Niu, Zachary Kingston, Joseph Campbell2026-03-10💻 cs

Deliberative Dynamics and Value Alignment in LLM Debates

Diese Studie untersucht die deliberativen Dynamiken und Wertausrichtungen von LLMs in Mehr-Turn-Debatten zu alltäglichen ethischen Dilemmata und zeigt, dass sich Modelle wie GPT-4.1, Claude 3.7 Sonnet und Gemini 2.0 Flash in Bezug auf Urteilsrevisionsraten, Werteprioritäten und die Anfälligkeit für Reihenfolgeeffekte je nach Synchronisationsmodus (parallel vs. sequenziell) erheblich unterscheiden.

Pratik S. Sachdeva, Tom van Nuenen2026-03-10💻 cs

Reallocating Attention Across Layers to Reduce Multimodal Hallucination

Die Arbeit stellt einen retraining-freien, leichten Plugin-Ansatz namens „Functional Head Identification and Class-Conditioned Rescaling" vor, der durch die adaptive Neubalanceierung von wahrnehmungs- und denkorientierten Aufmerksamkeitsköpfen über die Netzwerkschichten hinweg Halluzinationen in multimodalen großen Reasoning-Modellen reduziert und dabei die Genauigkeit signifikant steigert, ohne die Architektur zu verändern oder die Latenz erheblich zu erhöhen.

Haolang Lu, Bolun Chu, WeiYe Fu, Guoshun Nan, Junning Liu, Minghui Pan, Qiankun Li, Yi Yu, Hua Wang, Kun Wang2026-03-10💻 cs

Preference-Conditioned Multi-Objective RL for Integrated Command Tracking and Force Compliance in Humanoid Locomotion

Diese Arbeit stellt ein präferenzbasiertes, multi-objektives Reinforcement-Learning-Framework vor, das es humanoiden Robotern ermöglicht, durch einen einzigen Policy-Navigationsbefehle präzise zu verfolgen und gleichzeitig externe Kräfte während der menschlichen Interaktion nachgiebig zu kompensieren.

Tingxuan Leng, Yushi Wang, Tinglong Zheng, Changsheng Luo, Mingguo Zhao2026-03-10💻 cs

← Zurück Weiter →