cs.AI Arbeiten | Gist.Science

EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations

Die Arbeit stellt EgoTraj-Bench, das erste reale Benchmark für robuste Trajektorienvorhersage unter verrauschten Ego-Beobachtungen, und das dazugehörige BiFlow-Modell vor, das durch gleichzeitiges Entroischen der Vergangenheit und Vorhersage der Zukunft sowie den EgoAnchor-Mechanismus signifikant robustere und genauere Ergebnisse erzielt.

Jiayi Liu, Jiaming Zhou, Ke Ye + 3 more2026-03-06💻 cs

Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

Das Paper stellt Graph2Eval vor, ein auf Wissensgraphen basierendes Framework zur automatischen Generierung semantisch konsistenter und lösbarer multimodaler Agentenaufgaben, das durch die Einführung des Graph2Eval-Bench-Datensatzes die Evaluierung von Agenten in Dokumentenverständnis- und Web-Interaktionsszenarien verbessert.

Yurun Chen, Xavier Hu, Yuhan Liu + 8 more2026-03-06💻 cs

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

Die Autoren stellen SpineMed und das zugehörige Benchmark SpineBench vor, die auf einem umfassenden, klinisch validierten Datensatz von 450.000 instruktionsbasierten Beispielen basieren und nachweislich die Leistung von multimodalen KI-Modellen bei der präzisen, niveau-spezifischen Diagnose von Wirbelsäulenerkrankungen erheblich verbessern.

Ming Zhao, Wenhui Dong, Yang Zhang + 23 more2026-03-06💻 cs

MachaGrasp: Morphology-Aware Cross-Embodiment Dexterous Hand Articulation Generation for Grasping

MachaGrasp ist ein eigengrasp-basiertes, end-to-end Framework, das morphologiebewusste, dexterous Greifbewegungen für verschiedene Roboterhände generiert und dabei durch einen kinematikbewussten Verlust sowie Few-Shot-Anpassung hohe Erfolgsraten in Simulation und der realen Welt erreicht.

Heng Zhang, Kevin Yuchen Ma, Mike Zheng Shou + 2 more2026-03-06💻 cs

Beyond Prefixes: Graph-as-Memory Cross-Attention for Knowledge Graph Completion with Large Language Models

Die Arbeit stellt GMT (Graph-as-Memory Tuning) vor, einen neuen Ansatz, der lokale Graphstrukturen als expliziten Speicher in große Sprachmodelle integriert, um durch tiefgreifende, tokenweise Cross-Attention eine überlegene Wissensgraphen-Vervollständigung zu ermöglichen, die herkömmliche Prefix-Methoden in Bezug auf evidenzbasiertes Schlussfolgern deutlich übertrifft.

Ruitong Liu, Boxu Lin, Peize Li + 4 more2026-03-06💻 cs

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

Die Arbeit stellt OmniVideoBench vor, ein umfassendes Benchmark mit 1000 sorgfältig annotierten Frage-Antwort-Paaren aus 628 Videos, das die synergistische audio-visuelle reasoning-Fähigkeit multimodaler Large Language Models bewertet und dabei erhebliche Lücken zwischen aktuellen Modellen und menschlichem Schlussfolgern aufzeigt.

Caorui Li, Yu Chen, Yiyan Ji + 40 more2026-03-06💻 cs

True Self-Supervised Novel View Synthesis is Transferable

Die Arbeit stellt XFactor vor, das erste geometriefreie selbstüberwachte Modell für die Synthese neuer Ansichten, das durch eine spezielle Augmentationsstrategie übertragbare Kameraposen lernt und damit zeigt, dass echte Übertragbarkeit ohne explizite 3D-Induktionsverzerrungen oder Multi-View-Geometrie erreicht werden kann.

Thomas W. Mitchel, Hyunwoo Ryu, Vincent Sitzmann2026-03-06💻 cs

Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences

Die Studie zeigt, dass eine enge Feinabstimmung von Sprachmodellen deutliche, analysierbare Spuren in den Aktivierungen hinterlässt, die nicht nur zur Rekonstruktion des Trainingsdatensatzes genutzt werden können, sondern auch vor der Gefahr warnen, solche Modelle als realistische Proxy-Modelle für breitere Sicherheits- und Interpretierbarkeitsforschung zu verwenden.

Julian Minder, Clément Dumas, Stewart Slocum + 4 more2026-03-06💻 cs

CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier Functions

Die Arbeit stellt CBF-RL vor, ein Framework, das Control Barrier Functions direkt in das Reinforcement-Learning-Training integriert, um sichere Strategien zu erlernen, die auch ohne nachgeschaltete Online-Sicherheitsfilter robust in realen Anwendungen wie der Unitree G1-Humanoiden-Roboterplattform operieren können.

Lizhi Yang, Blake Werner, Massimiliano de Sa + 1 more2026-03-06💻 cs

Pursuing Minimal Sufficiency in Spatial Reasoning

Das Paper stellt MSSR vor, ein dual-agent Framework, das durch die iterative Extraktion und Verfeinerung eines minimalen hinreichenden Informationssatzes (MSS) aus 3D-Szenen die räumliche Schlussfolgerung in Vision-Language-Modellen verbessert und dabei sowohl das Verständnis als auch die Effizienz gegenüber bestehenden Methoden signifikant steigert.

Yejie Guo, Yunzhong Hou, Wufei Ma + 2 more2026-03-06💻 cs

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

Die Arbeit stellt das Framework SceneCOT und den dazugehörigen Datensatz SceneCOT-185K vor, um durch eine neuartige, auf multimodalen Expertenmodulen basierende Chain-of-Thought-Methode erstmals eine fundierte, schrittweise menschliche Schlussfolgerung in 3D-Szenen zu ermöglichen und so die Leistung von 3D-LLMs bei der Beantwortung von Fragen mit räumlichem Bezug erheblich zu verbessern.

Xiongkun Linghu, Jiangyong Huang, Ziyu Zhu + 2 more2026-03-06💻 cs

Schrödinger Bridge Mamba for One-Step Speech Enhancement

Die Autoren stellen Schrödinger Bridge Mamba (SBM) vor, ein effizientes Ein-Schritt-Modell für die Sprachverbesserung, das durch die Kombination des Schrödinger-Brücken-Trainingsparadigmas mit der Mamba-Architektur sowohl bei der Rauschunterdrückung als auch bei der Entreverberation überlegene Ergebnisse im Vergleich zu bestehenden Methoden erzielt.

Jing Yang, Sirui Wang, Chao Wu + 2 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

Die Arbeit stellt Grasp Any Region (GAR) vor, ein Multimodales Large Language Model, das durch eine RoI-ausgerichtete Feature-Replay-Technik präzise, kontextbewusste Regionenanalyse und komplexe Mehrfach-Prompt-Interaktionen ermöglicht, wodurch es bestehende Modelle in Bezug auf detailliertes Verständnis und Videotransferfähigkeit übertrifft.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

GhostEI-Bench: Do Mobile Agents Resilience to Environmental Injection in Dynamic On-Device Environments?

Die Arbeit stellt GhostEI-Bench vor, den ersten Benchmark, der die Anfälligkeit von mobilen Vision-Language-Agenten für Umgebungs-Injektionsangriffe in dynamischen Android-Umgebungen systematisch bewertet und dabei zeigt, dass aktuelle Modelle durch manipulierte Benutzeroberflächen leicht getäuscht werden können.

Chiyu Chen, Xinhao Song, Yunkai Chai, Yang Yao, Haodong Zhao, Lijun Li, Jie Li, Yan Teng, Gongshen Liu, Yingchun Wang2026-03-06🔒 cs.CR

LLEMA: Evolutionary Search with LLMs for Multi-Objective Materials Discovery

Das Paper stellt LLEMA vor, ein Framework, das Large Language Models mit chemischen Evolutionsregeln und Gedächtnis-basiertem Feedback kombiniert, um in einem multi-objektiven Suchprozess effizient und synthetisierbare neue Materialien für verschiedene Anwendungsbereiche zu entdecken.

Nikhil Abhyankar, Sanchit Kabra, Saaketh Desai + 1 more2026-03-06🔬 cond-mat.mtrl-sci

FMint-SDE: A Multimodal Foundation Model for Accelerating Numerical Simulation of SDEs via Error Correction

Die Arbeit stellt FMint-SDE vor, ein multimodales Basis-Modell auf Transformer-Basis, das durch In-Context-Learning und eine universelle Fehlerkorrektur auf Basis grober numerischer Lösungen eine überlegene Genauigkeit und Effizienz bei der Simulation stochastischer Differentialgleichungen in verschiedenen wissenschaftlichen Domänen ermöglicht.

Jiaxin Yuan, Haizhao Yang, Maria Cameron2026-03-06🔢 math

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

Das Paper stellt FLoC vor, ein trainingsfreies und modellunabhängiges Framework zur effizienten Kompression visueller Tokens in langen Videos mittels der Facility-Location-Funktion, das durch die Auswahl einer kompakten, repräsentativen Teilmenge die Verarbeitungsleistung von Large Multimodal Models bei gleichzeitiger Beibehaltung der Genauigkeit erheblich verbessert.

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

CytoNet: A Foundation Model for the Human Cerebral Cortex at Cellular Resolution

CytoNet ist ein auf 1 Million ungelabelter mikroskopischer Bildpatches trainiertes Fundamentmodell, das die zelluläre Architektur des menschlichen Großhirns in hoher Auflösung analysiert und so eine skalierbare Untersuchung der kortikalen Mikroarchitektur sowie deren Verknüpfung mit der makroskopischen Struktur-Funktions-Organisation ermöglicht.

Christian Schiffer, Zeynep Boztoprak, Jan-Oliver Kropp + 5 more2026-03-06💻 cs

RefAgent: A Multi-agent LLM-based Framework for Automatic Software Refactoring

Die Studie stellt RefAgent vor, ein Multi-Agenten-Framework auf Basis von Large Language Models, das durch spezialisierte Agenten für Planung, Ausführung und Testen Software-Refaktorierungen automatisiert und dabei im Vergleich zu Einzelagenten sowie traditionellen Tools signifikant höhere Erfolgsquoten bei der Code-Qualität und der Beseitigung von Code-Smells erzielt.

Khouloud Oueslati, Maxime Lamothe, Foutse Khomh2026-03-06💻 cs

CoRPO: Adding a Correctness Bias to GRPO Improves Generalization

Die Arbeit stellt CoRPO vor, eine einfache Modifikation von GRPO, die durch das Setzen einer festen Korrektheits-Schwelle als untere Grenze für die Baseline eine Überbewertung falscher Lösungen verhindert und so die Generalisierungsfähigkeit von Modellen auf domänenübergreifende Aufgaben signifikant verbessert.

Anisha Garg, Claire Zhang, Nishit Neema + 3 more2026-03-06💻 cs

← Zurück Weiter →