cs.AI Arbeiten | Gist.Science

Automating Detection and Root-Cause Analysis of Flaky Tests in Quantum Software

Diese Arbeit stellt eine automatisierte Pipeline vor, die mithilfe von Large Language Models (LLMs) flaky Tests in Quantensoftware erkennt und deren Ursachen analysiert, wodurch ein bestehender Datensatz um 54 % erweitert wird und Modelle wie Google Gemini eine hohe Genauigkeit bei der Klassifizierung und Ursachenidentifikation erreichen.

Janakan Sivaloganathan, Ainaz Jamshidi, Andriy Miranskyy, Lei ZhangWed, 11 Ma🤖 cs.AI

PlayWorld: Learning Robot World Models from Autonomous Play

Die Arbeit stellt PlayWorld vor, ein skalierbares, vollständig autonomes System, das hochpräzise Videoweltmodelle für Roboter ausschließlich durch unüberwachtes Selbstspiel lernt und damit physikalisch konsistente Interaktionen sowie eine signifikant verbesserte Realwelt-Leistung im Vergleich zu auf menschlichen Demonstrationen basierenden Ansätzen ermöglicht.

Tenny Yin, Zhiting Mei, Zhonghe Zheng, Miyu Yamane, David Wang, Jade Sceats, Samuel M. Bateman, Lihan Zha, Apurva Badithela, Ola Shorinwa, Anirudha MajumdarWed, 11 Ma🤖 cs.AI

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

Die Arbeit stellt WS-Net vor, ein tiefes Entmischungsframework, das durch die Kombination von State-Space-Modellierung und einer Schwachsignal-Aufmerksamkeitsfusion die Genauigkeit bei der Rekonstruktion schwacher hyperspektraler Signale unter Rauschbedingungen signifikant verbessert.

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun ZhouWed, 11 Ma🤖 cs.AI

Time, Identity and Consciousness in Language Model Agents

Diese Arbeit stellt einen konservativen Werkzeugkasten zur Bewertung von Identität in Sprachmodell-Agenten vor, der mithilfe der Stack-Theorie zwischen dem bloßen Behaupten eines stabilen Selbst und dessen tatsächlicher organisatorischer Verankerung unterscheidet.

Elija Perrier, Michael Timothy BennettWed, 11 Ma🤖 cs.AI

EPOCH: An Agentic Protocol for Multi-Round System Optimization

Das Paper stellt EPOCH vor, ein ingenieurtechnisches Protokoll für die mehrstufige Systemoptimierung in heterogenen Umgebungen, das durch eine strukturierte Trennung von Baseline-Erstellung und iterativer Selbstverbesserung sowie rollenbeschränkten Phasen eine koordinierte, stabile und nachvollziehbare autonome Optimierung von Prompts, Code und Modellkonfigurationen ermöglicht.

Zhanlin Liu, Yitao Li, Munirathnam SrikanthWed, 11 Ma🤖 cs.AI

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

Die Studie stellt vor, dass der autonome KI-Agent „Sentinel" durch die Verwendung des Model Context Protocol (MCP) klinische Triage-Daten aus der Fernüberwachung von Patienten mit höherer Sensitivität und Konsistenz als menschliche Ärzte klassifiziert und dabei eine skalierbare, kosteneffiziente Lösung für die Überlastung des medizinischen Personals bietet.

Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation

Der vorgestellte Sim2Act-Rahmenwerk verbessert das robuste Simulations-zu-Entscheidungs-Lernen für kritische Domänen wie Lieferketten, indem es durch eine adversarische Kalibrierung und eine gruppenrelative Perturbationsstrategie die Zuverlässigkeit von Policies trotz simulierter Unsicherheiten und Datenverzerrungen sicherstellt.

Hongyu Cao, Jinghan Zhang, Kunpeng Liu, Dongjie Wang, Feng Xia, Haifeng Chen, Xiaohua Hu, Yanjie FuWed, 11 Ma🤖 cs.AI

A Text-Native Interface for Generative Video Authoring

Dieses Paper stellt Doki vor, eine textbasierte Schnittstelle für die Generierung von Videos, die es Nutzern ermöglicht, visuelle Geschichten durch das Schreiben von Texten zu erstellen, und validiert diesen Ansatz durch eine einwöchige Feldstudie.

Xingyu Bruce Liu, Mira Dontcheva, Dingzeyu LiWed, 11 Ma🤖 cs.AI

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

Das Paper stellt GST-VLA vor, ein 3D-tiefenbewusstes Vision-Language-Action-Modell, das durch einen Gaussian Spatial Tokenizer für geometrisch strukturierte 3D-Gauß-Primitiven und eine 3D-tiefenbewusste Chain-of-Thought-Argumentation die Robotersteuerung auf Benchmarks wie LIBERO und SimplerEnv signifikant verbessert.

Md Selim Sarowar, Omer Tariq, Sungho KimWed, 11 Ma🤖 cs.AI

Not All News Is Equal: Topic- and Event-Conditional Sentiment from Finetuned LLMs for Aluminum Price Forecasting

Diese Studie zeigt, dass die Integration von Sentiment-Daten aus feinabgestimmten LLMs (Qwen3) mit traditionellen tabellarischen Marktdaten die Vorhersagegenauigkeit und den wirtschaftlichen Nutzen für Aluminiumpreise, insbesondere in volatilen Phasen, signifikant verbessert.

Alvaro Paredes Amorin, Andre Python, Christoph WeisserWed, 11 Ma🤖 cs.AI

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

Dieser Artikel stellt ein einheitliches Taxonomie- und Evaluierungsrahmenwerk für latente Weltmodelle im automatisierten Fahren vor, das verschiedene Repräsentationsformen und strukturelle Priors systematisch kategorisiert, um Herausforderungen wie Robustheit, Generalisierung und Ressourceneffizienz zu adressieren und zukünftige Forschungsrichtungen für verifizierbare Entscheidungssysteme aufzuzeigen.

Rongxiang Zeng, Yongqi DongWed, 11 Ma🤖 cs.AI

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Die vorgestellte Arbeit stellt ein Transformer-basiertes Framework für die zusammengesetzte Bild-Sprache-Wiedergewinnung bei Hautkrebs vor, das durch eine gemeinsame globale und lokale Ausrichtung sowie eine klinisch fundierte Gewichtung die Suche nach relevanten, biopsiebestätigten Fällen auf dem Derm7pt-Datensatz verbessert.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. LeeWed, 11 Ma🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

Die Studie stellt VIVID-Med vor, ein effizientes Framework, das einen eingefrorenen Large Language Model als strukturierten Lehrer nutzt, um einen leichten, ausschließlich auf Bildern basierenden Vision Transformer für medizinische Anwendungen vorzuverarbeiten, der ohne den LLM-Overhead dennoch state-of-the-art Ergebnisse in verschiedenen klinischen Szenarien erzielt.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe QiuWed, 11 Ma🤖 cs.AI

PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

Der Paper stellt PM-Nav vor, ein priorikartenbasiertes Framework für die embodied Navigation in funktionalen Gebäuden, das durch semantische Karten, hierarchisches Chain-of-Thought-Prompting und eine multi-modale Kollaboration die Leistung im Vergleich zu bestehenden Ansätzen in Simulation und Realität drastisch verbessert.

Jiang Gao, Xiangyu Dong, Haozhou Li, Haoran Zhao, Yaoming Zhou, Xiaoguang MaWed, 11 Ma🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

Der Artikel stellt DexHiL vor, ein bahnbrechendes Framework für das Nachtrainieren von Vision-Language-Action-Modellen, das durch eine integrierte Mensch-im-Loop-Steuerung und gezielte Datensammlung die Erfolgsrate bei komplexen, dexterousen Manipulationsaufgaben im Vergleich zu reinen Offline-Methoden um durchschnittlich 25 % steigert.

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao LianWed, 11 Ma🤖 cs.AI

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

Das Paper stellt QUSR vor, ein diffusionsbasiertes Modell für die Bild-Super-Resolution, das durch die Kombination eines multimodalen Sprachmodells zur Qualitätsbewertung und einer unsicherheitsgesteuerten Rauschgenerierung realistische und detailreiche Bilder auch bei unbekannten und räumlich nicht einheitlichen Degradationen erzeugt.

Junjie Yin, Jiaju Li, Hanfa XingWed, 11 Ma🤖 cs.AI

Chaotic Dynamics in Multi-LLM Deliberation

Die Studie zeigt, dass Multi-LLM-Entscheidungsgremien selbst unter deterministischen Bedingungen durch Rollenunterschiede und Modellheterogenität chaotisch instabil werden können, was die Notwendigkeit von Stabilitätsaudits für solche Governance-Systeme unterstreicht.

Hajime Shimao, Warut Khern-am-nuai, Sung Joo KimWed, 11 Ma🤖 cs.AI

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Diese Arbeit stellt eine Regularisierungsmethode auf Basis der Wahrscheinlichkeit von Notwendigkeit und Hinreichendheit (PNS) für das klasseninkrementelle Lernen vor, die durch die Generierung von kontrafaktischen Merkmalen innerhalb und zwischen Aufgaben kausale Vollständigkeit und Trennschärfe sicherstellt, um Kollisionen von Merkmalen und katastrophales Vergessen zu verhindern.

Zhen Zhang, Jielei Chu, Tianrui LiWed, 11 Ma🤖 cs.AI

Deep Tabular Research via Continual Experience-Driven Execution

Die Arbeit stellt Deep Tabular Research (DTR) als neue Herausforderung für komplexe Tabellenanalysen vor und löst sie durch ein neuartiges, agentenbasiertes Framework, das tabellarisches Denken als geschlossenen Entscheidungsprozess mit hierarchischer Meta-Graphen-Struktur, erwartungsbewusster Pfadauswahl und einer siamesischen Gedächtnisstruktur für kontinuierliche Verbesserung behandelt.

Junnan Dong, Chuang Zhou, Zheng Yuan, Yifei Yu, Siyu An, Di Yin, Xing Sun, Feiyue HuangWed, 11 Ma🤖 cs.AI

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

Die Arbeit stellt DataFactory vor, ein kollaboratives Multi-Agenten-Framework, das durch spezialisierte Teamkoordination, die automatische Umwandlung von Daten in Wissensgraphen und kontextbasierte Strategien die Genauigkeit und Zuverlässigkeit von Tabellen-Fragebeantwortung (TableQA) im Vergleich zu herkömmlichen Einzel-Agenten-Ansätzen signifikant verbessert.

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang ZhaoWed, 11 Ma🤖 cs.AI

← Zurück Weiter →