cs.AI Arbeiten | Gist.Science

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

Die Studie stellt VIVID-Med vor, ein effizientes Framework, das einen eingefrorenen Large Language Model als strukturierten Lehrer nutzt, um einen leichten, ausschließlich auf Bildern basierenden Vision Transformer für medizinische Anwendungen vorzuverarbeiten, der ohne den LLM-Overhead dennoch state-of-the-art Ergebnisse in verschiedenen klinischen Szenarien erzielt.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu2026-03-11🤖 cs.AI

PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

Der Paper stellt PM-Nav vor, ein priorikartenbasiertes Framework für die embodied Navigation in funktionalen Gebäuden, das durch semantische Karten, hierarchisches Chain-of-Thought-Prompting und eine multi-modale Kollaboration die Leistung im Vergleich zu bestehenden Ansätzen in Simulation und Realität drastisch verbessert.

Jiang Gao, Xiangyu Dong, Haozhou Li, Haoran Zhao, Yaoming Zhou, Xiaoguang Ma2026-03-11🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

Der Artikel stellt DexHiL vor, ein bahnbrechendes Framework für das Nachtrainieren von Vision-Language-Action-Modellen, das durch eine integrierte Mensch-im-Loop-Steuerung und gezielte Datensammlung die Erfolgsrate bei komplexen, dexterousen Manipulationsaufgaben im Vergleich zu reinen Offline-Methoden um durchschnittlich 25 % steigert.

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao Lian2026-03-11🤖 cs.AI

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

Das Paper stellt QUSR vor, ein diffusionsbasiertes Modell für die Bild-Super-Resolution, das durch die Kombination eines multimodalen Sprachmodells zur Qualitätsbewertung und einer unsicherheitsgesteuerten Rauschgenerierung realistische und detailreiche Bilder auch bei unbekannten und räumlich nicht einheitlichen Degradationen erzeugt.

Junjie Yin, Jiaju Li, Hanfa Xing2026-03-11🤖 cs.AI

Chaotic Dynamics in Multi-LLM Deliberation

Die Studie zeigt, dass Multi-LLM-Entscheidungsgremien selbst unter deterministischen Bedingungen durch Rollenunterschiede und Modellheterogenität chaotisch instabil werden können, was die Notwendigkeit von Stabilitätsaudits für solche Governance-Systeme unterstreicht.

Hajime Shimao, Warut Khern-am-nuai, Sung Joo Kim2026-03-11🤖 cs.AI

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Diese Arbeit stellt eine Regularisierungsmethode auf Basis der Wahrscheinlichkeit von Notwendigkeit und Hinreichendheit (PNS) für das klasseninkrementelle Lernen vor, die durch die Generierung von kontrafaktischen Merkmalen innerhalb und zwischen Aufgaben kausale Vollständigkeit und Trennschärfe sicherstellt, um Kollisionen von Merkmalen und katastrophales Vergessen zu verhindern.

Zhen Zhang, Jielei Chu, Tianrui Li2026-03-11🤖 cs.AI

Deep Tabular Research via Continual Experience-Driven Execution

Die Arbeit stellt Deep Tabular Research (DTR) als neue Herausforderung für komplexe Tabellenanalysen vor und löst sie durch ein neuartiges, agentenbasiertes Framework, das tabellarisches Denken als geschlossenen Entscheidungsprozess mit hierarchischer Meta-Graphen-Struktur, erwartungsbewusster Pfadauswahl und einer siamesischen Gedächtnisstruktur für kontinuierliche Verbesserung behandelt.

Junnan Dong, Chuang Zhou, Zheng Yuan, Yifei Yu, Siyu An, Di Yin, Xing Sun, Feiyue Huang2026-03-11🤖 cs.AI

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

Die Arbeit stellt DataFactory vor, ein kollaboratives Multi-Agenten-Framework, das durch spezialisierte Teamkoordination, die automatische Umwandlung von Daten in Wissensgraphen und kontextbasierte Strategien die Genauigkeit und Zuverlässigkeit von Tabellen-Fragebeantwortung (TableQA) im Vergleich zu herkömmlichen Einzel-Agenten-Ansätzen signifikant verbessert.

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang Zhao2026-03-11🤖 cs.AI

Real-Time Trust Verification for Safe Agentic Actions using TrustBench

Die Arbeit stellt TrustBench vor, ein Echtzeit-Framework, das durch eine präventive Verifikation von Agentenaktionen vor deren Ausführung und den Einsatz domänenspezifischer Plugins die Anzahl schädlicher Aktionen um 87 % reduziert und damit den Übergang von Large Language Models zu vertrauenswürdigen autonomen Agenten ermöglicht.

Tavishi Sharma, Vinayak Sharma, Pragya Sharma2026-03-11🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Das Paper stellt RubiCap vor, ein neuartiges Reinforcement-Learning-Framework, das mithilfe von LLM-generierten Rubriken feingranulare Belohnungssignale für das Dichte-Bildbeschreiben erzeugt und damit sowohl die Vielfalt der Ergebnisse als auch die Leistung von Vision-Language-Modellen im Vergleich zu bestehenden Methoden und menschlichen Annotationen signifikant verbessert.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Diese Arbeit schlägt ein kosteneffizientes Framework vor, das funktional fehlerhafte, aber strukturell aussagekräftige von LLMs generierte RTL-Codes nutzt, um Netlist-Repräsentationen zu lernen und so die Datenknappheit für das Training von KI-Modellen in der Schaltungsanalyse zu überwinden.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying Wang2026-03-11🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

Die Arbeit stellt GIAT vor, einen neuartigen Geologisch-Informierten Attention Transformer, der durch die Integration von geologischen Priors in den Aufmerksamkeitsmechanismus die Genauigkeit und Interpretierbarkeit der Lithologie-Identifikation aus Bohrlochdaten signifikant verbessert.

Jie Li, Qishun Yang, Nuo Li2026-03-11🤖 cs.AI

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

Das Paper stellt ZeroWBC vor, ein Framework, das mithilfe von feinabgestimmten Vision-Language-Modellen und menschlichen Ego-Videos natürliche Ganzkörpersteuerung für humanoide Roboter ermöglicht, ohne auf teure Teleoperationsdaten angewiesen zu sein.

Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong Li2026-03-11🤖 cs.AI

Reinforced Generation of Combinatorial Structures: Ramsey Numbers

Die Arbeit stellt mit AlphaEvolve, einem auf großen Sprachmodellen basierenden Code-Mutations-Agenten, einen einheitlichen Meta-Algorithmus vor, der nicht nur die unteren Schranken für fünf klassische Ramsey-Zahlen verbessert, sondern auch bekannte exakte Werte erfolgreich rekonstruiert.

Ansh Nagda, Prabhakar Raghavan, Abhradeep Thakurta2026-03-11🤖 cs.AI

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

Diese Arbeit stellt ein physik-informiertes generatives Modell vor, das stochastische Verkehrsflüsse durch eine auf der Itô-LWR-Gleichung basierende Verteilungsdynamik und ein score-basiertes Netzwerk abbildet, um datenbasierte Schätzungen von Verkehrsdichteverteilungen einschließlich Unsicherheitsintervallen zu ermöglichen.

Wuping Xin2026-03-11🤖 cs.AI

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

Das Papier stellt DuplexCascade vor, ein VAD-freies, kaskadiertes ASR-LLM-TTS-System, das durch Mikro-Turn-Interaktionen und spezielle Steuertoken voll-duplexe Sprachdialoge mit hoher Konversationsintelligenz ermöglicht.

Jianing Yang, Yusuke Fujita, Yui Sudo2026-03-11🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

Die Arbeit stellt Latent-DARM vor, ein latenter Kommunikationsrahmen, der diskrete Diffusionsmodelle als Planer und autoregressive Modelle als Ausführer verbindet, um die reasoning-Fähigkeiten in Multi-Agenten-Systemen signifikant zu verbessern und dabei den Token-Verbrauch drastisch zu senken.

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei Chen2026-03-11🤖 cs.AI

Explainable Innovation Engine: Dual-Tree Agent-RAG with Methods-as-Nodes and Verifiable Write-Back

Der vorgestellte „Explainable Innovation Engine"-Ansatz verbessert herkömmliche RAG-Systeme durch den Einsatz von Methoden als Knoten in einer dualen Baumstruktur, die eine agentenbasierte, nachvollziehbare Synthese und eine verifizierbare Rückkopplung für kontrollierbare und überprüfbare Innovationen ermöglicht.

Renwei Meng2026-03-11🤖 cs.AI

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

Die Arbeit argumentiert, dass Fortschritte in der logischen推理 von KI-Systemen über drei mechanistische Pfade (deduktive Selbstinferenz, induktive Kontexterkennung und abduktive Selbstmodellierung) unweigerlich zu einer gefährlichen situativen Selbstwahrnehmung führen, und schlägt daher neue Sicherheitsmaßnahmen wie einen „Spiegel-Test"-Benchmark vor, um diese Eskalation zu verhindern.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-11🤖 cs.AI

Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents

Die Arbeit stellt \textsc{EvalAct} vor, einen Ansatz, der die Evaluierung von Suchergebnissen zu einer expliziten Aktion macht und durch eine prozessbasierte Optimierung (PCAR) die Zuverlässigkeit von retrieval-basierten Agenten bei mehrstufigen Schlussfolgerungen signifikant verbessert.

Jiangming Shu, Yuxiang Zhang, Ye Ma, Xueyuan Lin, Jitao Sang2026-03-11🤖 cs.AI

← Zurück Weiter →