cs.AI Arbeiten | Gist.Science

CORE-Seg: Reasoning-Driven Segmentation for Complex Lesions via Reinforcement Learning

Die Arbeit stellt CORE-Seg vor, ein auf Verstärkungslernen basierendes Framework, das durch die Integration von Chain-of-Thought-Reasoning und einem semantisch geführten Prompt-Adapter die Segmentierung komplexer Läsionen in medizinischen Bildern signifikant verbessert.

Yuxin Xie, Yuming Chen, Yishan Yang, Yi Zhou, Tao Zhou, Zhen Zhao, Jiacheng Liu, Huazhu Fu2026-03-09🤖 cs.AI

DeepFact: Co-Evolving Benchmarks and Agents for Deep Research Factuality

Die Arbeit stellt DeepFact vor, ein Framework, das durch einen iterativen Audit-und-Bewertungsprozess (AtS) robuste Benchmarks für die Faktenprüfung von Deep-Research-Berichten schafft und gleichzeitig einen überlegenen Verifikations-Agenten entwickelt, der die Grenzen statischer Evaluierungsmethoden überwindet.

Yukun Huang, Leonardo F. R. Ribeiro, Momchil Hardalov, Bhuwan Dhingra, Markus Dreyer, Venkatesh Saligrama2026-03-09🤖 cs.AI

Stock Market Prediction Using Node Transformer Architecture Integrated with BERT Sentiment Analysis

Diese Studie stellt ein integriertes Framework vor, das eine Node-Transformer-Architektur mit BERT-basierter Sentiment-Analyse kombiniert, um durch die Modellierung von Graphstrukturen und Marktstimmungen die Vorhersagegenauigkeit von Aktienkursen signifikant zu verbessern.

Mohammad Al Ridhawi, Mahtab Haj Ali, Hussein Al Osman2026-03-09🤖 cs.AI

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

Die Arbeit stellt BlackMirror vor, ein trainingsfreies Black-Box-Framework zur Erkennung von Backdoors in Text-zu-Bild-Modellen, das durch die Analyse von Abweichungen zwischen Bildinhalten und Anweisungen sowie deren Stabilität über verschiedene Prompts hinweg neue, visuell diverse Angriffe effektiv identifiziert.

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang2026-03-09🤖 cs.AI

RAC: Rectified Flow Auto Coder

Das Paper stellt den Rectified Flow Auto Coder (RAC) vor, der durch die Nutzung von geraden Flusspfaden für mehrstufige Decodierung und bidirektionale Inferenz die Rekonstruktions- und Generierungsqualität von VAEs bei etwa 41 % weniger Parametern und 70 % geringerem Rechenaufwand signifikant verbessert.

Sen Fang, Yalin Feng, Yanxin Zhang, Dimitris N. Metaxas2026-03-09🤖 cs.AI

Addressing the Ecological Fallacy in Larger LMs with Human Context

Diese Arbeit zeigt, dass die Berücksichtigung des menschlichen Kontexts (Autoren) durch die HuLM- und HuFT-Methoden die Leistung eines größeren 8B Llama-Modells verbessert und damit die Bedeutung der Modellierung von Sprache im Kontext ihrer ursprünglichen Ersteller unterstreicht.

Nikita Soni, Dhruv Vijay Kunjadiya, Pratham Piyush Shah, Dikshya Mohanty, H. Andrew Schwartz, Niranjan Balasubramanian2026-03-09🤖 cs.AI

Facial Expression Recognition Using Residual Masking Network

Diese Arbeit stellt ein Residual Masking Network vor, das eine Segmentierungsarchitektur nutzt, um CNNs bei der Gesichtsausdruckserkennung zu verbessern und dabei auf den Datensätzen FER2013 und VEMO einen neuen State-of-the-Art erreicht.

Luan Pham, The Huynh Vu, Tuan Anh Tran2026-03-09🤖 cs.AI

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

Diese Arbeit stellt einen systematischen XAI-Ansatz vor, der Roh-Ausführungsprotokolle von LLM-Coding-Agenten durch eine domänenspezifische Fehler-Taxonomie, automatische Annotation und hybride Erklärungen in verständliche, visuelle und handlungsorientierte Insights umwandelt, wodurch die Fehleranalyse und -behebung für Entwickler signifikant beschleunigt und präzisiert wird.

Arun Joshi2026-03-09🤖 cs.AI

Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models

Die Arbeit stellt E-AdaPrune vor, einen energiegetriebenen adaptiven Pruning-Ansatz für Vision-Language-Modelle, der den Token-Budget dynamisch basierend auf der spektralen Energie der Bildmerkmale anpasst, um ohne zusätzliche lernbare Parameter die Effizienz zu steigern und die Leistung auf Benchmarks zu verbessern.

Jialuo He, Huangxun Chen2026-03-09🤖 cs.AI

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

Diese Studie entwickelt interpretierbare Modelle, die psychologische Theorien über die Interaktion von Person und Situation mit Sprachdaten kombinieren, um das dynamische Wohlbefinden in sozialen Medien präziser und nachvollziehbarer zu erfassen als rein embedding-basierte Ansätze.

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Domain-Adaptive Model Merging across Disconnected Modes

Die Arbeit stellt DMM vor, ein datenfreies Framework, das spezialisierte Modelle durch schrittweises Zusammenführen ähnlicher Modelle und Wissensdistillation auf synthetischen Daten erfolgreich zu einem robusten, domänenadaptiven Gesamtmodell vereint.

Junming Liu, Yusen Zhang, Rongchao Zhang, Wenkai Zhu, Tian Wu2026-03-09🤖 cs.AI

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

Die vorgestellte Arbeit führt das "Skeleton-to-Image Encoding" (S2I) ein, eine Methode, die 3D-Gerüstsequenzen in bildähnliche Darstellungen umwandelt, um leistungsstarke, visuell vortrainierte Modelle für das selbstüberwachte Lernen von Skelettrepräsentationen nutzbar zu machen und so die Verarbeitung heterogener Skelettdaten zu vereinheitlichen.

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

Die Arbeit stellt ProCap vor, ein neuartiges Framework, das die Bildveränderungsbeschreibung durch die explizite Modellierung dynamischer Veränderungsprozesse mittels eines zweistufigen Ansatzes mit einem prozeduralen Encoder und lernbaren Abfragen verbessert, anstatt sich auf statische Bildpaare zu verlassen.

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

An Interactive Multi-Agent System for Evaluation of New Product Concepts

Diese Studie stellt ein automatisiertes, auf einem Large-Language-Model basierendes Multi-Agenten-System vor, das durch spezialisierte virtuelle Agenten, Retrieval-Augmented Generation und Feinabstimmung auf Fachdaten objektive Bewertungen von Produktkonzepten hinsichtlich technischer und marktbezogener Machbarkeit ermöglicht und dabei die Effizienz und Konsistenz mit Expertenmeinungen nachweist.

Bin Xuan, Ruo Ai, Hakyeon Lee2026-03-09🤖 cs.AI

Technical Report: Automated Optical Inspection of Surgical Instruments

Dieser Bericht beschreibt die Entwicklung eines automatisierten optischen Inspektionssystems auf Basis von Deep-Learning-Architekturen wie YOLOv8, ResNet-152 und EfficientNet-b4, das unter Einbeziehung von Industriepartnern aus Sialkot auf einem Datensatz von 4.414 Bildern trainiert wurde, um Fertigungsfehler bei chirurgischen Instrumenten aus Pakistan zu erkennen und so die Patientensicherheit sowie die Produktionsqualität zu gewährleisten.

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

TADPO: Reinforcement Learning Goes Off-road

Die Arbeit stellt TADPO vor, ein neuartiges Reinforcement-Learning-System, das eine verbesserte Policy-Gradient-Methode nutzt, um hochgeschwindigkeitsfähige Offroad-Fahrzeuge erstmals erfolgreich in der Simulation und im realen Einsatz ohne Anpassungen zu steuern.

Zhouchonghao Wu, Raymond Song, Vedant Mundheda, Luis E. Navarro-Serment, Christof Schoenborn, Jeff Schneider2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

Der Artikel stellt MM-ISTS vor, ein multimodales Framework, das durch die Integration von Vision-Text-LLMs, einem neuartigen Zwei-Stage-Kodierungsmechanismus und einer adaptiven Abfrage-basierten Merkmalsextraktion die Vorhersage unregelmäßig abgetasteter Zeitreihen verbessert, indem es zeitliche, visuelle und textuelle Kontexte effektiv verknüpft.

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

Diese Arbeit stellt das diagnostische Benchmark ICBench vor, um das Phänomen der „linguistischen Blindheit" in Vision-Language-Action-Modellen aufzudecken, und schlägt mit IGAR eine trainingsfreie Methode zur Nachkalibrierung der Aufmerksamkeit vor, die die Zuverlässigkeit bei widersprüchlichen Sprachanweisungen ohne Architekturänderungen wiederherstellt.

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

Demystifying KAN for Vision Tasks: The RepKAN Approach

Die Arbeit stellt RepKAN vor, eine neuartige Architektur, die die strukturelle Effizienz von CNNs mit der nichtlinearen Repräsentationskraft von KANs kombiniert, um für die Fernerkundungsbildklassifizierung sowohl überlegene Leistung als auch physikalisch interpretierbare Erkenntnisse zu erzielen.

Minjong Cheon2026-03-09🤖 cs.AI

MASFactory: A Graph-centric Framework for Orchestrating LLM-Based Multi-Agent Systems with Vibe Graphing

Die Arbeit stellt MASFactory vor, ein graphenzentriertes Framework zur Orchestrierung von LLM-basierten Multi-Agenten-Systemen, das durch die neuartige „Vibe Graphing"-Methode die Umwandlung natürlicher Sprachabsichten in ausführbare Workflow-Graphen ermöglicht und dabei Wiederverwendbarkeit sowie einfache Integration externer Kontextquellen verbessert.

Yang Liu, Jinxuan Cai, Yishen Li, Qi Meng, Zedi Liu, Xin Li, Chen Qian, Chuan Shi, Cheng Yang2026-03-09🤖 cs.AI

← Zurück Weiter →