cs.AI Arbeiten | Gist.Science

SR-TTT: Surprisal-Aware Residual Test-Time Training

Die Arbeit stellt SR-TTT vor, eine Methode, die Test-Time-Training-Modelle durch eine verlustgesteuerte, sparse Speichermechanik verbessert, die nur hoch überraschende Tokens in einen exakten Attention-Cache leitet, um so die katastrophalen Erinnerungsfehler bei der genauen Wiederholung von Informationen zu beheben, während der O(1)-Speicherbedarf für den Kontext erhalten bleibt.

Swamynathan V P2026-03-10🤖 cs.LG

Trust Aware Federated Learning for Secure Bone Healing Stage Interpretation in e-Health

Diese Arbeit stellt einen vertrauensbewussten Framework für das Federated Learning vor, der durch adaptive Vertrauensbewertung und Filterung unsicherer Teilnehmer die sichere und robuste Interpretation von Knochenheilungsstadien in dezentralen e-Health-Umgebungen gewährleistet.

Paul Shepherd, Tasos Dagiuklas, Bugra Alkan, Joaquim Bastos, Jonathan Rodriguez2026-03-10🤖 cs.LG

Performance Comparison of IBN orchestration using LLM and SLMs

Diese Arbeit stellt ein neuartiges Framework für die IBN-Orchestrierung in 5G- und 6G-Netzen vor, das eine hierarchische Multi-Agenten-Architektur nutzt und zeigt, dass Small Language Models (SLMs) im Vergleich zu Large Language Models (LLMs) bei gleicher Übersetzungspräzision die Gesamtabwicklungsgeschwindigkeit des IBN-Lebenszyklus um 20 % steigern können.

Wai Lwin Phone, Brahim El Boudani, Tasos Dagiuklas, Saptarshi Ghosh2026-03-10💻 cs

ObjChangeVR: Object State Change Reasoning from Continuous Egocentric Views in VR Environments

Die Arbeit stellt den ObjChangeVR-Datensatz und ein entsprechendes Framework vor, das durch viewpoint-aware und zeitbasierte Abrufmechanismen sowie eine übergreifende Sichtweisen-Integration die Herausforderung der Erkennung von Objektzustandsänderungen in VR-Umgebungen aus kontinuierlichen Egocentric-Ansichten effektiv löst.

Shiyi Ding, Shaoen Wu, Ying Chen2026-03-10💻 cs

HURRI-GAN: A Novel Approach for Hurricane Bias-Correction Beyond Gauge Stations using Generative Adversarial Networks

Die Studie stellt HURRI-GAN vor, einen auf Generative Adversarial Networks basierenden Ansatz, der physikalische Hurrikan-Simulationsmodelle wie ADCIRC durch KI-gestützte Bias-Korrekturen beschleunigt und gleichzeitig die Vorhersagegenauigkeit auch über die Standorte von Pegelmessstationen hinaus verbessert.

Noujoud Nadera, Hadi Majed, Stefanos Giaremis, Rola El Osta, Clint Dawson, Carola Kaiser, Hartmut Kaiser2026-03-10🤖 cs.LG

Geodesic Gradient Descent: A Generic and Learning-rate-free Optimizer on Objective Function-induced Manifolds

Der Artikel stellt den geodätischen Gradientenabstieg (GGD) vor, einen lernratenfreien Riemannschen Optimierungsalgorithmus, der komplexe Geometrien von Zielfunktionen durch lokale Kugeln approximiert und dabei im Vergleich zu Adam signifikant geringere Fehlerwerte auf verschiedenen Datensätzen erzielt.

Liwei Hu, Guangyao Li, Wenyong Wang, Xiaoming Zhang, Yu Xiang2026-03-10🤖 cs.LG

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

Das Paper stellt PaLMR vor, ein Framework, das durch eine wahrnehmungsorientierte Datenschicht und eine prozessbewusste Optimierungsstrategie die visuelle Glaubwürdigkeit von Multimodal Large Language Models verbessert, indem es nicht nur das Endergebnis, sondern auch den gesamten Denkprozess an die visuellen Beweise anpasst.

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian2026-03-10💻 cs

A Parameter-efficient Convolutional Approach for Weed Detection in Multispectral Aerial Imagery

Die Studie stellt FCBNet vor, einen parameter-effizienten Faltungsansatz mit einem eingefrorenen ConvNeXt-Rückgrat und einem Feature-Correction-Block, der bei der Unkrautsegmentierung in multispektralen Luftbildern sowohl eine hohe Genauigkeit (über 85 % mIoU) als auch eine deutliche Reduktion der trainierbaren Parameter und des Rechenaufwands im Vergleich zu bestehenden Modellen erreicht.

Leo Thomas Ramos, Angel D. Sappa2026-03-10💻 cs

GameVerse: Can Vision-Language Models Learn from Video-based Reflection?

Das Paper stellt GameVerse vor, ein umfassendes Benchmark für Videospiele, das nachweist, dass Vision-Language-Modelle durch einen reflektierenden Lernansatz mit Videoanalysen von Fehlern und Tutorials ihre Spielstrategien verbessern können.

Kuan Zhang, Dongchen Liu, Qiyue Zhao, Jinkun Hou, Xinran Zhang, Qinlei Xie, Miao Liu, Yiming Li2026-03-10💻 cs

Science Literacy: Generative AI as Enabler of Coherence in the Teaching, Learning, and Assessment of Scientific Knowledge and Reasoning

Dieses Kapitel untersucht das Potenzial generativer KI, die Wissenschaftskompetenz im K-16+-Bildungsbereich zu stärken, indem es eine kohärente Architektur für Lehre, Lernen und Bewertung entwickelt, die sowohl die neuen Anforderungen an die Wissenschaftskompetenz in der KI-Ära als auch die damit verbundenen konzeptionellen und praktischen Herausforderungen adressiert.

Xiaoming Zhai, James W. Pellegrino, Matias Rojas, Jongchan Park, Matthew Nyaaba, Clayton Cohn, Gautam Biswas2026-03-10💻 cs

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

Die Arbeit stellt Graph-of-Mark (GoM) vor, eine neuartige pixelbasierte visuelle Prompting-Technik, die durch das Überlagern von Szenengraphen auf Eingabebilder die räumliche Schlussfolgerung multimodaler Sprachmodelle signifikant verbessert und dabei die Genauigkeit bei Null-Shot-Aufgaben um bis zu 11 Prozentpunkte steigert.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

Diese Arbeit stellt ein systemweites Inferenz-Optimierungskonzept für DiT-basierte Videogenerierungsmodelle vor, das durch die Einführung einer sequenzparallelen Variante der kausalen Rotary-Positional-Embeddings (Causal-RoPE SP) sowie durch Operator-Fusion und Vorberechnung den Speicherbedarf und die Latenz drastisch reduziert und damit Echtzeit-Anwendungen ermöglicht.

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

Die Studie zeigt, dass Chain-of-Thought-Prompting bei medizinischen visuellen Fragestellungen häufig schlechter abschneidet als direkte Antworten, da ein medizinischer Wahrnehmungsengpass die visuelle Verankerung schwächt, was durch trainingsfreie Eingriffe wie „Perception Anchoring" und „Description Grounding" effektiv behoben werden kann.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

Hybrid Orchestration of Edge AI and Microservices via Graph-based Self-Imitation Learning

Die Arbeit stellt SIL-GPO vor, einen auf Graph-Attention-Netzwerken und Selbst-Imitationslernen basierenden Reinforcement-Learning-Ansatz, der die Orchestrierung von Edge-AI-Mikrodiensten durch gleichzeitige Optimierung von Bereitstellung und Routing unter ressourcenbeschränkten Bedingungen effizienter gestaltet als bestehende Methoden.

Chen Yang, Jin Zheng, Yang Zhuolin, Lai Pan, Zhang Xiao, Hu Menglan, Yin Haiyan2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

Die Arbeit stellt CalibFusion vor, einen differenzierbaren Transformer-basierten Ansatz zur End-to-End-Verfeinerung der Radarkamera-Extrinsik, der speziell für die robuste Fusion in wasserbasierten Umgebungen mit texturarmen Flächen und Clutter entwickelt wurde und die Genauigkeit der 2D-Objektdetektion verbessert.

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

ERP-RiskBench: Leakage-Safe Ensemble Learning for Financial Risk

Die Arbeit stellt ERP-RiskBench vor, ein leakage-sicheres Ensemble-Learning-Framework zur zuverlässigen Erkennung von Finanzrisiken in ERP-Systemen, das durch eine robuste Datenbasis und strikte Validierungsprotokolle überhöhte Leistungsschätzungen vermeidet und Procurement-Kontrollen als entscheidende Prädiktoren identifiziert.

Sanjay Mishra2026-03-10🤖 cs.LG

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

Die Studie zeigt, dass sich die bei Bildmodellen beobachteten Vorteile der semantischen Rauschinitialisierung nicht signifikant auf Text-zu-Video-Generierung übertragen lassen, da die zeitliche Kopplung zu einer Instabilität führt, die den Gesamtscore im Vergleich zur Standard-Gaußschen Rauschinitialisierung nicht verbessert.

Yixiao Jing, Chaoyu Zhang, Zixuan Zhong, Peizhou Huang2026-03-10💻 cs

AutoFigure-Edit: Generating Editable Scientific Illustration

Das Paper stellt AutoFigure-Edit vor, ein End-to-End-System, das aus langen wissenschaftlichen Texten vollständig bearbeitbare und stilistisch anpassbare wissenschaftliche Illustrationen in SVG-Format generiert.

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

XAI and Few-shot-based Hybrid Classification Model for Plant Leaf Disease Prognosis

Diese Arbeit stellt ein hybrides Few-Shot-Learning-Modell vor, das Siamesische und Prototypische Netzwerke mit Explainable AI (Grad-CAM) kombiniert, um Pflanzenkrankheiten bei Mais, Reis und Weizen auch bei begrenzten annotierten Daten mit hoher Genauigkeit und Transparenz zu identifizieren.

Diana Susan Joseph, Pranav M Pawar, Raja Muthalagu, Mithun Mukharjee2026-03-10🤖 cs.LG

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

Die Arbeit stellt PRPO und MCDR-Bench vor, ein Framework, das durch parallele relative Policy-Optimierung und eine objektive Fehler-basierte Evaluierung die tiefgehenden Analysefähigkeiten von Large Vision-Language Models für Diagramme systematisch verbessert.

Jiajin Tang, Gaoyang, Wenjie Wang, Sibei Yang, Xing Chen2026-03-10🤖 cs.LG

← Zurück Weiter →