cs Arbeiten | Gist.Science

Decomposing Physician Disagreement in HealthBench

Die Studie zeigt, dass die Diskrepanz zwischen Ärzten bei der Bewertung medizinischer KI hauptsächlich strukturell bedingt ist und sich zwar durch das Schließen von Informationslücken in Randfällen, nicht aber durch die Beseitigung inhärenter medizinischer Unsicherheiten reduzieren lässt.

Satya Borgohain, Roy Mariathas2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

Das Paper stellt WISER vor, ein training-freies Framework für das Zero-Shot Composed Image Retrieval, das durch eine adaptive Fusion von Text- und Bild-basierten Suchpfaden sowie einen verifizierenden Verfeinerungsprozess die Stärken beider Ansätze kombiniert und damit den aktuellen Stand der Technik deutlich übertrifft.

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

Die Arbeit stellt PackUV vor, eine neuartige 4D-Gaussian-Repräsentation, die durch eine temporalkonsistente Anpassung in strukturierte UV-Atlanten eine effiziente Kompression und Kompatibilität mit Standard-Video-Codecs ermöglicht, während sie gleichzeitig die Rekonstruktionsqualität bei langen Sequenzen und großen Bewegungen verbessert.

Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar2026-03-10💻 cs

On Sample-Efficient Generalized Planning via Learned Transition Models

Diese Arbeit zeigt, dass die Formulierung von generalisierter Planung als Lernproblem für explizite Übergangsmodelle, die Weltzustände autoregressiv vorhersagen, im Vergleich zu direkten Aktionssequenzvorhersagen eine bessere Out-of-Distribution-Generalisierung bei deutlich geringerem Daten- und Modellbedarf ermöglicht.

Nitin Gupta, Vishal Pallagani, John A. Aydin, Biplav Srivastava2026-03-10💻 cs

Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning

Die Arbeit stellt HART vor, ein annotierungsfreies Framework, das Large Multimodal Models durch eine verstärkende Lernmethode namens AP-GRPO befähigt, ohne externe visuelle Labels hochauflösende Eingaben effizient zu analysieren und präzise Schlüsselregionen für das visuelle Reasoning zu lokalisieren.

Jiacheng Yang, Anqi Chen, Yunkai Dang, Qi Fan, Cong Wang, Wenbin Li, Feng Miao, Yang Gao2026-03-10💻 cs

PEPA: a Persistently Autonomous Embodied Agent with Personalities

Die Arbeit stellt PEPA vor, ein dreischichtiges kognitives Architekturkonzept für einen körperlichen Agenten, der durch integrierte Persönlichkeitsmerkmale persistente Autonomie erreicht, indem er selbstständig Ziele generiert und sich ohne externe Vorgabe in dynamischen Umgebungen verhält.

Kaige Liu, Yang Li, Lijun Zhu, Weinan Zhang2026-03-10💻 cs

Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

Die Arbeit stellt Infinite Self-Attention (InfSA) und dessen lineare Variante Linear-InfSA vor, die durch eine spektrale Umformulierung als Neumann-Reihe über Token-Graphen den quadratischen Rechenaufwand von Softmax-Attention umgehen, skalierbare Vision-Transformer mit bis zu 332.000 Tokens ermöglichen und dabei auf ImageNet-1K eine um 3,2 Prozentpunkte höhere Genauigkeit sowie eine 13-fach bessere Energieeffizienz im Vergleich zu herkömmlichen Modellen erreichen.

Giorgio Roffo, Luke Palmer2026-03-10💻 cs

WildActor: Unconstrained Identity-Preserving Video Generation

Das Paper stellt WildActor vor, ein Framework zur Erzeugung von Videos mit konsistenten menschlichen Identitäten unter beliebigen Blickwinkeln und Bewegungen, das auf dem großen Datensatz Actor-18M basiert und durch einen asymmetrischen Identitätserhaltungs-Attention-Mechanismus sowie eine viewpoint-adaptive Monte-Carlo-Sampling-Strategie bestehende Methoden in Bezug auf Ganzkörper-Konsistenz übertrifft.

Qin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu2026-03-10💻 cs

Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

Dieses Positionspapier fordert, dass die Evaluierung moderner visueller Verarbeitungssysteme weg von einer rein metrikzentrierten hin zu einer menschenzentrierten, kontextbewussten und feinkörnigen Bewertung orientiert werden sollte, um die Kluft zwischen objektiven Qualitätsmaßen und menschlicher Wahrnehmung zu überbrücken.

Jinfan Hu, Fanghua Yu, Zhiyuan You, Xiang Yin, Hongyu An, Xinqi Lin, Chao Dong, Jinjin Gu2026-03-10💻 cs

Sustainable Care: Designing Technologies That Support Children's Long-Term Engagement with Social Issues

Dieser Workshop stellt den Entwurfsansatz „nachhaltige Fürsorge" vor, um Technologien zu entwickeln, die Kinder langfristig an sozialen Themen beteiligen, ohne sie durch Angst oder Ohnmacht zu überfordern.

JaeWon Kim, Aayushi Dangol, Rotem Landesman, Alexis Hiniker, McKenna F. Parnes2026-03-10💻 cs

DeAR: Fine-Grained VLM Adaptation by Decomposing Attention Head Roles

Die Arbeit stellt DeAR vor, einen Rahmen zur feinkörnigen Anpassung von Vision-Language-Modellen, der durch die Zerlegung der Rollen von Aufmerksamkeitsköpfen und die Einführung einer rollenbasierten Maskierung die Balance zwischen Aufgabenanpassung und Erhaltung der Null-Shot-Generalisierung verbessert.

Yiming Ma, Hongkun Yang, Lionel Z. Wang, Bin Chen, Weizhi Xian, Jianzhi Teng2026-03-10💻 cs

Digital Twin-Based Cooling System Optimization for Data Center

Diese Studie entwickelt einen auf einem Jahr Betriebsdaten validierten Digitalen Zwilling des Flüssigkühlungssystems des Frontier-Supercomputers, um zu zeigen, dass eine kombinierte Optimierung von Durchflussmenge und Zuleitungstemperatur unter Berücksichtigung von Aktorbeschränkungen bis zu 27,8 % Energieeinsparungen ermöglicht, was deutlich über den Ergebnissen einer reinen Durchflussoptimierung liegt.

Shrenik Jadhav, Zheng Liu2026-03-10💻 cs

Extended Empirical Validation of the Explainability Solution Space

Dieser technische Bericht erweitert die empirische Validierung des Explainability Solution Space (ESS) durch eine domänenübergreifende Evaluation, die dessen Generalisierbarkeit als operatives Entscheidungsunterstützungsinstrument für die Gestaltung von erklärbarer KI-Strategie in sozio-technischen Systemen bestätigt.

Antoni Mestre, Manoli Albert, Miriam Gil, Vicente Pelechano2026-03-10💻 cs

Energy Efficient Traffic Scheduling For Optical LEO Satellite Downlinks

Diese Arbeit entwickelt und bewertet statische sowie adaptive Scheduling-Verfahren für energieeffiziente optische LEO-Satelliten-Downlinks, wobei sich zeigt, dass adaptive Techniken zwar eine höhere Zustellrate unter dynamischen Wetterbedingungen bieten, jedoch auf Kosten einer erhöhten Komplexität und Rechenleistung an Bord gehen.

Ethan Fettes, Pablo G. Madoery, Halim Yanikomeroglu, Gunes Karabulut Kurt, Abhishek Naik, Stéphane Martel2026-03-10💻 cs

HarmonyCell: Automating Single-Cell Perturbation Modeling under Semantic and Distribution Shifts

HarmonyCell ist ein end-to-end Agenten-Framework, das durch eine LLM-gesteuerte semantische Vereinheitlichung und einen adaptiven Monte-Carlo-Baumsuch-Algorithmus die Modellierung von Einzelzell-Perturbationen unter semantischen und distributionellen Verschiebungen automatisiert und dabei sowohl die Ausführungsfähigkeit als auch die Leistung gegenüber Experten-basierten Baselines signifikant verbessert.

Wenxuan Huang, Mingyu Tsoi, Yanhao Huang, Xinjie Mao, Xue Xia, Hao Wu, Jiaqi Wei, Yuejin Yang, Lang Yu, Cheng Tan, Xiang Zhang, Zhangyang Gao, Siqi Sun2026-03-10💻 cs

LLM-assisted Semantic Option Discovery for Facilitating Adaptive Deep Reinforcement Learning

Diese Arbeit stellt einen neuartigen, von großen Sprachmodellen (LLMs) gesteuerten geschlossenen Regelkreis vor, der durch semantische Optionserkennung die Dateneffizienz, Interpretierbarkeit und Übertragbarkeit von Deep Reinforcement Learning verbessert, was in Experimenten mit Office World und Montezuma's Revenge bestätigt wurde.

Chang Yao, Jinghui Qin, Kebing Jin, Hankz Hankui Zhuo2026-03-10💻 cs

MSP-ReID: Hairstyle-Robust Cloth-Changing Person Re-Identification

Die Arbeit stellt das MSP-Framework vor, das durch haarkontrollierte Augmentierung, kleidungserhaltendes Löschen und regionsbasierte Aufmerksamkeitsmechanismen die Robustheit der Personenerkennung bei wechselnder Kleidung gegenüber Haartypenänderungen signifikant verbessert.

Xiangyang He, Lin Wan2026-03-10💻 cs

DINOv3 Visual Representations for Blueberry Perception Toward Robotic Harvesting

Diese Arbeit untersucht die Eignung des visuellen Basismodells DINOv3 als eingefrorener Backbone für die robotische Blaubeerenernte und zeigt, dass es zwar die Segmentierung durch stabile Repräsentationen verbessert, jedoch bei der Detektion von Früchten und Clustern aufgrund von Skalierungsvariationen und räumlichen Aggregationsmustern an Grenzen stößt.

Rui-Feng Wang, Daniel Petti, Yue Chen, Changying Li2026-03-10💻 cs

Event-Driven Safe and Resilient Control of Automated and Human-Driven Vehicles under EU-FDI Attacks

Diese Arbeit stellt einen ereignisgesteuerten, sicheren und resilienten Regelungsrahmen vor, der auf adaptiven Angriffstoleranzmechanismen, datengesteuerten Schätzungen des Verhaltens menschlicher Fahrer und der Integration von Control Barrier Functions sowie Control Lyapunov Functions basiert, um automatisierte Fahrzeuge in gemischtem Verkehr auch unter exponentiell unbeschränkten False-Data-Injection-Angriffen kollisionsfrei und stabil zu steuern.

Yi Zhang, Yichao Wang, Wei Xiao, Mohamadamin Rajabinezhad, Shan Zuo2026-03-10💻 cs

Generalized Per-Agent Advantage Estimation for Multi-Agent Policy Optimization

Die vorgestellte Arbeit führt den Generalized Per-Agent Advantage Estimator (GPAE) ein, ein neuartiges Framework für das Multi-Agenten-Reinforcement-Learning, das durch eine per-Agenten-Wertiteration und ein doppeltes abgeschnittenes Importance-Sampling-Verfahren die Stichprobeneffizienz und Koordination in komplexen Szenarien verbessert, ohne direkte Q-Funktionsschätzungen zu benötigen.

Seongmin Kim, Giseung Park, Woojun Kim, Jiwon Jeon, Seungyul Han, Youngchul Sung2026-03-10💻 cs

← Zurück Weiter →