cs Arbeiten | Gist.Science

Batch-of-Thought: Cross-Instance Learning for Enhanced LLM Reasoning

Die Arbeit stellt Batch-of-Thought (BoT) vor, eine trainingsfreie Methode, die durch die gemeinsame Verarbeitung verwandter Abfragen in einem Multi-Agenten-Architektur-Setups die reasoning-Fähigkeiten von LLMs verbessert, Fehler durch Konsistenzprüfungen erkennt und die Inferenzkosten signifikant senkt.

Xuan Yang, Furong Jia, Roy Xie, Xiong Xi, Hengwei Bian, Jian Li, Monica Agrawal2026-03-10💻 cs

Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

Die Arbeit stellt R^4 vor, ein selbstverbesserndes Agenten-Framework für die medizinische Bildanalyse, das durch Routing, Abruf, Reflexion und Reparatur die Zuverlässigkeit und räumliche Verankerung von Vision-Language-Modellen bei der Generierung von Befunden und Erkennung von Anomalien in Röntgenaufnahmen signifikant verbessert, ohne dabei Gradienten-basiertes Fine-Tuning zu erfordern.

Md. Faiyaz Abdullah Sayeedi, Rashedur Rahman, Siam Tahsin Bhuiyan, Sefatul Wasi, Ashraful Islam, Saadia Binte Alam, AKM Mahbubur Rahman2026-03-10💻 cs

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Diese Studie untersucht den LAION-Aesthetics Predictor und zeigt durch Audits und eine digitale Ethnographie auf, dass das Modell durch die Bevorzugung westlicher und männlicher Perspektiven sowie die Unterdrückung von LGBTQ+-Inhalten bestehende Machtstrukturen in der KI-generierten Bildkunst verstärkt, woraus die Notwendigkeit pluralistischerer Bewertungsansätze abgeleitet wird.

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

Die Arbeit stellt mit „Single-Shot Planning" einen neuen Sicherheitsansatz für Computer-Nutzungs-Agenten vor, der durch eine strikte Trennung von Planung und Ausführung Prompt-Injection-Angriffe verhindert und gleichzeitig Branch-Steering-Angriffe adressiert, wodurch sowohl Sicherheit als auch die Leistungsfähigkeit der Modelle gewährleistet werden.

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao2026-03-10💻 cs

User Detection and Response Patterns of Sycophantic Behavior in Conversational AI

Diese Studie analysiert Reddit-Diskussionen, um zu zeigen, dass Nutzer Sycophantie bei KI-Systemen durch verschiedene Techniken erkennen und bewerten, wobei die Wirkung kontextabhängig ist und für vulnerable Gruppen sogar als emotionale Unterstützung geschätzt wird, was die Forderung nach einer universellen Eliminierung dieses Verhaltens in Frage stellt und kontextsensitive KI-Designs nahelegt.

Kazi Noshin, Syed Ishtiaque Ahmed, Sharifa Sultana2026-03-10💻 cs

BoxMind: Closed-loop AI strategy optimization for elite boxing validated in the 2024 Olympics

Die Studie stellt BoxMind vor, ein geschlossenes KI-Expertensystem, das durch die Umwandlung von Boxkampf-Videos in hierarchische taktische Indikatoren und die Nutzung eines graphbasierten Vorhersagemodells strategische Empfehlungen generiert, die 2024 bei den Olympischen Spielen in Paris zur historischen Medaillenausbeute der chinesischen Nationalmannschaft beitrugen.

Kaiwen Wang, Kaili Zheng, Rongrong Deng, Qingmin Fan, Milin Zhang, Zongrui Li, Xuesi Zhou, Bo Han, Liren Chen, Chenyi Guo, Ji Wu2026-03-10💻 cs

Multifaceted Scenario-Aware Hypergraph Learning for Next POI Recommendation

Die Arbeit stellt MSAHG vor, einen neuartigen Hypergraph-Lernansatz, der durch scenario-spezifische Subhypergraphen und einen parametrischen Trennungsmechanismus die Mobilitätsmuster von Nutzern in unterschiedlichen Kontexten effektiv modelliert und so die Genauigkeit der Empfehlung des nächsten Points of Interest (POI) in Location-Based Social Networks signifikant verbessert.

Yuxi Lin, Yongkang Li, Jie Xing, Zipei Fan2026-03-10💻 cs

S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

Die Arbeit stellt S2DiT vor, einen effizienten Streaming-Sandwich-Diffusions-Transformer, der durch neuartige Aufmerksamkeitsmechanismen, eine budgetbewusste Architektur und einen 2-in-1-Wissensdistillierungsansatz hochwertige Videogenerierung in Echtzeit auf mobilen Geräten wie dem iPhone ermöglicht.

Lin Zhao, Yushu Wu, Aleksei Lebedev, Dishani Lahiri, Meng Dong, Arpit Sahni, Michael Vasilkovsky, Hao Chen, Ju Hu, Aliaksandr Siarohin, Sergey Tulyakov, Yanzhi Wang, Anil Kag, Yanyu Li2026-03-10💻 cs

Equal-Pay Contracts

Die Arbeit untersucht das Design von Verträgen mit gleichen Zahlungen an mehrere Agenten, liefert sowohl Approximationsalgorithmen als auch Härteergebnisse für verschiedene Belohnungsfunktionen, löst damit offene Probleme auch im unbeschränkten Fall und quantifiziert den durch Fairnessbedingung verursachten Nutzenverlust als Preis der Gleichheit.

Michal Feldman, Yoav Gal-Tzur, Tomasz Ponitka, Maya Schlesinger2026-03-10💻 cs

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

Die Arbeit stellt ReViP vor, ein neuartiges Vision-Language-Action-Framework, das durch die Einführung von fortschrittsbewussten visuellen Hinweisen und eine adaptive Rebalancierung von Propriozeption und visueller Wahrnehmung das Problem falscher Aufgabenabschlüsse bei Robotern effektiv löst und die Erfolgsraten im Vergleich zu bestehenden Baselines signifikant steigert.

Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Jiadong Yin, Mu Lin, Yi-Kin Wei, Wei-Shi Zheng2026-03-10💻 cs

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

Die Arbeit stellt ScenePilot-Bench vor, einen umfassenden Benchmark und Datensatz, der darauf abzielt, die Fähigkeiten von Vision-Language-Modellen in sicherheitskritischen Szenarien des autonomen Fahrens durch eine vielschichtige Evaluierung von Szenenverständnis, räumlicher Wahrnehmung und Bewegungsplanung zu bewerten und zu verbessern.

Yujin Wang, Yutong Zheng, Wenxian Fan, Tianyi Wang, Hongqing Chu, Li Zhang, Bingzhao Gao, Daxin Tian, Jianqiang Wang, Hong Chen2026-03-10💻 cs

Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering

Die vorgestellte Arbeit stellt eine neuartige, fragegesteuerte Methode namens QSTar vor, die räumliche, zeitliche und frequenzbasierte Merkmale von Audio und Video integriert, um die Leistung bei Audio-Visuellen Fragen-Antwort-Aufgaben (AVQA) signifikant zu verbessern.

Kun Li, Michael Ying Yang, Sami Sebastian Brandt2026-03-10💻 cs

Dynamic framework for edge-connectivity maintenance of simple graphs

Die Arbeit stellt ein dynamisches Framework vor, das die $k$ -Kanten-Zusammenhangseigenschaft eines ungerichteten einfachen Graphen durch eine Kombination aus Nagamochi-Ibaraki-Sparsifikationszertifikaten und Link-Cut-Bäumen sowie einem Maximalfluss-Algorithmus bei Kantenänderungen effizient aufrechterhält.

Blazej Wrobel2026-03-10💻 cs

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

Die Studie stellt BioAgent Bench vor, eine Evaluierungs-Suite und ein Benchmark-Datensatz, die die Leistung und Robustheit von KI-Agenten bei bioinformatischen Aufgaben messen und dabei feststellen, dass zwar fortschrittliche Modelle komplexe Pipelines erfolgreich ausführen können, jedoch unter gestörten Bedingungen versagen und datenschutzrechtliche Bedenken bei geschlossenen Modellen den Einsatz von Open-Weight-Modellen begünstigen.

Dionizije Fa, Marko Čuljak, Bruno Pandža, Mateo Čupic2026-03-10💻 cs

Real-Time Aligned Reward Model beyond Semantics

Die Arbeit stellt R2M vor, ein leichtgewichtiges RLHF-Framework, das durch die Echtzeit-Nutzung der sich entwickelnden versteckten Zustände des Policy-Modells die Reward-Overoptimierung überwindet und so eine bessere Ausrichtung auf menschliche Präferenzen ermöglicht.

Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang2026-03-10💻 cs

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

Diese Studie zeigt, dass die Kombination von LLM-basierten Nachrichten-Sentiment-Analysen (insbesondere mit DeBERTa und einem Ensemble-Modell) die Vorhersagegenauigkeit von Aktienkursbewegungen signifikant verbessert und verschiedene Klassifikations- sowie Regressionsmodelle unterstützt.

Walid Siala (SnT, University of Luxembourg, Luxembourg), Ahmed Khanfir (RIADI, ENSI, University of Manouba, Tunisia, SnT, University of Luxembourg, Luxembourg), Mike Papadakis (SnT, University of Luxembourg, Luxembourg)2026-03-10💻 cs

From Performers to Creators: Understanding Retired Women's Perceptions of Technology-Enhanced Dance Performance

Diese Studie zeigt, wie durch alterssensible Anpassungen interaktiver Tanztechnologien und KI-generierter Inhalte chinesische Rentnerinnen von passiven Performern zu ermächtigten Co-Kreatoren ihrer Bühnenauftritte werden können.

Danlin Zheng, Xiaoying Wei, Chao Liu, Quanyu Zhang, Jingling Zhang, Shihui Guo, Mingming Fan2026-03-10💻 cs

Cognitive-Flexible Control via Latent Model Reorganization with Predictive Safety Guarantees

Dieser Artikel stellt ein kognitiv flexibles Steuerungsframework vor, das durch eine Online-Anpassung latenter Repräsentationen innerhalb eines Bayesianischen MPC-Schemas Sicherheitsgarantien und Stabilität auch bei abrupten Änderungen der Systemdynamik und Sensorbedingungen gewährleistet.

Thanana Nuchkrua, Sudchai Boonto2026-03-10💻 cs

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

Die Arbeit stellt Green-VLA vor, ein fünfstufiges Vision-Language-Action-Framework, das durch eine skalierbare Datenpipeline, ein einheitliches Aktionsinterface für verschiedene Roboterembodiments und Reinforcement-Learning-Alignment eine robuste Generalisierung und hohe Leistungsfähigkeit für den realen Einsatz von humanoiden Robotern und anderen Manipulatoren ermöglicht.

I. Apanasevich, M. Artemyev, R. Babakyan, P. Fedotova, D. Grankin, E. Kupryashin, A. Misailidi, D. Nerus, A. Nutalapati, G. Sidorov, I. Efremov, M. Gerasyov, D. Pikurov, Y. Senchenko, S. Davidenko, D. Kulikov, M. Sultankin, K. Askarbek, O. Shamanin, D. Statovoy, E. Zalyaev, I. Zorin, A. Letkin, E. Rusakov, A. Silchenko, V. Vorobyov, S. Sobolnikov, A. Postnikov2026-03-10💻 cs

Vulnerability-Amplifying Interaction Loops: a systematic failure mode in AI chatbot mental-health interactions

Die Studie stellt mit SIM-VAIL ein neues Auditierungsframework vor, das systematisch aufdeckt, wie KI-Chatbots durch sogenannte „Vulnerability-Amplifying Interaction Loops" (VAILs) psychische Vulnerabilitäten bei Nutzern über mehrere Gesprächsrunden hinweg verstärken können, und unterstreicht damit die Notwendigkeit multidimensionaler Sicherheitsbewertungen im Bereich der mentalen Gesundheit.

Veith Weilnhammer, Kevin YC Hou, Lennart Luettgau, Christopher Summerfield, Raymond Dolan, Matthew M Nour2026-03-10💻 cs

← Zurück Weiter →