cs Arbeiten | Gist.Science

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

Die Arbeit „CodePercept" identifiziert die Wahrnehmungsfähigkeit als den entscheidenden Engpass für MLLMs im visuellen STEM-Reasoning und schlägt einen Paradigmenwechsel vor, bei dem ausführbarer Code als präzises Wahrnehmungsmedium dient, was durch die Einführung des 1-Millionen-Einträge-Datensatzes ICC-1M und des Evaluierungsbenchmarks STEM2Code-Eval untermauert wird.

Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang2026-03-12💻 cs

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

Das Paper stellt RAGPerf vor, ein Open-Source-Framework zur umfassenden End-to-End-Leistungsbewertung von Retrieval-Augmented-Generation-Systemen, das durch modulare Komponenten, flexible Konfiguration und automatisierte Metrikenerfassung detaillierte Analysen ermöglicht, ohne nennenswerten Overhead zu verursachen.

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian Huang2026-03-12💻 cs

Aceso: Carbon-Aware and Cost-Effective Microservice Placement for Small and Medium-sized Enterprises

Die Arbeit stellt Aceso vor, ein adaptives System zur kohlenstoff- und kosteneffizienten Platzierung von Microservices für KMU in regional begrenzten Infrastrukturen, das durch dynamische Optimierung und Suchraumverkleinerung im Vergleich zu statischen Bereitstellungen die CO₂-Emissionen um 37,4 % und die Betriebskosten um 3,6 % senkt, ohne dabei Service-Level-Vereinbarungen zu verletzen.

Georgia Christofidi, Francisco Álvarez-Terribas, Ioannis Roumpos, Nicolas Kourtellis, Jesus Omaña Iglesias, Thaleia Dimitra Doudali2026-03-12💻 cs

AI-Generated Rubric Interfaces: K-12 Teachers' Perceptions and Practices

Die Studie zeigt, dass K-12-Lehrkräfte KI-generierte Bewertungsraster als hilfreiche Ausgangspunkte betrachten, die jedoch aufgrund von Anpassungsbedarf und mangelnder Flexibilität eine aktive menschliche Kontrolle und einfache Individualisierungsmöglichkeiten für eine sinnvolle Integration in den Unterrichtsalltag erfordern.

Bahare Riahi, Sayali Patukale, Joy Niranjan, Yogya Koneru, Tiffany Barnes, Veronica Cateté2026-03-12💻 cs

Incremental Federated Learning for Intrusion Detection in IoT Networks under Evolving Threat Landscape

Diese Studie analysiert die Leistungsfähigkeit inkrementeller Federated-Learning-Ansätze mit LSTM-Modellen auf dem CICIoMT2024-Datensatz, um ressourcenschonende und drift-resistente Intrusion-Detection-Systeme für IoT-Netzwerke zu entwickeln, wobei sich zeigt, dass kumulative und repräsentative Lernstrategien die stabilste Leistung bieten.

Muaan Ur Rehman, Hayretdin Bahs, Rajesh Kalakoti2026-03-12💻 cs

Guiding Diffusion Models with Semantically Degraded Conditions

Die vorgestellte Arbeit führt die Condition-Degradation Guidance (CDG) ein, eine rechenleichte Methode, die das herkömmliche Null-Prompt durch strategisch degradierte Bedingungen ersetzt, um Diffusionsmodelle bei komplexen Zusammensetzungen zu präziseren semantischen Unterscheidungen zu führen und so die Bildtext-Übereinstimmung signifikant zu verbessern.

Shilong Han, Yuming Zhang, Hongxia Wang2026-03-12💻 cs

Phase-Interface Instance Segmentation as a Visual Sensor for Laboratory Process Monitoring

Die vorgestellte Arbeit stellt mit LGA-RCM-YOLO ein auf YOLO11m-basiertes Modell vor, das zusammen mit dem neuen CTG 2.0-Datensatz die instanzbasierte Segmentierung von Phasengrenzen in transparentem Labor-Glaswerk ermöglicht und so eine zuverlässige visuelle Überwachung chemischer Prozesse für die Laborautomatisierung realisiert.

Mingyue Li, Xin Yang, Shilin Yan, Jinye Ran, Morui Zhu, Zirui Peng, Huanqing Peng, Wei Peng, Guanghua Zhang, Shuo Li, Hao Zhang2026-03-12💻 cs

The Quadratic Geometry of Flow Matching: Semantic Granularity Alignment for Text-to-Image Synthesis

Diese Arbeit führt die Methode der semantischen Granularitätsausrichtung (SGA) ein, die auf einer geometrischen Analyse der Flow-Matching-Optimierung basiert, um Gradientenkonflikte zu mildern und so die Konvergenzgeschwindigkeit sowie die strukturelle Integrität bei der Text-zu-Bild-Synthese zu verbessern.

Zhinan Xiong, Shunqi Yuan2026-03-12💻 cs

Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

Diese Studie widerlegt die Annahme, dass KI-Agenten die menschliche Prüfung von Smart Contracts vollständig ersetzen können, indem sie aufzeigen, dass die ursprünglichen EVMbench-Ergebnisse durch Datenkontamination und mangelnde Robustheit verzerrt waren und reale Sicherheitsvorfälle eine menschliche Expertise erfordern.

Chaoyuan Peng, Lei Wu, Yajin Zhou2026-03-12💻 cs

PolGS++: Physically-Guided Polarimetric Gaussian Splatting for Fast Reflective Surface Reconstruction

Das Paper stellt PolGS++ vor, ein physikalisch geleitetes Framework zur polarimetrischen Gaussian Splatting, das durch die Integration eines pBRDF-Modells und einer tiefenbasierten Sichtbarkeitsmaske eine schnelle und präzise Rekonstruktion reflektierender Oberflächen ermöglicht.

Yufei Han, Chu Zhou, Youwei Lyu, Qi Chen, Si Li, Boxin Shi, Yunpeng Jia, Heng Guo, Zhanyu Ma2026-03-12💻 cs

Backdoor Directions in Vision Transformers

Diese Arbeit untersucht die Repräsentation von Backdoor-Angriffen in Vision Transformern, identifiziert eine kausale „Trigger-Richtung" in den Aktivierungen, die zur Diagnose und zum Verständnis der Verarbeitungslogik verschiedener Trigger-Typen sowie zur Entwicklung eines gewichtsbasierten, datenfreien Detektionsverfahrens genutzt wird.

Sengim Karayalcin, Marina Krcek, Pin-Yu Chen, Stjepan Picek2026-03-12💻 cs

Beyond Standard Datacubes: Extracting Features from Irregular and Branching Earth System Data

Dieser Artikel stellt eine generalisierte Datenhyperwürfel-Repräsentation auf Basis komprimierter Baumstrukturen vor, die in Kombination mit dem Polytope-Framework eine effiziente und flexible Merkmalsextraktion aus komplexen, unregelmäßigen und verzweigten Erdbeobachtungsdatensätzen ermöglicht.

Mathilde Leuridan, James Hawkes, Tiago Quintino, Martin Schultz2026-03-12💻 cs

HanMoVLM: Large Vision-Language Models for Professional Artistic Painting Evaluation

Die Arbeit stellt HanMoVLM vor, ein auf Large Vision-Language Models basierendes System, das durch die Einführung des HanMo-Bench-Datensatzes und expertenvalidiertes Chain-of-Thought-Reasoning professionelle Bewertungen chinesischer Gemälde ermöglicht und als hochqualitativer Verifizierer die Testzeit-Skalierung für die Generierung künstlerisch überlegener Bilder unterstützt.

Hongji Yang, Yucheng Zhou, Wencheng Han, Songlian Li, Xiaotong Zhao, Jianbing Shen2026-03-12💻 cs

A dataset of medication images with instance segmentation masks for preventing adverse drug events

Die Studie stellt MEDISEG vor, einen umfassenden Datensatz mit Instanzsegmentierungsmasken für 32 Pillentypen in 8262 Bildern, der dazu dient, KI-Modelle zur zuverlässigen Erkennung von Medikamenten in realen Szenarien zu trainieren und so Medikationsfehler zu verhindern.

W. I. Chu, S. Hirani, G. Tarroni, L. Li2026-03-12💻 cs

Spatially conditioned dynamics between population and built form

Die Studie entwickelt einen skalierbaren, räumlich expliziten Rahmen, der auf Basis von Geographically Weighted Classification Models zeigt, dass die Beziehung zwischen Bevölkerung und bebauter Umwelt in Tschechien räumlich heterogen ist und bestimmte Bebauungstypen soziale Ungleichheiten verstärken können.

Anna Brazdova, Martin Fleischmann2026-03-12💻 cs

Evaluating Few-Shot Pill Recognition Under Visual Domain Shift

Diese Studie zeigt, dass Few-Shot-Methoden die semantische Erkennung von Pillen auch mit nur einem Beispiel effektiv anpassen können, jedoch unter realen Bedingungen wie Überlappungen und Verdeckungen die Lokalisierung und Rückrufrate signifikant abfallen, was die Notwendigkeit realistischer Trainingsdaten für den Einsatz unterstreicht.

W. I. Chu, G. Tarroni, L. Li2026-03-12💻 cs

MAD: Memory Allocation meets Software Diversity

Das Paper stellt MAD vor, einen hardware- und softwareunabhängigen Ansatz, der durch die Kombination von Speicherallokation mit Software-Diversität und zwei neuartigen räumlichen Diversifizierungstechniken RowHammer-Angriffe verzögert, um Zeit für weitere Gegenmaßnahmen zu gewinnen.

Manuel Wiesinger, Daniel Dorfmeister, Stefan Brunthaler2026-03-12💻 cs

Topological Analysis for Identifying Anomalies in Serverless Platforms

Diese Arbeit stellt ein topologisches Modell für serverlose Plattformen vor, das mithilfe der Hodge-Zerlegung harmonische Flusskomponenten als strukturelle Systemeigenschaften identifiziert und iterative Strategien zur Fehlerbehebung sowie zur Eindämmung von Ineffizienzen durch „Dumping-Effekte" entwickelt.

Gianluca Reali, Mauro Femminella2026-03-12💻 cs

UltrasoundAgents: Hierarchical Multi-Agent Evidence-Chain Reasoning for Breast Ultrasound Diagnosis

Die Arbeit stellt UltrasoundAgents vor, ein hierarchisches Multi-Agenten-Framework, das durch einen entkoppelten progressiven Trainingsansatz und eine evidenzbasierte Schlussfolgerungskette die Brustultraschalldiagnose verbessert, indem es den klinischen Workflow nachahmt und transparente, nachvollziehbare BI-RADS-Klassifikationen liefert.

Yali Zhu, Kang Zhou, Dingbang Wu, Gaofeng Meng2026-03-12💻 cs

OSUM-Pangu: An Open-Source Multidimension Speech Understanding Foundation Model Built upon OpenPangu on Ascend NPUs

Der Artikel stellt OSUM-Pangu vor, ein vollständig quelloffenes Sprachverständnis-Grundmodell, das auf der OpenPangu-7B-Architektur basiert und speziell für den Einsatz auf Ascend-NPUs ohne CUDA-Infrastruktur entwickelt wurde, wobei es eine mit GPU-basierten Modellen vergleichbare Genauigkeit erreicht.

Yujie Liao, Xuelong Geng, Hongfei Xue, Shuiyuan Wang, Lei Xie2026-03-12💻 cs

← Zurück Weiter →