cs.AI Arbeiten | Gist.Science

Cultural Perspectives and Expectations for Generative AI: A Global Survey Approach

Diese Studie analysiert auf Basis einer globalen Umfrage unterschiedliche kulturelle Perspektiven und Erwartungen an Generative KI, um daraus handlungsleitende Empfehlungen für eine kultursensible und partizipative KI-Entwicklung abzuleiten.

Erin van Liemt, Renee Shelby, Andrew Smart, Sinchana Kumbale, Richard Zhang, Neha Dixit, Qazi Mamunur Rashid, Jamila Smith-Loud2026-03-09🤖 cs.AI

LTLGuard: Formalizing LTL Specifications with Compact Language Models and Lightweight Symbolic Reasoning

Das Paper stellt LTLGuard vor, ein modulares Werkzeug, das kompakte Sprachmodelle mit formalen Konsistenzprüfungen kombiniert, um aus unpräzisen natürlichen Sprachanforderungen korrekte und widerspruchsfreie LTL-Spezifikationen zu generieren.

Medina Andresel, Cristinel Mateis, Dejan Nickovic, Spyridon Kounoupidis, Panagiotis Katsaros, Stavros Tripakis2026-03-09🤖 cs.AI

Revisiting the (Sub)Optimality of Best-of-N for Inference-Time Alignment

Diese Arbeit zeigt, dass Best-of-N-Sampling unter praxisnahen Annahmen bezüglich der Win-Rate statistisch und rechnerisch optimal ist, und schlägt eine einfache Variante vor, die Reward-Hacking eliminiert, ohne die Leistung zu beeinträchtigen.

Ved Sriraman, Adam Block2026-03-09🤖 cs.AI

TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks

Die Studie stellt TML-Bench vor, einen Benchmark zur Evaluierung autonomer Data-Science-Agenten auf Tabular-Machine-Learning-Aufgaben, der zeigt, dass das MiniMax-M2.1-Modell über vier Kaggle-Wettbewerbe hinweg die beste Gesamtleistung erzielt und die Erfolgsquote mit längeren Zeitbudgets steigt.

Mykola Pinchuk2026-03-09🤖 cs.AI

Bridging Domains through Subspace-Aware Model Merging

Die Arbeit stellt SCORE vor, eine Methode zur Subraum-Konfliktlösung, die durch die Projektion von Task-Matrizen auf eine gemeinsame orthogonale Basis die Generalisierungsfähigkeit von fusionierten Modellen auf unbekannte Domänen verbessert.

Levy Chaves, Chao Zhou, Rebekka Burkholz, Eduardo Valle, Sandra Avila2026-03-09🤖 cs.AI

Depth Charge: Jailbreak Large Language Models from Deep Safety Attention Heads

Die Arbeit stellt SAHA vor, ein neues Jailbreak-Framework, das durch die gezielte Manipulation tieferer, unzureichend abgestimmter Aufmerksamkeitsköpfe mittels einer Ablations-basierten Auswahlstrategie und schichtweiser Perturbation die Sicherheit von Open-Source-LLMs effektiver umgeht als bisherige Methoden.

Jinman Wu, Yi Xie, Shiqian Zhao, Xiaofeng Chen2026-03-09🤖 cs.AI

Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

Diese Arbeit stellt die Disentangled Safety Hypothesis (DSH) vor, die Sicherheitsmechanismen in großen Sprachmodellen in zwei entkoppelte Unterräume – Erkennung und Ausführung – zerlegt, um durch gezielte Angriffe wie den „Refusal Erasure Attack" (REA) ein „Wissen ohne Handeln" zu erzeugen und so die Anfälligkeit aktueller Sicherheitsalignments aufzuzeigen.

Jinman Wu, Yi Xie, Shen Lin, Shiqian Zhao, Xiaofeng Chen2026-03-09🤖 cs.AI

PVminerLLM: Structured Extraction of Patient Voice from Patient-Generated Text using Large Language Models

Die Studie stellt PVminerLLM vor, einen speziell feinabgestimmten Large Language Model, der Patiententexte zuverlässig strukturiert analysiert und dabei Prompt-basierte Baseline-Modelle in der Extraktion von sozialen und erfahrungsbasierten Gesundheitsfaktoren deutlich übertrifft.

Samah Fodeh, Linhai Ma, Ganesh Puthiaraju, Srivani Talakokkul, Afshan Khan, Ashley Hagaman, Sarah Lowe, Aimee Roundtree2026-03-09🤖 cs.AI

Balancing Domestic and Global Perspectives: Evaluating Dual-Calibration and LLM-Generated Nudges for Diverse News Recommendation

Diese Studie zeigt, dass ein personalisierter Diversitäts-Nudge-Framework mit einem dualen Kalibrierungsalgorithmus die Vielfalt des Nachrichtenkonsums (inländisch und global) bei US-Nutzern erfolgreich steigern kann, wobei die Relevanz zu vorher gelesenen Artikeln ein stärkerer Klick-Prädiktor ist als generische Themen und langfristige Exposition zu einer Präferenz für ausgewogene Nachrichten führt.

Ruixuan Sun, Matthew Zent, Minzhu Zhao, Thanmayee Boyapati, Xinyi Li, Joseph A. Konstan2026-03-09🤖 cs.AI

Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval

Die Arbeit stellt BM25-V vor, ein effizientes zweistufiges Bildsuchsystem, das Okapi-BM25-Bewertungen auf spärliche visuelle Wortaktivierungen eines Sparse Auto-Encoders anwendet, um eine hohe Trefferquote zu erreichen und gleichzeitig die Interpretierbarkeit der Suchergebnisse zu verbessern.

Donghoon Han, Eunhwan Park, Seunghyeon Seo2026-03-09🤖 cs.AI

Proof-of-Guardrail in AI Agents and What (Not) to Trust from It

Die Arbeit stellt „Proof-of-Guardrail" vor, ein System, das mithilfe von Trusted Execution Environments (TEEs) kryptografische Nachweise für die Ausführung von Sicherheitsguardrails durch KI-Agenten ermöglicht, um das Vertrauen in die Sicherheit zu stärken, gleichzeitig aber vor Täuschungsversuchen durch böswillige Entwickler warnt.

Xisen Jin, Michael Duan, Qin Lin, Aaron Chan, Zhenglun Chen, Junyi Du, Xiang Ren2026-03-09🤖 cs.AI

StreamWise: Serving Multi-Modal Generation in Real-Time at Scale

Der Paper stellt StreamWise vor, ein adaptives, modulares Serversystem, das durch dynamisches Management von Qualität, Parallelisierung und ressourcenbewusster Planung auf heterogener Hardware effiziente Echtzeit-Multi-Modal-Generierung (z. B. für Podcast-Videos) unter strengen Latenz- und Kosteneinschränkungen ermöglicht.

Haoran Qiu, Gohar Irfan Chaudhry, Chaojie Zhang, Íñigo Goiri, Esha Choukse, Rodrigo Fonseca, Ricardo Bianchini2026-03-09🤖 cs.AI

Ambiguity Collapse by LLMs: A Taxonomy of Epistemic Risks

Diese Arbeit führt das Konzept des „Ambiguitätskollapses" ein, bei dem Large Language Models mehrdeutige Begriffe in eine einzige Interpretation zwingen, und entwickelt eine Taxonomie der daraus resultierenden epistemischen Risiken auf Prozess-, Output- und Ökosystemebene, um schließlich Lösungsansätze für den bewussten Umgang mit Ambiguität zu skizzieren.

Shira Gur-Arieh, Angelina Wang, Sina Fazelpour2026-03-09🤖 cs.AI

Margin and Consistency Supervision for Calibrated and Robust Vision Models

Die Arbeit stellt MaCS vor, ein architekturunabhängiges Regularisierungsframework, das durch die Kombination von Margin- und Konsistenzstrafen die Kalibrierung und Robustheit von Vision-Modellen verbessert, ohne zusätzliche Daten oder Architekturänderungen zu erfordern.

Salim Khazem2026-03-09🤖 cs.AI

Lexara: A User-Centered Toolkit for Evaluating Large Language Models for Conversational Visual Analytics

Das Paper stellt Lexara vor, ein benutzerzentriertes Toolkit zur Evaluierung von Large Language Models für konversationelle visuelle Analysen, das auf Interviews mit Entwicklern und Nutzern basiert und realistische Testfälle sowie interpretierbare Metriken für die Bewertung von Visualisierungs- und Sprachqualität ohne Programmierkenntnisse bereitstellt.

Srishti Palani, Vidya Setlur2026-03-09🤖 cs.AI

Evaluating LLM Alignment With Human Trust Models

Diese Studie analysiert die interne Repräsentation von Vertrauen im Modell EleutherAI/gpt-j-6B und zeigt, dass diese am stärksten mit dem sozio-kognitiven Modell von Castelfranchi übereinstimmt, was neue Einblicke in die soziale Kognition von KI-Systemen ermöglicht.

Anushka Debnath, Stephen Cranefield, Bastin Tony Roy Savarimuthu, Emiliano Lorini2026-03-09🤖 cs.AI

Remote Sensing Image Classification Using Deep Ensemble Learning

Diese Arbeit stellt eine Deep-Ensemble-Methode vor, die CNNs und Vision Transformers kombiniert, um durch das Ensembling vier unabhängiger Fusionsmodelle die Redundanz zu überwinden und bei der Klassifizierung von Fernerkundungsbildern auf mehreren Datensätzen hohe Genauigkeit mit effizienten Ressourcen zu erreichen.

Niful Islam, Md. Rayhan Ahmed, Nur Mohammad Fahad, Salekul Islam, A. K. M. Muzahidul Islam, Saddam Mukta, Swakkhar Shatabda2026-03-09🤖 cs.AI

Evolving Medical Imaging Agents via Experience-driven Self-skill Discovery

Die Arbeit stellt MACRO vor, einen sich selbst weiterentwickelnden medizinischen Agenten, der durch erfahrungsbasierte Entdeckung und Synthese wiederverwendbarer Werkzeugkombinationen die starre Tool-Nutzung überwindet und so die Genauigkeit sowie die domänenübergreifende Generalisierung bei der medizinischen Bildanalyse verbessert.

Lin Fan, Pengyu Dai, Zhipeng Deng, Haolin Wang, Xun Gong, Yefeng Zheng, Yafei Ou2026-03-09🤖 cs.AI

Computational Pathology in the Era of Emerging Foundation and Agentic AI -- International Expert Perspectives on Clinical Integration and Translational Readiness

Diese Übersichtsarbeit fasst internationale Expertenperspektiven zusammen, die die verantwortungsvolle klinische Integration von computergestützter Pathologie durch aufkommende Fundamentmodelle und Agenten bewerten, indem sie den aktuellen Nutzen mit den technischen, wirtschaftlichen und regulatorischen Herausforderungen für die breite Anwendung in der Patientenversorgung in Verbindung bringen.

Qian Da, Yijiang Chen, Min Ju, Zheyi Ji, Albert Zhou, Wenwen Wang, Matthew A Abikenari, Philip Chikontwe, Guillaume Larghero, Bowen Chen, Peter Neiglinger, Dingrong Zhong, Shuhao Wang, Wei Xu, Drew Williamson, German Corredor, Sen Yang, Le Lu, Xiao Han, Kun-Hsing Yu, Jun-zhou Huang, Laura Barisoni, Geert Litjens, Anant Madabhushi, Lifeng Zhu, Chaofu Wang, Junhan Zhao, Weiguo Hu2026-03-09🤖 cs.AI

Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec

Die vorgestellte Arbeit stellt JHCodec vor, einen neuronalen Audio-Codec, der durch die Einführung eines selbstüberwachten Rekonstruktionsverlusts (SSRR) eine hohe Sprachverständlichkeit bei minimaler Latenz und geringen Trainingskosten erreicht, ohne zusätzliche Lookahead-Fenster zu benötigen.

Junhyeok Lee, Xiluo He, Jihwan Lee, Helin Wang, Shrikanth Narayanan, Thomas Thebaud, Laureano Moro-Velazquez, Jesús Villalba, Najim Dehak2026-03-09🤖 cs.AI

← Zurück Weiter →