cs.AI Arbeiten | Gist.Science

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

Die Arbeit stellt Dial vor, ein wissensbasiertes Framework für dialektspezifische NL2SQL-Übersetzungen, das durch eine dialektsensible logische Abfrageplanung, eine hierarchische Wissensdatenbank und einen ausführungsbasierten Debugging-Prozess die Genauigkeit und Abdeckung von Datenbankdialekten im Vergleich zu bestehenden Methoden signifikant verbessert.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan Wu2026-03-10🤖 cs.LG

Backdoor4Good: Benchmarking Beneficial Uses of Backdoors in LLMs

Die Arbeit stellt Backdoor4Good (B4G) vor, ein einheitliches Benchmark-Framework, das Backdoor-Mechanismen in großen Sprachmodellen nicht als Bedrohung, sondern als kontrollierbare Schnittstellen für vertrauenswürdige Anwendungen wie Sicherheit, Steuerbarkeit und Rechenschaftspflicht neu definiert und deren Wirksamkeit in umfangreichen Experimenten nachweist.

Yige Li, Wei Zhao, Zhe Li, Nay Myat Min, Hanxun Huang, Yunhan Zhao, Xingjun Ma, Yu-Gang Jiang, Jun Sun2026-03-10💻 cs

Image Generation Models: A Technical History

Dieser Artikel bietet eine umfassende technische Übersicht über die Entwicklung von Bildgenerierungsmodellen – von VAEs und GANs bis hin zu Diffusionsverfahren – und behandelt dabei deren Architekturen, Trainingsmethoden, Grenzen sowie aktuelle Fortschritte in der Videogenerierung und die Notwendigkeit einer verantwortungsvollen Nutzung.

Rouzbeh Shirvani2026-03-10💬 cs.CL

"Better Ask for Forgiveness than Permission": Practices and Policies of AI Disclosure in Freelance Work

Diese Studie zeigt, dass im Freelance-Bereich eine Diskrepanz zwischen der passiven Offenlegungspraxis von Arbeitnehmern und dem Wunsch der Kunden nach proaktiver Transparenz bezüglich KI-Nutzung besteht, was durch unklare Richtlinien zu Missverständnissen führt und die Notwendigkeit klarerer Richtlinien unterstreicht.

Angel Hsing-Chi Hwang, Senya Wong, Baixiao Chen, Jessica He, Hyo Jin Do2026-03-10💻 cs

Where Do LLM-based Systems Break? A System-Level Security Framework for Risk Assessment and Treatment

Diese Arbeit stellt ein zielgerichtetes Risikoanalyse-Rahmenwerk für LLM-basierte Systeme vor, das Systemmodellierung mit Attack-Defense-Bäumen und CVSS-Werten kombiniert, um in einem Gesundheitswesen-Fallbeispiel zu zeigen, dass sich diverse Bedrohungen auf wenige kritische Systemengpässe konzentrieren, die durch gezielte Abwehrmaßnahmen effektiv gemindert werden können.

Neha Nagaraja, Hayretdin Bahsi2026-03-10💻 cs

The Dual-Stream Transformer: Channelized Architecture for Interpretable Language Modeling

Die vorgestellte Dual-Stream-Transformer-Architektur entkoppelt den Residual-Stream in einen durch Attention aktualisierten Token-Stream und einen durch Feed-Forward-Netzwerke aktualisierten Kontext-Stream, um durch skalierbare Mischstrategien eine nachweisbare Balance zwischen Interpretierbarkeit und Leistungsfähigkeit zu ermöglichen.

J. Clayton Kerce, Alexis Fox2026-03-10🤖 cs.LG

Do Machines Fail Like Humans? A Human-Centred Out-of-Distribution Spectrum for Mapping Error Alignment

Die Studie stellt ein menschenzentriertes Framework vor, das Out-of-Distribution-Herausforderungen als Spektrum menschlicher Wahrnehmungsschwierigkeiten neu definiert, um die Ausrichtung von KI-Modellen auf menschliche Fehlermuster unter verschiedenen Bedingungen präziser zu bewerten und dabei architekturspezifische Unterschiede in der Nähe und Ferne von Trainingsdaten aufzudecken.

Binxia Xu, Xiaoliang Luo, Luke Dickens, Robert M. Mok2026-03-10💻 cs

Towards Lightweight Adaptation of Speech Enhancement Models in Real-World Environments

Diese Arbeit stellt einen leichten Rahmen vor, der durch selbstüberwachtes Training von Low-Rank-Adaptern an einem eingefrorenen Backbone weniger als 1 % der Parameter aktualisiert und so Speech-Enhancement-Modelle für den effizienten Einsatz in Echtzeit-Umgebungen mit dynamischen akustischen Szenen optimiert.

Longbiao Cheng, Shih-Chii Liu2026-03-10🤖 cs.LG

Contact-Guided 3D Genome Structure Generation of E. coli via Diffusion Transformers

Diese Studie stellt ein bedingtes Diffusions-Transformer-Framework vor, das mithilfe von Hi-C-Kontaktkarten und einem latenten Diffusionsmodell mit Flow-Matching-Objektiv Ensembles dreidimensionaler E. coli-Genomkonformationen generiert, die sowohl die experimentellen Daten als auch eine hohe strukturelle Diversität widerspiegeln.

Mingxin Zhang, Xiaofeng Dai, Yu Yao, Ziqi Yin2026-03-10🤖 cs.LG

Give Them an Inch and They Will Take a Mile:Understanding and Measuring Caller Identity Confusion in MCP-Based AI Systems

Die Studie zeigt, dass MCP-basierte KI-Systeme durch das Fehlen einer expliziten Anrufer-Authentifizierung und eine zu weit gefasste Server-Vertrauensstellung fundamental unsicher sind, da einmalige Autorisierung und fehlende granulare Zugriffskontrollen den Angriffsvektor für Identitätsverwechslungen erheblich vergrößern.

Yuhang Huang, Boyang Ma, Biwei Yan, Xuelong Dai, Yechao Zhang, Minghui Xu, Kaidi Xu, Yue Zhang2026-03-10💻 cs

Cross-Modal Taxonomic Generalization in (Vision-) Language Models

Die Studie zeigt, dass Sprachmodelle in Vision-Language-Modellen taxonomisches Wissen (Hyperonyme) auch ohne explizite visuelle Hinweise aus rein sprachlichen Mustern rekonstruieren und verallgemeinern können, wobei diese Fähigkeit jedoch von der visuellen Kohärenz der Kategorien abhängt.

Tianyang Xu, Marcelo Sandoval-Castaneda, Karen Livescu, Greg Shakhnarovich, Kanishka Misra2026-03-10💬 cs.CL

Interpretable-by-Design Transformers via Architectural Stream Independence

Die vorgestellte Arbeit zeigt, dass durch die architektonische Trennung von Token-Strömen und kontextueller Semantik bis zur späten Fusion (Late Fusion Architecture) Transformatoren von Grund auf interpretierbarer gestaltet werden können, indem sie eine funktionale Modularität bewahren und eine vorzeitige Verflechtung verhindern.

Clayton Kerce, Alexis Fox2026-03-10🤖 cs.LG

A Joint Neural Baseline for Concept, Assertion, and Relation Extraction from Clinical Text

Diese Arbeit stellt ein neuartiges, end-to-end-System vor, das die Aufgaben der Konzepterkennung, Assertionsklassifizierung und Relationsextraktion in klinischen Texten gemeinsam optimiert und dabei die Leistung herkömmlicher Pipeline-Ansätze signifikant übertrifft.

Fei Cheng, Ribeka Tanaka, Sadao Kurohashi2026-03-10💬 cs.CL

From Thinker to Society: Security in Hierarchical Autonomy Evolution of AI Agents

Der Artikel stellt das Hierarchical Autonomy Evolution (HAE)-Framework vor, das Sicherheitsbedrohungen für autonome KI-Agenten in drei Ebenen – kognitive, ausführende und kollektive Autonomie – kategorisiert, um die Entwicklung robuster, mehrschichtiger Verteidigungsarchitekturen zu leiten.

Xiaolei Zhang, Lu Zhou, Xiaogang Xu, Jiafei Wu, Tianyu Du, Heqing Huang, Hao Peng, Zhe Liu2026-03-10💻 cs

SeDa: A Unified System for Dataset Discovery and Multi-Entity Augmented Semantic Exploration

Das Paper stellt SeDa vor, ein einheitliches Framework, das über 7,6 Millionen Datensätze von mehr als 200 Plattformen integriert, um durch semantische Annotation, eine erweiterbare Tag-Grafik und eine mehrstufige Navigationsstrategie eine vertrauenswürdige und kontextbewusste Entdeckung von Datenquellen zu ermöglichen.

Kan Ling, Zhen Qin, Yichi Zhu, Hengrun Zhang, Huiqun Yu, Guisheng Fan2026-03-10💻 cs

A Unified View of Drifting and Score-Based Models

Diese Arbeit stellt eine einheitliche Theorie vor, die Drifting-Modelle als score-basierte Methode auf kernel-gesättigten Verteilungen interpretiert und zeigt, dass der Drift-Feld für Gauß-Kerne exakt der Score-Differenz entspricht, während für Laplace-Kerne präzise Fehlerabschätzungen für niedrige Temperaturen und hohe Dimensionen hergeleitet werden.

Chieh-Hsin Lai, Bac Nguyen, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon, Molei Tao2026-03-10🤖 cs.LG

InterReal: A Unified Physics-Based Imitation Framework for Learning Human-Object Interaction Skills

Das Paper stellt InterReal vor, ein einheitliches physikbasiertes Imitationslern-Framework, das Humanoidenrobotern durch datenaugmentierte Hand-Objekt-Kontaktbeschränkungen und einen automatischen Belohnungslerner ermöglicht, komplexe Mensch-Objekt-Interaktionen sowohl in Simulation als auch auf dem realen Unitree G1-Roboter präzise und robust zu erlernen.

Dayang Liang, Yuhang Lin, Xinzhe Liu, Jiyuan Shi, Yunlong Liu, Chenjia Bai2026-03-10💻 cs

SketchGraphNet: A Memory-Efficient Hybrid Graph Transformer for Large-Scale Sketch Corpora Recognition

Die Arbeit stellt SketchGraphNet vor, einen speicher-effizienten hybriden Graph-Transformer für die Erkennung von Großskizzen, der auf einem neuartigen Benchmark namens SketchGraph mit 3,44 Millionen graphenbasierten Skizzen trainiert wurde und dabei sowohl die Genauigkeit als auch die Ressourceneffizienz im Vergleich zu bestehenden Methoden signifikant verbessert.

Shilong Chen, Mingyuan Li, Zhaoyang Wang, Zhonglin Ye, Haixing Zhao2026-03-10💻 cs

Neural Dynamics-Informed Pre-trained Framework for Personalized Brain Functional Network Construction

Die vorgestellte Arbeit schlägt ein auf neuronaler Dynamik basierendes vortrainiertes Framework vor, das durch die Extraktion personalisierter Aktivitätsmuster und die Vermeidung starrer Atlanten die Grenzen bestehender Methoden zur Konstruktion personalisierter funktioneller Hirnnetzwerke in heterogenen Szenarien überwindet.

Hongjie Jiang, Yifei Tang, Shuqiang Wang2026-03-10🤖 cs.LG

How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

Die Arbeit stellt UniLongGen vor, eine trainingsfreie Inferenzstrategie, die durch dynamische Kuratierung und gezieltes Vergessen störender visueller Informationen die Zuverlässigkeit von Unified Multimodal Models bei der Generierung langer, interleaved Bilder-Text-Narrative sicherstellt.

Haoyu Chen, Qing Liu, Yuqian Zhou, He Zhang, Zhaowen Wang, Mengwei Ren, Jingjing Ren, Xiang Wang, Zhe Lin, Lei Zhu2026-03-10💻 cs

← Zurück Weiter →