cs.AI Arbeiten | Gist.Science

CASA: Cross-Attention over Self-Attention for Efficient Vision-Language Fusion

Das Paper CASA stellt eine effiziente Vision-Language-Architektur vor, die durch die Wiedereinführung und Optimierung von Cross-Attention-Mechanismen anstelle von Token-Einfügung eine signifikante Reduzierung von Speicher- und Rechenaufwand bei gleichzeitig hoher Leistung, insbesondere für Echtzeit-Videoanwendungen, ermöglicht.

Moritz Böhle, Amélie Royer, Juliette Marrie, Edouard Grave, Patrick Pérez2026-03-09🤖 cs.AI

CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal

Die Arbeit stellt CARE vor, ein post-training-Framework für multimodales Reasoning, das durch einen kontrastiven, fehlerzentrierten Ansatz und eine selbstkorrigierende Neusampling-Strategie (RGR) aus gescheiterten Rollouts lernbare Signale gewinnt und so die Genauigkeit und Trainingsstabilität im Vergleich zu GRPO signifikant verbessert.

Yongxin Wang, Zhicheng Yang, Meng Cao, Mingfei Han, Haokun Lin, Yingying Zhu, Xiaojun Chang, Xiaodan Liang2026-03-09🤖 cs.AI

LLMTM: Benchmarking and Optimizing LLMs for Temporal Motif Analysis in Dynamic Graphs

Die Arbeit stellt den Benchmark LLMTM vor, um die Leistung von Large Language Models bei der Analyse temporaler Motive in dynamischen Graphen zu evaluieren, und entwickelt darauf aufbauend einen kosteneffizienten, strukturbewussten Dispatcher, der die Genauigkeit eines teuren Tool-Agenten mit der Effizienz direkter Prompting-Methoden intelligent kombiniert.

Bing Hao, Minglai Shao, Zengyi Wo, Yunlong Chu, Yuhang Liu, Ruijie Wang2026-03-09🤖 cs.AI

Window-based Membership Inference Attacks Against Fine-tuned Large Language Models

Die vorgestellte Arbeit führt die Window-Based Comparison (WBC)-Methode ein, die durch die Analyse lokaler Kontextfenster anstelle globaler Durchschnitte die Wirksamkeit von Membership-Inference-Angriffen auf feinabgestimmte Large Language Models erheblich steigert und damit signifikante Datenschutzlücken aufdeckt.

Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui Li2026-03-09🤖 cs.AI

Classroom AI: Large Language Models as Grade-Specific Teachers

Die vorgestellte Studie entwickelt einen Rahmen zur Feinabstimmung von Large Language Models, der mithilfe von sieben Lesbarkeitsmetriken und einem speziellen Datensatz altersgerechte und faktenbasierte Bildungsinhalte für sechs Schulstufen generiert und dabei im Vergleich zu reinen Prompt-Methoden eine signifikante Verbesserung der Niveauangemessenheit bei gleichzeitiger Wahrung der Richtigkeit erzielt.

Jio Oh, Steven Euijong Whang, James Evans, Jindong Wang2026-03-09🤖 cs.AI

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Diese Arbeit stellt einen end-to-end Ansatz für die audio-visuelle Spracherkennung vor, der durch eine Conformer-basierte Fusionsarchitektur und integrierte Sprachverbesserung auf explizite Masken verzichtet, um semantisch relevante Informationen zu bewahren und die Rauschrobustheit zu steigern.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei Yin2026-03-09🤖 cs.AI

PepEDiff: Zero-Shot Peptide Binder Design via Protein Embedding Diffusion

Die Studie stellt PepEDiff vor, ein neuartiges, strukturfreies Zero-Shot-Generierungsmodell, das mithilfe von Diffusion in einem latenten Raum proteinbasierter Embeddings direkt bindende Peptidsequenzen für Zielrezeptoren entwirft und dabei bestehende Methoden in Bezug auf Vielfalt und Leistung, wie am Beispiel TIGIT gezeigt, übertrifft.

Po-Yu Liang, Tibo Duran, Jun Bai2026-03-09🤖 cs.AI

SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

SpatialMem ist ein speicherzentriertes System, das aus alltäglichen egozentrischen RGB-Videos eine metrisch ausgerichtete 3D-Struktur erstellt, um durch hierarchische Objektknoten effiziente, räumlich verankerte Abfragen und Navigation in langen Videoszenen ohne spezielle Sensoren zu ermöglichen.

Xinyi Zheng, Yunze Liu, Chi-Hao Wu, Fan Zhang, Hao Zheng, Wenqi Zhou, Walterio W. Mayol-Cuevas, Junxiao Shen2026-03-09🤖 cs.AI

Neural Signals Generate Clinical Notes in the Wild

Die Autoren stellen CELM, das erste multimodale Grundlagenmodell, vor, das langfristige EEG-Aufzeichnungen direkt in klinische Berichte übersetzt und dabei durch die Integration von Patientenhistorie eine signifikante Verbesserung der Generierungsqualität erreicht.

Jathurshan Pradeepkumar, Zheng Chen, Jimeng Sun2026-03-09🤖 cs.AI

Localizing and Correcting Errors for LLM-based Planners

Die vorgestellte Arbeit stellt eine Methode namens L-ICL vor, die durch gezielte, schrittweise Korrekturen von Verstößen gegen Domänenbeschränkungen die Fähigkeit von LLMs zur Planung in symbolischen Umgebungen signifikant verbessert.

Aditya Kumar, William W. Cohen2026-03-09🤖 cs.AI

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Diese Arbeit präsentiert Fallstudien und bewährte Techniken, die zeigen, wie Forscher mit Google's Gemini-Modellen erfolgreich zusammenarbeiten, um offene Probleme in der theoretischen Informatik und anderen Disziplinen zu lösen, neue Beweise zu generieren und KI als vielseitigen Partner im kreatischen Entdeckungsprozess zu etablieren.

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, Jieming Mao, Song Zuo, MohammadHossein Bateni, Simina Branzei, Michael P. Brenner, Lin Chen, Ying Feng, Lance Fortnow, Gang Fu, Ziyi Guan, Zahra Hadizadeh, Mohammad T. Hajiaghayi, Mahdi JafariRaviz, Adel Javanmard, Karthik C. S., Ken-ichi Kawarabayashi, Ravi Kumar, Silvio Lattanzi, Euiwoong Lee, Yi Li, Ioannis Panageas, Dimitris Paparas, Benjamin Przybocki, Bernardo Subercaseaux, Ola Svensson, Shayan Taherijam, Xuan Wu, Eylon Yogev, Morteza Zadimoghaddam, Samson Zhou, Yossi Matias, James Manyika, Vahab Mirrokni2026-03-09🤖 cs.AI

Uncertainty Quantification in LLM Agents: Foundations, Emerging Challenges, and Opportunities

Diese Arbeit argumentiert für einen Paradigmenwechsel in der Unsicherheitsquantifizierung von großen Sprachmodellen hin zu interaktiven Agenten und stellt ein neues Rahmenwerk vor, das auf drei Säulen – einer allgemeinen Formulierung, der Identifizierung spezifischer technischer Herausforderungen und zukünftigen Forschungsrichtungen – basiert.

Changdae Oh, Seongheon Park, To Eun Kim, Jiatong Li, Wendi Li, Samuel Yeh, Xuefeng Du, Hamed Hassani, Paul Bogdan, Dawn Song, Sharon Li2026-03-09🤖 cs.AI

From Features to Actions: Explainability in Traditional and Agentic AI Systems

Diese Studie zeigt, dass herkömmliche attributionsbasierte Erklärungen für statische Vorhersagen auf agente KI-Systeme nicht übertragbar sind, und empfiehlt stattdessen eine trajectorienbasierte, spurengestützte Diagnose, um Fehler wie inkonsistente Zustandsverfolgung effektiv zu lokalisieren.

Sindhuja Chaduvula, Jessee Ho, Kina Kim, Aravind Narayanan, Mahshid Alinoori, Muskan Garg, Dhanesh Ramachandram, Shaina Raza2026-03-09🤖 cs.AI

Towards Autonomous Mathematics Research

Die Arbeit stellt Aletheia vor, einen autonomen mathematischen Forschungsagenten, der auf dem Gemini Deep Think-Modell basiert und durch iterative Generierung, Verifizierung und Revision von Lösungen in natürlicher Sprache sowohl Olympiadaufgaben als auch komplexe Forschungsarbeiten, einschließlich vollständig KI-generierter und kollaborativer wissenschaftlicher Beiträge, bewältigt.

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

MERIT Feedback Elicits Better Bargaining in LLM Negotiators

Die Arbeit stellt mit AgoraBench, nutzungsbasierten Metriken und einem menschlichen Präferenz-Datensatz ein neues Framework vor, das die Verhandlungsfähigkeiten von LLMs durch Feinabstimmung und Prompting signifikant verbessert und sie an menschliche Präferenzen sowie ökonomische Prinzipien anpasst.

Jihwan Oh, Murad Aghazada, Yooju Shin, Se-Young Yun, Taehyeon Kim2026-03-09🤖 cs.AI

Why Human Guidance Matters in Collaborative Vibe Coding

Die Studie zeigt, dass bei der kollaborativen „Vibe Coding"-Programmierung menschliche Führung durch übergeordnete Anweisungen entscheidend für den Erfolg ist, während rein KI-gesteuerte Ansätze oft scheitern und hybride Modelle am besten funktionieren, wenn Menschen die Anleitung übernehmen und die KI die Evaluierung durchführt.

Haoyu Hu, Raja Marjieh, Katherine M Collins, Chenyi Li, Thomas L. Griffiths, Ilia Sucholutsky, Nori Jacoby2026-03-09🤖 cs.AI

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

Die Arbeit stellt DataChef-32B vor, ein System, das mittels Reinforcement Learning automatisch optimale Datenrezepte zur Anpassung von Large Language Models generiert und dabei die Leistung menschlicher Experten erreicht oder sogar übertrifft.

Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen2026-03-09🤖 cs.AI

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

Das Paper stellt SWE-MiniSandbox vor, eine leichte, containerfreie Methode zur skalierbaren Reinforcement-Learning-Training von Software-Engineering-Agenten, die durch Kernel-isolierte Workspaces und Pre-Caching-Techniken den Speicherbedarf und die Vorbereitungszeit im Vergleich zu herkömmlichen Container-Ansätzen drastisch reduziert, ohne die Leistung zu beeinträchtigen.

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan Zhao2026-03-09🤖 cs.AI

Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

Die vorgestellte Arbeit schlägt eine neue Proxy-Level-Scoring-Formel namens „Peak + Accumulation" vor, die durch die Kombination von Spitzenrisiko, Persistenz und Kategoriediversität Multi-Turn-Prompt-Injection-Angriffe ohne LLM-Einsatz mit hoher Genauigkeit erkennt und dabei die Schwächen herkömmlicher gewichteter Durchschnittsmethoden überwindet.

J Alex Corll2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

Diese Studie widerlegt die Illusion einer objektiven „Ground Truth" in der Datenannotation, indem sie aufzeigt, wie systematische Verzerrungen und der Druck zur Konsensbildung menschliche Meinungsverschiedenheiten als Rauschen unterdrücken, und fordert stattdessen eine pluralistische Infrastruktur, die kulturelle Vielfalt als essenzielles Signal anerkennt.

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

← Zurück Weiter →