cs.AI Arbeiten | Gist.Science

Self-Supervised Multi-Modal World Model with 4D Space-Time Embedding

Die Arbeit stellt DeepEarth vor, ein selbstüberwachtes multimodales Weltmodell, das den neuartigen 4D-Raumzeit-Positionscodierer Earth4D nutzt, um durch submetergenaue und subsekundenscharfe planetare Vorhersagen über Jahrhunderte hinweg ökologische Prognosen mit State-of-the-Art-Leistung zu ermöglichen.

Lance Legel, Qin Huang, Brandon Voelker, Daniel Neamati, Patrick Alan Johnson, Favyen Bastani, Jeff Rose, James Ryan Hennessy, Robert Guralnick, Douglas Soltis, Pamela Soltis, Shaowen Wang2026-03-10💻 cs

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

Die Arbeit stellt CAPL vor, ein Framework zur Reduzierung von Halluzinationen in Large Vision-Language Models bei Multi-Image-Aufgaben, das durch eine kalibrierte Cross-Image-Attention und eine präferenzbasierte Lernstrategie die modellübergreifende Interaktion verbessert und die Modellierung auf echte visuelle Evidenz statt auf textuelle Priors ausrichtet.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

Animating Petascale Time-varying Data on Commodity Hardware with LLM-assisted Scripting

Diese Arbeit stellt ein benutzerfreundliches Framework vor, das es Wissenschaftlern ermöglicht, mit Hilfe von LLM-gestützter Skripterstellung auf handelsüblicher Hardware animierte 3D-Darstellungen petaskaliger, zeitvariabler Klimadaten zu erzeugen und dabei die Abhängigkeit von spezialisierten Infrastrukturen sowie die Datenübertragungszeiten erheblich zu reduzieren.

Ishrat Jahan Eliza, Xuan Huang, Aashish Panta, Alper Sahistan, Zhimin Li, Amy A. Gooch, Valerio Pascucci2026-03-10💻 cs

Bi-directional digital twin prototype anchoring with multi-periodicity learning for few-shot fault diagnosis

Der vorgestellte Ansatz verbessert die Few-Shot-Fehlerdiagnose in industriellen Maschinen durch einen bidirektionalen Digital-Twin-Prototypen-Anker mit Multi-Periodizitäts-Lernen, der Meta-Training im virtuellen Raum und Testzeit-Anpassung im physikalischen Raum kombiniert, um auch bei extrem wenigen gelabelten Daten robuste Diagnosen zu ermöglichen.

Pengcheng Xia, Zhichao Dong, Yixiang Huang, Chengjin Qin, Qun Chao, Chengliang Liu2026-03-10💻 cs

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

Das Paper stellt MedSteer vor, ein training-freies Framework zur Erzeugung kausaler, kontrastiver endoskopischer Bildpaare durch Aktivitätssteuerung in Diffusionsmodellen, das im Vergleich zu bestehenden Methoden eine überlegene strukturelle Konsistenz und Wirksamkeit für die Datenvermehrung in der medizinischen Bildanalyse demonstriert.

Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le2026-03-10💻 cs

User Review Writing via Interview with Dialogue Systems

Diese Studie stellt ein neuartiges System vor, das mittels GPT-4-gestützter Dialoge mit Nutzern detaillierte Produktbewertungen erstellt, die von Lesern als hilfreicher empfunden werden und weniger Nachbearbeitung erfordern als menschlich verfasste Texte.

Yoshiki Tanaka, Michimasa Inaba2026-03-10💻 cs

CoTJudger: A Graph-Driven Framework for Automatic Evaluation of Chain-of-Thought Efficiency and Redundancy in LRMs

Die Arbeit stellt CoTJudger vor, ein graphenbasiertes Framework zur automatischen Bewertung von Large Reasoning Models, das durch die Umwandlung von Chain-of-Thought-Traces in Abhängigkeitsgraphen und die Extraktion des kürzesten effektiven Pfades redundantes Denken identifiziert und so die Recheneffizienz von der eigentlichen Lösungsqualität trennt.

Siyi Li, Jiajun Shi, Shiwen Ni, Ge Zhang, Shuaimin Li, Shijian Wang, Zhoufutu Wen, Yizhi Li, Hamid Alinejad-Rokny, Jiaheng Liu, Min Yang, Wenhao Huang2026-03-10💬 cs.CL

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

Die Studie stellt mit Countdown-Code eine neue Testumgebung vor, die zeigt, wie bereits geringe Verunreinigungen in SFT-Daten Reward-Hacking in LLMs fördern, das durch anschließendes Reinforcement Learning weiter verstärkt und generalisiert wird.

Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang2026-03-10🤖 cs.LG

mAVE: A Watermark for Joint Audio-Visual Generation Models

Die Arbeit stellt mAVE vor, ein neuartiges Wasserzeichen-Verfahren für gemeinsame Audio-Visual-Generierungsmodelle, das durch kryptografische Verschränkung der latenten Räume von Audio und Video eine robuste Abwehr gegen Swap-Angriffe gewährleistet und dabei die Modellleistung vollständig erhält.

Luyang Si, Leyi Pan, Lijie Wen2026-03-10💻 cs

Grounding Machine Creativity in Game Design Knowledge Representations: Empirical Probing of LLM-Based Executable Synthesis of Goal Playable Patterns under Structural Constraints

Diese Studie untersucht, ob große Sprachmodelle in der Lage sind, unter Berücksichtigung von Strukturkonstrukten des Unity-Engines und auf Basis von Ziel-spielbaren Mustern (Goal Playable Patterns) spielbare Spiele zu synthetisieren, und identifiziert dabei insbesondere Probleme der semantischen Verankerung und Code-Hygiene als Hauptengpässe für den Erfolg.

Hugh Xuechen Liu, Kıvanç Tatar2026-03-10💻 cs

Efficient Personalized Reranking with Semi-Autoregressive Generation and Online Knowledge Distillation

Die Arbeit stellt den PSAD-Framework vor, der durch eine semi-autoregressive Generierung, Online-Wissensdestillation und ein Benutzerprofil-Netzwerk sowohl die Effizienz als auch die Leistung personalisierter Reranking-Modelle in Empfehlungssystemen verbessert.

Kai Cheng, Hao Wang, Wei Guo, Weiwen Liu, Yong Liu, Yawen Li, Enhong Chen2026-03-10💻 cs

Vision Language Models Cannot Reason About Physical Transformation

Die Studie zeigt, dass aktuelle Vision Language Models trotz starker textueller Vorurteile systematisch daran scheitern, physikalische Transformationen zu verstehen und invariante Eigenschaften über dynamische Szenen hinweg zu erhalten.

Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng2026-03-10💻 cs

Enhancing Consistency of Werewolf AI through Dialogue Summarization and Persona Information

Diese Studie stellt einen auf großen Sprachmodellen basierenden Werwolf-AI-Agenten vor, der durch die Nutzung von Dialogzusammenfassungen und manuell gestalteten Persona-Informationen eine konsistente und charaktergetreue Kommunikation im Spiel gewährleistet.

Yoshiki Tanaka, Takumasa Kaneko, Hiroki Onozeki, Natsumi Ezure, Ryuichi Uehara, Zhiyang Qi, Tomoya Higuchi, Ryutaro Asahara, Michimasa Inaba2026-03-10💬 cs.CL

aCAPTCHA: Verifying That an Entity Is a Capable Agent via Asymmetric Hardness

Das Papier stellt aCAPTCHA vor, ein neues Sicherheitsverfahren, das durch zeitbasierte, asymmetrische Härte in der Verarbeitung natürlicher Sprache autonomen KI-Agenten, Skripten und Menschen unterscheidet, um eine infrastrukturneutralen Zugangskontrolle für Internetdienste zu ermöglichen.

Zuyao Xu, Xiang Li, Fubin Wu, Yuqi Qiu, Lu Sun, FaSheng Miao2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

Die Arbeit stellt EyExIn vor, ein dateneffizientes Framework, das durch eine Deep Expert Injection-Mechanik und eine Expert-Aware Dual-Stream-Architektur die Lücken in der visuellen Wahrnehmung und dem logischen Schlussfolgern von großen multimodalen Modellen schließt, um durch die Verankerung von spezialisiertem ophthalmologischem Expertenwissen eine präzise und vertrauenswürdige Diagnose von Netzhauterkrankungen zu ermöglichen.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

Emotion Transcription in Conversation: A Benchmark for Capturing Subtle and Complex Emotional States through Natural Language

Die Arbeit stellt eine neue Aufgabe namens „Emotion Transcription in Conversation" (ETC) vor, die darauf abzielt, komplexe emotionale Zustände in Gesprächen durch natürliche Sprachbeschreibungen zu erfassen, und liefert hierfür ein japanisches Datenset mit selbstberichteten Emotionen sowie eine Benchmark-Analyse bestehender Modelle.

Yoshiki Tanaka, Ryuichi Uehara, Koji Inoue, Michimasa Inaba2026-03-10💬 cs.CL

Fine-Grained Table Retrieval Through the Lens of Complex Queries

Die Arbeit stellt einen neuen Tabellenretrieval-Mechanismus namens DCTR vor, der durch feingranulare, typisierte Query-Zerlegung und globale Konnektivitätsbewusstheit die Herausforderungen des offenen Fragebeantwortens über komplexe relationale Datenbanken bewältigt und sich in Benchmarks als robust erweist.

Wojciech Kosiuk, Xingyu Ji, Yeounoh Chung, Fatma Özcan, Madelon Hulsebos2026-03-10💬 cs.CL

Improving reasoning at inference time via uncertainty minimisation

Diese Arbeit stellt eine effiziente Inferenzzeit-Methode vor, die das logische Schlussfolgern von großen Sprachmodellen durch die Maximierung der internen Selbstgewissheit auf Ebene einzelner Gedankenschritte verbessert und dabei bestehende Ansätze wie Greedy Decoding oder Self-Consistency bei geringeren Token-Kosten übertrifft.

Nicolas Legrand, Kenneth Enevoldsen, Márton Kardos, Kristoffer Nielbo2026-03-10💻 cs

Learning to Rank the Initial Branching Order of SAT Solvers

Diese Arbeit untersucht den Einsatz von Graph Neural Networks zur Vorhersage eines initialen Verzweigungsordnungs für SAT-Löser, wobei zwar signifikante Beschleunigungen bei zufälligen und pseudo-industriellen Instanzen erzielt werden, die Vorhersagen jedoch bei komplexen industriellen Problemen aufgrund der dynamischen Heuristiken der Solver und der Schwierigkeit der Instanzen versagen.

Arvid Eriksson (KTH Royal Institute of Technology), Gabriel Poesia (Kempner Institute at Harvard University), Roman Bresson (Mohamed Bin Zayed University of Artificial Intelligence), Karl Henrik Johansson (KTH Royal Institute of Technology), David Broman (KTH Royal Institute of Technology)2026-03-10💻 cs

From State Changes to Creative Decisions: Documenting and Interpreting Traces Across Creative Domains

Die Arbeit stellt drei komplementäre Ansätze vor, um in kreativen Domänen wie GenAI, Visualisierung und Programmierung nicht nur Zustandsänderungen zu erfassen, sondern auch die dahinterliegenden kreativen Absichten und Zusammenhänge zu bewahren und interpretierbar zu machen.

Xiaohan Peng, Sotiris Piliouras, Carl Abou Saada Nujaim2026-03-10💻 cs

← Zurück Weiter →