cs.AI Arbeiten | Gist.Science

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

Die Arbeit stellt ConLID vor, eine Methode des überwachten kontrastiven Lernens, die die domänenunabhängige Sprachidentifikation für ressourcenarme Sprachen verbessert und deren Leistung auf Out-of-Domain-Daten um 3,2 Prozentpunkte steigert, ohne die Ergebnisse für ressourcenstarke Sprachen zu beeinträchtigen.

Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine BosselutWed, 11 Ma🤖 cs.AI

OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

Die Arbeit stellt OPENXRD vor, ein umfassendes Benchmark-Framework zur Evaluierung von LLMs und MLLMs in der Kristallographie-Fragebeantwortung, das zeigt, dass mittelgroße Modelle am meisten von hochwertigen, expertenüberprüften Kontextinformationen profitieren, während sehr große Modelle oft Sättigungseffekte oder Interferenzen aufweisen.

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz AbdolrahimWed, 11 Ma🤖 cs.AI

On the mechanical creation of mathematical concepts

Der Artikel stellt ein Modell mathematischen Problemlösens als Glaubensaktualisierung vor, das zwischen impliziten Konzepten zur Optimierung bestehender Suchräume und expliziten Konzepten als neuartigen, für die mathematische Entdeckung essenziellen Werkzeugen unterscheidet, und argumentiert, dass aktuelle KI-Systeme zwar erstere beherrschen, aber noch nicht in der Lage sind, letztere zu schaffen.

Asvin GWed, 11 Ma🤖 cs.AI

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

Die Arbeit stellt „Latent Policy Steering" (LPS) vor, eine Methode, die durch Vortraining eines Weltmodells mit embodiment-unabhängigem optischem Fluss und anschließendem Feinabstimmen auf wenigen Zielsystem-Demonstrationen die Leistung visuomotorischer Robotik-Policies in datenarmen Szenarien erheblich verbessert.

Yiqi Wang, Mrinal Verghese, Jeff SchneiderWed, 11 Ma🤖 cs.AI

MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs

Die Arbeit stellt MMGraphRAG vor, ein neuartiges Framework, das visuelle Szenengraphen mit textbasierten Wissensgraphen durch die Methode SpecLink und den CMEL-Datensatz verbindet, um Halluzinationen in multimodalen LLMs zu reduzieren und gleichzeitig interpretierbare, strukturierte Schlussfolgerungen zu ermöglichen.

Xueyao Wan, Hang YuWed, 11 Ma🤖 cs.AI

Debiasing International Attitudes: LLM Agents for Simulating US-China Perception Changes

Diese Studie entwickelt einen LLM-Agenten-Rahmen, der die US-amerikanische Haltung gegenüber China von 2005 bis 2025 simuliert und zeigt, dass ein „Teufels-Advokat"-Agent die durch Medien framing verursachte negative Tendenz am effektivsten mindert, während die Ergebnisse auch auf modellinterne, geografisch bedingte Vorurteile hinweisen.

Nicholas Sukiennik, Yichuan Xu, Yuqing Kan, Jinghua Piao, Yuwei Yan, Chen Gao, Yong LiWed, 11 Ma🤖 cs.AI

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

Die Arbeit stellt SFDA-PFT vor, eine effiziente, quellenfreie Domänenanpassungsmethode, die durch personalisierte Feature-Translation im latenten Raum die Gesichtsausdruckserkennung in Privatsphären-sensitiven Szenarien verbessert, indem sie sich ausschließlich auf ungelabelte neutrale Zieldaten verlässt und dabei auf die Verfügbarkeit von Quelldaten oder die Synthese von Bildern verzichtet.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric GrangerWed, 11 Ma🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

Das Paper stellt EgoCross vor, ein umfassendes Benchmark-Tool, das die Generalisierungsfähigkeit multimodaler großer Sprachmodelle (MLLMs) bei der egozentrischen Video-Fragebeantwortung über vier herausfordernde Domänen hinaus des alltäglichen Lebens hinweg bewertet und dabei erhebliche Defizite der aktuellen Modelle aufzeigt.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling WangWed, 11 Ma🤖 cs.AI

Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment

Diese Studie stellt einen neuartigen Ansatz vor, bei dem mithilfe von KI-generiertem Gesang und virtuellen Avataren (insbesondere mit dem Tool HeyGem) Lehrpläne in unterhaltsame audiovisuelle Präsentationen umgewandelt werden, um das Engagement der Studierenden zu steigern und die Merkfähigkeit wichtiger Kursinformationen zu verbessern.

Xinxing WuWed, 11 Ma🤖 cs.AI

TaoSR1: The Thinking Model for E-commerce Relevance Search

Der Artikel stellt TaoSR1 vor, ein dreistufiges Framework, das Large Language Models durch Supervised Fine-Tuning mit Chain-of-Thought, Direct Preference Optimization und Group Relative Policy Optimization direkt für die E-Commerce-Relevanzsuche einsetzt, um komplexe Schlussfolgerungen zu ermöglichen und dabei Halluzinationen zu minimieren sowie eine effiziente Online-Bereitstellung zu gewährleisten.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo ZhengWed, 11 Ma🤖 cs.AI

Computational Multi-Agents Society Experiments: Social Modeling Framework Based on Generative Agents

Die Arbeit stellt CMASE vor, ein Rahmenwerk für computergestützte Multi-Agenten-Gesellschaftsexperimente, das generative Agentenmodelle mit virtuellen ethnografischen Methoden verbindet, um Forscher als eingebettete Teilnehmer in Echtzeit zu ermöglichen und so komplexe soziale Interventionen mit kausaler Erklärungskraft und empirischer Genauigkeit zu simulieren.

Hanzhong Zhang, Muhua Huang, Jindong WangWed, 11 Ma🤖 cs.AI

VistaWise: Building Cost-Effective Agent with Cross-Modal Knowledge Graph for Minecraft

Die Arbeit stellt VistaWise vor, ein kosteneffizientes Agenten-Framework für Minecraft, das durch die Integration von visuellen und textuellen Daten in einen cross-modalen Wissensgraphen sowie die Feinabstimmung eines Objekterkennungsmodells mit nur wenigen hundert Trainingsbeispielen state-of-the-art-Leistung bei offenen Welten-Aufgaben erzielt.

Honghao Fu, Junlong Ren, Qi Chai, Deheng Ye, Yujun Cai, Hao WangWed, 11 Ma🤖 cs.AI

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

Die Studie stellt SEER vor, ein adaptives Framework, das durch intelligente Kompression von Chain-of-Thought-Verläufen die Effizienz und Genauigkeit von Large Language Models in Software-Engineering- und Mathematikaufgaben verbessert, indem es unnötige Ausführlichkeit reduziert und Latenzzeiten senkt.

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin XiaWed, 11 Ma🤖 cs.AI

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Das Papier stellt VSSFlow vor, ein einheitliches Flow-Matching-Framework auf Basis von Diffusion Transformern, das Video-zu-Sound- und Visuelles Text-zu-Sprache-Generierung durch eine neuartige, entkoppelte Bedingungsaggregation erfolgreich vereint und dabei durch gemeinsames Lernen sogar die Leistung spezialisierter State-of-the-Art-Modelle übertrifft.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

Das Paper stellt VoiceBridge vor, ein einstufiges latentes Brückenmodell, das mittels eines energieerhaltenden VAE, eines gemeinsamen neuronalen Priors und eines kombinierten Trainingsansatzes effizient und ohne Distillation hochwertige 48-kHz-Sprache aus vielfältigen Verzerrungen wiederherstellt.

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

Die Studie stellt v-HUB vor, ein neues Benchmark für das Verständnis von Videohumor, das zeigt, dass multimodale Sprachmodelle durch die Einbeziehung von Umgebungsgeräuschen ihre Fähigkeit verbessern können, Humor in visuellen Szenarien zu erfassen.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong ZhengWed, 11 Ma🤖 cs.AI

Latent Speech-Text Transformer

Das Paper stellt den Latent Speech-Text Transformer (LST) vor, der durch die Aggregation von Sprach-Token zu latenten Patches die Sequenzlängen von Sprache und Text angleicht, was sowohl die Recheneffizienz als auch die Leistung in Sprach- und Textaufgaben im Vergleich zu herkömmlichen autoregressiven Modellen signifikant verbessert.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

Das Paper stellt AlphaApollo vor, ein System für tiefes agentices Denken, das durch die Orchestrierung von Modellen und Tools mittels mehrstufiger agenter Reasoning-, Lern- und Evolutionsmechanismen die Leistung von Foundation-Modellen bei komplexen mathematischen Aufgaben signifikant verbessert.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Die Arbeit stellt mit NavSpace ein neues Benchmark-System zur systematischen Evaluierung der räumlichen Intelligenz von Navigationsagenten vor und führt das überlegene Modell SNav ein, das sowohl auf diesem Benchmark als auch in realen Robotertests neue Maßstäbe setzt.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI

RECODE: Reasoning Through Code Generation for Visual Question Answering

Das Paper stellt RECODE vor, einen agentenbasierten Rahmen, der durch das Reverse-Engineering von visuellen Eingaben in ausführbaren Code (Derendering) eine verifizierbare und präzise multimodale Reasoning-Fähigkeit für strukturierte Grafiken wie Diagramme und Schaubilder ermöglicht.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza FathiWed, 11 Ma🤖 cs.AI

← Zurück Weiter →