cs.AI articoli | Gist.Science

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

Il paper presenta ConLID, un approccio di apprendimento contrastivo supervisionato che migliora l'identificazione delle lingue a risorse limitate su dati fuori dominio ottenendo un incremento di 3,2 punti percentuali senza compromettere le prestazioni delle lingue ad alta risorsa.

Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine BosselutWed, 11 Ma🤖 cs.AI

OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

Il paper introduce OPENXRD, un quadro di riferimento completo per valutare le capacità di assimilazione del contesto e di ragionamento dei modelli linguistici e multimodali nella domanda e risposta su diffrazione dei raggi X, evidenziando come materiali esperti di alta qualità e dimensioni moderate dei modelli ottimizzino le prestazioni scientifiche.

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz AbdolrahimWed, 11 Ma🤖 cs.AI

On the mechanical creation of mathematical concepts

Il paper propone un modello di risoluzione dei problemi matematici basato sull'aggiornamento delle credenze, distinguendo tra concetti impliciti e espliciti, e sostiene che la creazione di concetti espliciti è il passo fondamentale della scoperta matematica, un'abilità attualmente assente nei sistemi di intelligenza artificiale che operano solo tramite concetti impliciti.

Asvin GWed, 11 Ma🤖 cs.AI

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

Il paper presenta Latent Policy Steering (LPS), un metodo che migliora le politiche visuomotorie robotiche in scenari con pochi dati preaddestando un modello del mondo su rappresentazioni di flusso ottico agnostiche rispetto all'effettore per sfruttare dati eterogenei, per poi affinare la politica e selezionare le azioni ottimali tramite una funzione di valore appresa.

Yiqi Wang, Mrinal Verghese, Jeff SchneiderWed, 11 Ma🤖 cs.AI

MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs

Il paper presenta MMGraphRAG, un approccio innovativo che integra grafi di scena visivi con grafi di conoscenza testuali tramite una fusione cross-modale e l'algoritmo SpecLink per colmare il divario tra visione e linguaggio, migliorando l'accuratezza e l'interpretabilità della generazione assistita da conoscenza.

Xueyao Wan, Hang YuWed, 11 Ma🤖 cs.AI

Debiasing International Attitudes: LLM Agents for Simulating US-China Perception Changes

Questo studio presenta un framework basato su agenti LLM per simulare l'evoluzione delle attitudini degli statunitensi verso la Cina dal 2005 al 2025, dimostrando che l'uso di un agente "avvocato del diavolo" è il meccanismo più efficace per mitigare i pregiudizi derivanti dalla narrazione mediatica e avvicinare le opinioni simulate a quelle umane.

Nicholas Sukiennik, Yichuan Xu, Yuqing Kan, Jinghua Piao, Yuwei Yan, Chen Gao, Yong LiWed, 11 Ma🤖 cs.AI

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

Il paper propone SFDA-PFT, un metodo efficiente di adattamento di dominio senza sorgente che utilizza la traduzione personalizzata delle caratteristiche nello spazio latente per migliorare il riconoscimento delle espressioni facciali adattando i modelli pre-addestrati ai dati target neutri senza richiedere dati sorgente o sintesi di immagini.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric GrangerWed, 11 Ma🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

Il paper introduce EgoCross, un benchmark completo per valutare la capacità di generalizzazione cross-dominio dei Modelli Linguistici Multimodali nella risposta a domande su video in prima persona, coprendo scenari complessi come chirurgia, industria, sport estremi e visione animale e rivelando le attuali limitazioni dei modelli esistenti.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling WangWed, 11 Ma🤖 cs.AI

Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment

Questo studio propone un approccio innovativo che utilizza avatar virtuali e musica generata dall'intelligenza artificiale per trasformare i programmi didattici testuali in canzoni audiovisive, migliorando significativamente l'engagement, la comprensione e il ricordo delle informazioni essenziali da parte degli studenti.

Xinxing WuWed, 11 Ma🤖 cs.AI

TaoSR1: The Thinking Model for E-commerce Relevance Search

Il paper presenta TaoSR1, un framework che adatta i Large Language Models per la ricerca di rilevanza nell'e-commerce attraverso un processo in tre fasi di addestramento con Chain-of-Thought e ottimizzazione delle preferenze, risolvendo problemi di allucinazione e fattibilità di deployment per ottenere prestazioni superiori rispetto ai modelli basati su BERT.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo ZhengWed, 11 Ma🤖 cs.AI

Computational Multi-Agents Society Experiments: Social Modeling Framework Based on Generative Agents

Il paper introduce CMASE, un framework per esperimenti computazionali di società multi-agente che integra agenti generativi ed etnografia virtuale per trasformare i ricercatori in partecipanti embedded, consentendo di simulare fenomeni sociali complessi con rigore statistico e profondità interpretativa.

Hanzhong Zhang, Muhua Huang, Jindong WangWed, 11 Ma🤖 cs.AI

VistaWise: Building Cost-Effective Agent with Cross-Modal Knowledge Graph for Minecraft

Il paper presenta VistaWise, un agente economico per Minecraft che integra un grafo di conoscenza cross-modale e un modello di rilevamento oggetti finetunato per ridurre drasticamente il fabbisogno di dati di addestramento e raggiungere prestazioni all'avanguardia nelle decisioni embodied.

Honghao Fu, Junlong Ren, Qi Chai, Deheng Ye, Yujun Cai, Hao WangWed, 11 Ma🤖 cs.AI

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

Il paper presenta SEER, un framework adattivo che comprime il ragionamento a catena di pensiero (CoT) nei modelli linguistici di grandi dimensioni riducendo significativamente la latenza e i costi computazionali senza compromettere l'accuratezza, specialmente nei task di ingegneria del software.

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin XiaWed, 11 Ma🤖 cs.AI

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Il paper presenta VSSFlow, un framework unificato basato sul flusso di matching che risolve congiuntamente la generazione di suoni e parlato condizionata dal video, superando le prestazioni dei modelli specifici per dominio grazie a un meccanismo di aggregazione delle condizioni disaccoppiato e all'apprendimento congiunto.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

Il paper presenta VoiceBridge, un modello ponte latente in un singolo passo basato su un autoencoder variazionale a conservazione energetica e un prior neurale congiunto, che permette la generazione efficiente e ad alta fedeltà di parlato a 48 kHz da diverse distorsioni senza necessità di distillazione.

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

Il paper introduce v-HUB, un nuovo benchmark per la comprensione dell'umorismo nei video basato su segnali visivi e sonori, dimostrando attraverso la valutazione di diversi modelli MLLM che l'integrazione dell'audio migliora significativamente le prestazioni in questo compito complesso.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong ZhengWed, 11 Ma🤖 cs.AI

Latent Speech-Text Transformer

Il paper introduce il Latent Speech-Text Transformer (LST), un modello che migliora l'efficienza computazionale e le prestazioni di comprensione e generazione sia vocale che testuale aggregando i token vocali in patch latenti, riducendo così la lunghezza delle sequenze e bilanciando l'elaborazione tra le due modalità.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

Il paper presenta AlphaApollo, un sistema di ragionamento agentic che affronta le limitazioni nella risoluzione di problemi complessi e nell'evoluzione affidabile dei modelli fondazione attraverso tre componenti chiave: ragionamento multi-turno, apprendimento multi-turno e evoluzione multi-round, dimostrando significativi miglioramenti delle prestazioni su vari benchmark matematici.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Il paper introduce NavSpace, un benchmark per valutare le capacità di percezione e ragionamento spaziale degli agenti di navigazione, e propone SNav, un nuovo modello che supera le prestazioni degli agenti esistenti sia sul benchmark che su robot reali.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI

RECODE: Reasoning Through Code Generation for Visual Question Answering

Il paper presenta RECODE, un framework agentico che migliora il ragionamento visivo nei modelli multimodali trasformando l'analisi di grafici e diagrammi nella generazione e verifica iterativa di codice eseguibile, superando così i limiti della percezione basata sui pixel.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza FathiWed, 11 Ma🤖 cs.AI

← Precedente Successivo →