cs.AI artigos | Gist.Science

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

O artigo propõe o ConLID, uma abordagem de aprendizado contrastivo supervisionado que melhora a identificação de idiomas em línguas de baixo recurso ao aprender representações invariantes a domínios, superando limitações de dados unidomínio sem prejudicar o desempenho em línguas de alto recurso.

Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine BosselutWed, 11 Ma🤖 cs.AI

OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

O artigo apresenta o OPENXRD, um framework abrangente de benchmarking para avaliar a capacidade de modelos de linguagem (LLMs) e multimodais (MLLMs) de assimilar informações contextuais em perguntas sobre difração de raios-X, demonstrando que materiais revisados por especialistas e modelos de porte médio obtêm os maiores ganhos de desempenho em comparação com conteúdos gerados por IA e modelos muito grandes.

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz AbdolrahimWed, 11 Ma🤖 cs.AI

On the mechanical creation of mathematical concepts

O artigo propõe um modelo de resolução de problemas matemáticos como um ciclo de atualização de crenças, distinguindo entre conceitos implícitos e explícitos, e argumenta que a criação de conceitos explícitos é o passo fundamental da descoberta matemática, uma capacidade que os sistemas de IA atuais ainda não possuem.

Asvin GWed, 11 Ma🤖 cs.AI

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

O artigo apresenta a Latent Policy Steering (LPS), uma abordagem que aprimora políticas visuomotoras em cenários com poucos dados ao pré-treinar um Modelo de Mundo usando fluxo óptico como representação de ação agnóstica ao corpo, permitindo aproveitar dados de múltiplas efetuações e, subsequentemente, selecionar as melhores ações para o robô-alvo, resultando em melhorias significativas de desempenho tanto em simulação quanto no mundo real.

Yiqi Wang, Mrinal Verghese, Jeff SchneiderWed, 11 Ma🤖 cs.AI

MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs

O artigo apresenta o MMGraphRAG, um método inovador que integra gráficos de cena visuais a grafos de conhecimento textuais através da técnica SpecLink e do conjunto de dados CMEL, superando as limitações atuais dos sistemas GraphRAG ao permitir raciocínio multimodal interpretável e alcançar desempenho superior em tarefas complexas.

Xueyao Wan, Hang YuWed, 11 Ma🤖 cs.AI

Debiasing International Attitudes: LLM Agents for Simulating US-China Perception Changes

Este estudo apresenta um framework baseado em agentes de LLM para simular a evolução das atitudes dos cidadãos dos EUA em relação à China entre 2005 e 2025, demonstrando que a introdução de um agente "advogado do diabo" é a estratégia mais eficaz para mitigar vieses de mídia e promover opiniões mais alinhadas com a cognição humana, ao mesmo tempo que revela vieses inerentes dependentes da origem geográfica dos modelos.

Nicholas Sukiennik, Yichuan Xu, Yuqing Kan, Jinghua Piao, Yuwei Yan, Chen Gao, Yong LiWed, 11 Ma🤖 cs.AI

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

O artigo propõe o método SFDA-PFT, uma abordagem leve de adaptação de domínio sem fonte que utiliza tradução de características no espaço latente para personalizar modelos de reconhecimento de expressões faciais usando apenas dados de alvo neutros, superando as limitações de métodos existentes e evitando a geração instável de imagens.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric GrangerWed, 11 Ma🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

O artigo apresenta o EgoCross, um novo benchmark abrangente para avaliar a generalização de modelos de linguagem multimodal em cenários de vídeo egocêntrico que transcendem atividades cotidianas, cobrindo domínios desafiadores como cirurgia, indústria, esportes extremos e perspectiva animal.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling WangWed, 11 Ma🤖 cs.AI

Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment

Este artigo propõe e avalia uma abordagem inovadora que utiliza avatares virtuais e música gerada por IA para transformar sílabos textuais em apresentações audiovisuais cantadas, demonstrando que essa estratégia aumenta significativamente o engajamento, a compreensão e a retenção das informações essenciais pelos estudantes.

Xinxing WuWed, 11 Ma🤖 cs.AI

TaoSR1: The Thinking Model for E-commerce Relevance Search

O artigo apresenta o TaoSR1, um novo paradigma que adapta Grandes Modelos de Linguagem (LLMs) para a previsão de relevância em buscas de e-commerce, utilizando um processo de três etapas com raciocínio passo a passo (Chain-of-Thought) e otimização de preferências para superar limitações de modelos anteriores e alcançar desempenho superior tanto em testes offline quanto em avaliações online.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo ZhengWed, 11 Ma🤖 cs.AI

Computational Multi-Agents Society Experiments: Social Modeling Framework Based on Generative Agents

Este artigo apresenta o CMASE, um quadro de trabalho para experimentos computacionais em sociedades multiagentes que integra agentes generativos com métodos etnográficos virtuais, permitindo que pesquisadores atuem como participantes embutidos para simular, interpretar e intervir em fenômenos sociais complexos com rigor causal e precisão empírica.

Hanzhong Zhang, Muhua Huang, Jindong WangWed, 11 Ma🤖 cs.AI

VistaWise: Building Cost-Effective Agent with Cross-Modal Knowledge Graph for Minecraft

O artigo apresenta o VistaWise, um agente de baixo custo para o Minecraft que integra um grafo de conhecimento multimodal e um modelo de detecção de objetos especializado para reduzir drasticamente a necessidade de dados de treinamento e alcançar desempenho de ponta em tarefas de mundo aberto.

Honghao Fu, Junlong Ren, Qi Chai, Deheng Ye, Yujun Cai, Hao WangWed, 11 Ma🤖 cs.AI

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

O artigo apresenta o SEER, um quadro de trabalho adaptativo que otimiza a eficiência do raciocínio em cadeia de pensamento (CoT) em modelos de linguagem, comprimindo a verborragia desnecessária e reduzindo custos computacionais sem comprometer a precisão em tarefas de engenharia de software e matemática.

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin XiaWed, 11 Ma🤖 cs.AI

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

O artigo apresenta o VSSFlow, um framework unificado baseado em fluxo que, através de um mecanismo de agregação de condições disjuntas e aprendizado conjunto, supera os métodos específicos de domínio ao gerar simultaneamente som e fala a partir de vídeos.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

O artigo apresenta o VoiceBridge, um modelo de ponte latente de um único passo que utiliza um autoencoder variacional preservador de energia e um prior neural conjunto para realizar a restauração geral de fala de alta qualidade (48 kHz) a partir de diversas distorções em uma única etapa, sem necessidade de destilação.

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

O artigo apresenta o v-HUB, um novo benchmark para compreensão de humor em vídeos que utiliza vídeos não verbais e anotações ricas para avaliar modelos de linguagem multimodal, demonstrando que a integração de pistas auditivas melhora significativamente a capacidade desses modelos de entender o humor.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong ZhengWed, 11 Ma🤖 cs.AI

Latent Speech-Text Transformer

O artigo apresenta o Latent Speech-Text Transformer (LST), um modelo que agrupa tokens de fala em patches latentes para alinhar a granularidade com o texto, resultando em maior eficiência computacional e melhor desempenho tanto na fala quanto no texto em diversas tarefas e escalas.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

O artigo apresenta o AlphaApollo, um sistema de raciocínio agênico que supera limitações em modelos fundamentais ao combinar interações de múltiplas voltas, aprendizado por reforço e evolução iterativa para melhorar significativamente o desempenho em tarefas de raciocínio complexo e de longo prazo.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Este trabalho apresenta o benchmark NavSpace para avaliar sistematicamente a inteligência espacial de agentes de navegação e propõe o modelo SNav, que supera os agentes existentes tanto no benchmark quanto em testes com robôs reais.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI

RECODE: Reasoning Through Code Generation for Visual Question Answering

O artigo apresenta o RECODE, um framework agêntico que supera as limitações de raciocínio visual dos modelos multimodais ao transformar imagens estruturadas em código executável para verificação e refinamento iterativo, alcançando desempenho superior em benchmarks de raciocínio visual.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza FathiWed, 11 Ma🤖 cs.AI

← Anterior Próximo →