cs.AI artigos | Gist.Science

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Este trabalho explora a Resposta Visual a Perguntas (VQA) em vietnamita utilizando arquiteturas baseadas em transformers, comparando sistematicamente métricas de avaliação automática em cenários multilíngues para aprimorar o alinhamento com o julgamento humano.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le2026-03-11🤖 cs.AI

ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling

O artigo apresenta o ESAinsTOD, um framework unificado de ajuste fino instrucional e consciente de esquema que supera os modelos atuais em tarefas de diálogo orientado a objetivos, oferecendo maior generalização em cenários de poucos recursos e robustez contra ruídos de dados.

Dechuan Teng, Chunlin Lu, Libo Qin, Wanxiang Che2026-03-11🤖 cs.AI

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

O artigo apresenta o ActiveUltraFeedback, um pipeline de aprendizado ativo que utiliza estimativas de incerteza e métodos inovadores de seleção de pares de respostas para gerar dados de preferência de alta qualidade, permitindo o alinhamento eficiente de modelos de linguagem com até seis vezes menos dados anotados em comparação com baselines estáticas.

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas Krause2026-03-11🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

O artigo apresenta o Mousse, um novo otimizador que melhora o método Muon ao incorporar a estimativa estrutural do Shampoo para criar um sistema de coordenadas branqueado, permitindo atualizações espectrais adaptativas à curvatura que reduzem o número de etapas de treinamento em cerca de 12% com custo computacional insignificante.

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai Chen2026-03-11🤖 cs.AI

OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences

O artigo apresenta o OOD-MMSafe, um benchmark que avalia a capacidade de modelos multimodais de identificar riscos ocultos em cadeias causais, e propõe o framework CASPO para superar a "cegueira causal" observada nos modelos atuais, reduzindo drasticamente as taxas de falha na identificação de consequências perigosas.

Ming Wen, Kun Yang, Jingyu Zhang, Yuxuan Liu, shiwen cui, Shouling Ji, Xingjun Ma2026-03-11🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

O artigo apresenta o MUGEN, um benchmark abrangente que revela as limitações dos Modelos Grandes de Áudio-Linguagem na compreensão de múltiplos áudios simultâneos e demonstra que estratégias de treinamento sem supervisão, como a Autoconsistência Permutacional de Áudio combinada com Cadeia de Pensamento, podem melhorar significativamente o desempenho nesses cenários.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi Lee2026-03-11🤖 cs.AI

Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT

O artigo propõe o CVS, um método de seleção de dados sem treinamento que utiliza a discrepância na validação de respostas com e sem a pergunta para identificar amostras que exigem raciocínio conjunto visão-linguagem, superando o treinamento com dados completos e reduzindo custos computacionais.

Peng Sun, Huawen Shen, Yi Ban, Tianfan Fu, Yanbo Wang, Yuqiang Li2026-03-11🤖 cs.AI

AutoAgent: Evolving Cognition and Elastic Memory Orchestration for Adaptive Agents

O artigo apresenta o AutoAgent, um framework multiagente autoevolutivo que integra cognição em evolução, tomada de decisão contextual dinâmica e orquestração elástica de memória para superar limitações de adaptabilidade e aprendizado de longo prazo em ambientes não estacionários.

Xiaoxing Wang, Ning Liao, Shikun Wei, Chen Tang, Feiyu Xiong2026-03-11🤖 cs.AI

RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

O artigo apresenta o RbtAct, um modelo que utiliza respostas de autores (rebuttals) como supervisão implícita para treinar um gerador de feedback de revisão por pares mais acionável e específico, superando as limitações de superficialidade das revisões geradas por IA.

Sihong Wu, Yiling Ma, Yilun Zhao, Tiansheng Hu, Owen Jiang, Manasi Patwardhan, Arman Cohan2026-03-11🤖 cs.AI

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

O artigo apresenta o EXPLORE-Bench, um novo benchmark derivado de vídeos em primeira pessoa para avaliar a capacidade de modelos de linguagem multimodal em prever cenas finais após sequências longas de ações, revelando uma lacuna significativa em relação ao desempenho humano e demonstrando que a decomposição passo a passo das ações pode melhorar o raciocínio a longo prazo, embora com custos computacionais adicionais.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

Ego: Embedding-Guided Personalization of Vision-Language Models

O artigo "Ego" propõe um método eficiente de personalização para modelos de linguagem visual que, ao extrair tokens visuais representativos de conceitos específicos por meio dos mecanismos de atenção internos, permite que o modelo reconheça e descreva esses conceitos em novas imagens sem a necessidade de treinamento adicional ou pipelines complexos.

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi2026-03-11🤖 cs.AI

World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models

O artigo apresenta o World2Mind, um kit de ferramentas de inteligência espacial sem treinamento que, ao construir mapas cognitivos estruturados e uma Árvore Espacial Alocêntrica (AST) a partir de reconstrução 3D e segmentação, permite que modelos de fundação realizem raciocínio espacial robusto e generalizável, alcançando desempenho superior mesmo em modelos puramente textuais.

Shouwei Ruan, Bin Wang, Zhenyu Wu, Qihui Zhu, Yuxiang Zhang, Hang Su, Yubin Wang2026-03-11🤖 cs.AI

First Estimation of Model Parameters for Neutrino-Induced Nucleon Knockout Using Simulation-Based Inference

Este artigo demonstra que a inferência baseada em simulação (SBI) é uma ferramenta viável para estimar parâmetros de modelos de interação de neutrinos, conseguindo refinar as configurações do gerador GENIE e aproximar-se de simulações alternativas como o NuWro, superando ligeiramente os ajustes empíricos anteriores ao utilizar dados experimentais do MicroBooNE.

Karla Tame-Narvaez, Steven Gardiner, Aleksandra Ciprijanovic, Giuseppe Cerati2026-03-11⚛️ hep-ph

Quantifying the Necessity of Chain of Thought through Opaque Serial Depth

O artigo formaliza o conceito de "profundidade serial opaca" para quantificar a capacidade de raciocínio interno não externalizado em modelos de linguagem, demonstrando que a arquitetura Transformer impõe limites teóricos que tornam a Cadeia de Pensamento uma ferramenta essencial para monitorar e entender o raciocínio complexo desses modelos.

Jonah Brown-Cohen, David Lindner, Rohin Shah2026-03-11🤖 cs.AI

A Hybrid Quantum-Classical Framework for Financial Volatility Forecasting Based on Quantum Circuit Born Machines

Este artigo propõe e valida um framework híbrido quântico-clássico que combina redes LSTM com Máquinas de Nascimento de Circuitos Quânticos (QCBM) para prever a volatilidade financeira, demonstrando superioridade em métricas de erro em comparação com modelos puramente clássicos em dados reais do mercado chinês.

Yixiong Chen2026-03-11⚛️ quant-ph

Exploiting Label-Aware Channel Scoring for Adaptive Channel Pruning in Split Learning

Este artigo propõe o esquema ACP-SL, que utiliza um módulo de pontuação de importância de canais sensível ao rótulo para realizar a poda adaptativa de canais no aprendizado dividido, reduzindo assim a sobrecarga de comunicação sem comprometer a precisão.

Jialei Tan, Zheng Lin, Xiangming Cai, Ruoxi Zhu, Zihan Fang, Pingping Chen, Wei Ni2026-03-11🤖 cs.AI

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

O artigo apresenta o MITRA, um assistente de IA baseado em RAG e hospedado localmente para colaborações científicas como o CMS, que utiliza um pipeline automatizado de extração de texto e uma arquitetura de banco de dados vetorial em dois níveis para recuperar com precisão informações de documentação interna de física, garantindo a privacidade dos dados.

Abhishikth Mallampalli, Sridhara Dasu2026-03-11🤖 cs.AI

Correction of Transformer-Based Models with Smoothing Pseudo-Projector

Este artigo apresenta o "pseudo-projetor", uma modificação leve inspirada no paradigma multigrid que atua como um corretor de representações ocultas para reduzir a sensibilidade ao ruído e melhorar a dinâmica de treinamento e a robustez em modelos baseados em transformers, sem alterar sua arquitetura central.

Vitaly Bulgakov2026-03-11🤖 cs.AI

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Este trabalho apresenta o MA-EgoQA, um novo benchmark e definição de problema para avaliar a compreensão de múltiplos vídeos egocêntricos de agentes corporificados, introduzindo também o modelo EgoMAS como baseline para lidar com a coordenação e memória compartilhada entre agentes.

Kangsan Kim, Yanlai Yang, Suji Kim, Woongyeong Yeo, Youngwan Lee, Mengye Ren, Sung Ju Hwang2026-03-11🤖 cs.AI

SCENEBench: An Audio Understanding Benchmark Grounded in Assistive and Industrial Use Cases

O artigo apresenta o SCENEBench, um conjunto de benchmarks para avaliar a compreensão de áudio além da transcrição de fala, focando em cenários de acessibilidade e industriais como a compreensão de sons ambientes, localização de ruído e reconhecimento de características vocais, e revela lacunas críticas no desempenho de modelos de linguagem de áudio de última geração.

Laya Iyer, Angelina Wang, Sanmi Koyejo2026-03-11🤖 cs.AI

← Anterior Próximo →