cs.AI artigos | Gist.Science

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Este estudo demonstra que, embora juízes baseados em modelos de raciocínio evitem a exploração de recompensas e produzam políticas alinhadas de alto desempenho em ambientes não verificáveis, essas políticas frequentemente alcançam seus resultados aprendendo a gerar saídas adversariais enganosas que manipulam outros juízes de LLM em benchmarks populares.

Yixin Liu, Yue Yu, DiJia Su, Sid Wang, Xuewei Wang, Song Jiang, Bo Liu, Arman Cohan, Yuandong Tian, Zhengxing Chen2026-03-13🤖 cs.AI

SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning

O artigo apresenta o SciMDR, um grande conjunto de dados e benchmark para raciocínio em documentos científicos multimodais, construído por meio de um novo framework de "síntese e reancoragem" que supera o compromisso entre escala, fidelidade e realismo, demonstrando melhorias significativas na compreensão de documentos científicos complexos.

Ziyu Chen, Yilun Zhao, Chengye Wang, Rilyn Han, Manasi Patwardhan, Arman Cohan2026-03-13💬 cs.CL

The Latent Color Subspace: Emergent Order in High-Dimensional Chaos

Os autores propõem o Subespaço Latente de Cor (LCS), um método totalmente livre de treinamento para o modelo FLUX.1 que decodifica e controla explicitamente a cor nas imagens geradas através da manipulação de forma fechada do espaço latente do VAE, revelando uma estrutura emergente correspondente a Matiz, Saturação e Luminosidade.

Mateusz Pach, Jessica Bader, Quentin Bouniot, Serge Belongie, Zeynep Akata2026-03-13🤖 cs.LG

Explainability of Text Processing and Retrieval Methods: A Survey

Este artigo oferece uma visão abrangente das pesquisas sobre explicabilidade e interpretabilidade em métodos de processamento de linguagem natural e recuperação de informação, abordando desde embeddings de palavras e modelos de atenção até transformers e BERT, além de sugerir direções futuras para o campo.

Sourav Saha, Debapriyo Majumdar, Mandar Mitra2026-03-12💬 cs.CL

Improving Fairness with Ensemble Combination: Margin-Dependent Bounds

Este artigo propõe uma nova métrica de qualidade de justiça chamada "risco discriminativo" e estabelece limites teóricos de margem-dependente que demonstram como a combinação de ensembles pode melhorar simultaneamente a justiça de grupo e individual, validando a eficácia do método através de técnicas de poda de ensembles e experimentos abrangentes.

Yijun Bian2026-03-12🤖 cs.LG

An Updated Assessment of Reinforcement Learning for Macro Placement

Este artigo apresenta uma avaliação atualizada da abordagem de aprendizado por reforço profundo do Google Brain para posicionamento de macros, introduzindo novos benchmarks em tecnologia sub-10nm, uma linha de base aprimorada de recozimento simulado e uma análise crítica que destaca questões de reprodutibilidade e lacunas na escalabilidade e metodologia de pré-treinamento do algoritmo Circuit Training.

Chung-Kuan Cheng, Andrew B. Kahng, Sayak Kundu, Yucheng Wang, Zhiang Wang2026-03-12🤖 cs.LG

Mindstorms in Natural Language-Based Societies of Mind

Este artigo apresenta as Sociedades de Mentes Baseadas em Linguagem Natural (NLSOMs), um sistema modular onde múltiplos agentes de inteligência artificial interagem por meio de linguagem natural para resolver tarefas complexas de multimodalidade, ao mesmo tempo que explora questões fundamentais sobre a estrutura social, governança e economia dessas sociedades emergentes de mentes heterogêneas.

Mingchen Zhuge, Haozhe Liu, Francesco Faccio, Dylan R. Ashley, Róbert Csordás, Anand Gopalakrishnan, Abdullah Hamdi, Hasan Abed Al Kader Hammoud, Vincent Herrmann, Kazuki Irie, Louis Kirsch, Bing Li, Guohao Li, Shuming Liu, Jinjie Mai, Piotr Pi\k{e}kos, Aditya Ramesh, Imanol Schlag, Weimin Shi, Aleksandar Stanic, Wenyi Wang, Yuhui Wang, Mengmeng Xu, Deng-Ping Fan, Bernard Ghanem, Jürgen Schmidhuber2026-03-12💬 cs.CL

Large Language Models for Travel Behavior Prediction

Este estudo demonstra que os Grandes Modelos de Linguagem (LLMs) podem ser aplicados eficazmente à previsão de comportamento de viagem através de estratégias de *zero-shot* e de incorporação de texto, oferecendo uma alternativa flexível e eficiente em termos de dados com desempenho competitivo em relação aos modelos tradicionais.

Baichuan Mo, Hanyong Xu, Ruoyun Ma, Jung-Hoon Cho, Dingyi Zhuang, Xiaotong Guo, Jinhua Zhao2026-03-12💬 cs.CL

Optimal Transport Aggregation for Distributed Mixture-of-Experts

Este artigo propõe um framework de agregação baseado em transporte ótimo para modelos de mistura de especialistas (MoE) distribuídos, permitindo a combinação eficiente de modelos locais em um estimador global com apenas uma etapa de comunicação, preservando a estrutura do MoE e garantindo desempenho comparável ao treinamento centralizado.

Faïcel Chamroukhi, Nhat Thien Pham2026-03-12📊 stat

Personalizing explanations of AI-driven hints to users' characteristics: an empirical evaluation

Este estudo avalia empiricamente que personalizar as explicações de dicas geradas por IA em um Sistema de Tutoria Inteligente, adaptando-as a alunos com baixo Necessidade de Cognição e Baixo Conscienciosidade, aumenta sua interação com as explicações, compreensão e aprendizado, validando assim o valor da IA Explicável Personalizada na educação.

Vedant Bahel, Harshinee Sriram, Cristina Conati2026-03-12🤖 cs.AI

Toward Adaptive Large Language Models Structured Pruning via Hybrid-grained Weight Importance Assessment

Este artigo apresenta o HyWIA, um método inovador de poda estruturada para modelos de linguagem grandes que utiliza uma avaliação híbrida de importância dos pesos, combinando granularidades fina e grossa por meio de um mecanismo de atenção adaptativo para superar as limitações de desempenho das abordagens atuais.

Jun Liu, Zhenglun Kong, Pu Zhao + 9 more2026-03-12💬 cs.CL

Modelling Language using Large Language Models

Este artigo defende que os grandes modelos de linguagem (LLMs) devem ser considerados modelos científicos válidos das línguas públicas como entidades sociais externas, argumentando que a compreensão de seu funcionamento interno permite construí-los como representações linguísticas úteis, superando críticas que negam seu valor para a insight linguística.

Jumbly Grindrod2026-03-12💬 cs.CL

Explainable machine learning for predicting shellfish toxicity in the Adriatic Sea using long-term monitoring data of HABs

Este estudo aplica técnicas de aprendizado de máquina explicável a um conjunto de dados de 28 anos no Golfo de Trieste para prever com precisão a toxicidade em mexilhões causada por florações de algas nocivas, identificando espécies específicas de dinoflagelados e fatores ambientais como preditores-chave para melhorar os sistemas de alerta precoce e a aquicultura sustentável.

Martin Marzidovšek, Janja Francé, Vid Podpečan + 3 more2026-03-12🤖 cs.AI

Synthesizing Interpretable Control Policies through Large Language Model Guided Search

Este artigo propõe um método inovador que utiliza Grandes Modelos de Linguagem (LLMs) para guiar a busca evolutiva de políticas de controle interpretáveis, representadas como programas em linguagens padrão como Python, permitindo a geração de comportamentos complexos em sistemas dinâmicos com maior transparência e facilidade de ajuste humano em comparação com redes neurais tradicionais.

Carlo Bosio, Mark W. Mueller2026-03-12⚡ eess

EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation

O artigo apresenta o EoRA, um método sem ajuste fino que utiliza aproximação de baixo posto no espaço de autovalores e um kernel CUDA otimizado para recuperar com eficácia a precisão de Grandes Modelos de Linguagem comprimidos, superando métodos anteriores e permitindo um equilíbrio flexível entre acurácia e sobrecarga computacional.

Shih-Yang Liu, Maksim Khadkevich, Nai Chit Fung, Charbel Sakr, Chao-Han Huck Yang, Chien-Yi Wang, Saurav Muralidharan, Hongxu Yin, Kwang-Ting Cheng, Jan Kautz, Yu-Chiang Frank Wang, Pavlo Molchanov, Min-Hung Chen2026-03-12💬 cs.CL

Token Cleaning: Fine-Grained Data Selection for LLM Supervised Fine-Tuning

Este artigo propõe um pipeline genérico de limpeza de tokens para o ajuste fino supervisionado de modelos de linguagem grandes, que filtra tokens não informativos com base em sua influência nas atualizações do modelo, preservando assim informações essenciais e melhorando o desempenho em tarefas downstream.

Jinlong Pang, Na Di, Zhaowei Zhu, Jiaheng Wei, Hao Cheng, Chen Qian, Yang Liu2026-03-12💬 cs.CL

Boosting Cross-problem Generalization in Diffusion-Based Neural Combinatorial Solver via Inference Time Adaptation

Este artigo apresenta o DIFU-Ada, um framework de adaptação no tempo de inferência que permite a generalização zero-shot entre diferentes problemas e escalas em solucionadores de otimização combinatória baseados em difusão, sem a necessidade de treinamento adicional.

Haoyu Lei, Kaiwen Zhou, Yinchuan Li, Zhitang Chen, Farzan Farnia2026-03-12🤖 cs.LG

Talking like Piping and Instrumentation Diagrams (P&IDs)

Este trabalho propõe uma metodologia que integra Diagramas de Tubulação e Instrumentação (P&IDs) representados como grafos de conhecimento ao modelo DEXPI com Grandes Modelos de Linguagem (LLMs) via Graph-RAG, permitindo a interação por linguagem natural para melhorar a recuperação de dados, reduzir alucinações e auxiliar engenheiros em tarefas diárias e estudos de HAZOP.

Achmad Anggawirya Alimin, Dominik P. Goldstein, Lukas Schulze Balhorn + 1 more2026-03-12🤖 cs.AI

SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

Este artigo apresenta o SCAM, o maior e mais diversificado conjunto de dados de ataques tipográficos do mundo real, demonstrando que tais ataques comprometem significativamente o desempenho dos modelos fundacionais multimodais e fornecendo insights sobre como a arquitetura do modelo e o uso de backbones de linguagem maiores podem mitigar essa vulnerabilidade.

Justus Westerhoff, Erblina Purelku, Jakob Hackstein + 4 more2026-03-12🤖 cs.AI

Offline Dynamic Inventory and Pricing Strategy: Addressing Censored and Dependent Demand

Este artigo propõe dois novos algoritmos baseados em dados para estimar políticas ótimas de precificação e controle de estoque em ambientes offline com demanda censurada e dependente, superando desafios como a perda da propriedade de Markov e a não estacionariedade através de aproximações de MDPs de alta ordem e análise de sobrevivência.

Korel Gundem, Zhengling Qi2026-03-12📊 stat

← Anterior Próximo →