cs.AI artigos | Gist.Science

NutriBench: A Dataset for Evaluating Large Language Models on Nutrition Estimation from Meal Descriptions

O artigo apresenta o NutriBench, o primeiro conjunto de dados público com descrições de refeições verificadas por humanos para avaliar a capacidade de Grandes Modelos de Linguagem (LLMs) na estimativa nutricional, demonstrando que, embora ofereçam previsões comparáveis às de nutricionistas profissionais, eles são significativamente mais rápidos e possuem potencial para melhorar os resultados de saúde, apesar dos desafios existentes.

Andong Hua, Mehak Preet Dhaliwal, Laya Pullela + 2 more2026-03-04🤖 cs.AI

The Price of Prompting: Profiling Energy Use in Large Language Models Inference

Este artigo apresenta o MELODI, um framework e conjunto de dados inovadores para monitorar e analisar o consumo energético na inferência de modelos de linguagem grandes, revelando disparidades significativas na eficiência energética em relação aos atributos dos prompts e destacando a necessidade de otimização para um futuro sustentável.

Erik Johannes Husom, Arda Goknil, Lwin Khin Shar + 1 more2026-03-04🤖 cs.AI

The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts

Este artigo apresenta o MERIT Dataset, um conjunto de dados multimodal e totalmente rotulado de boletins escolares com mais de 33 mil amostras, projetado para treinar modelos em tarefas de compreensão de documentos visualmente ricos e para avaliar vieses em modelos de linguagem.

I. de Rodrigo, A. Sanchez-Cuadrado, J. Boal + 1 more2026-03-04🤖 cs.AI

OM4OV: Leveraging Ontology Matching for Ontology Versioning

Este artigo apresenta o OM4OV, um pipeline formalizado que adapta sistemas de correspondência de ontologias para a versão de ontologias, introduzindo um mecanismo de referência cruzada para otimizar o desempenho na detecção de atualizações e corrigir limitações como medições distorcidas e explicações insuficientes de correspondências falsas.

Zhangcheng Qiang, Kerry Taylor, Weiqing Wang2026-03-04🤖 cs.AI

Leverage Knowledge Graph and Large Language Model for Law Article Recommendation: A Case Study of Chinese Criminal Law

Este artigo propõe uma abordagem eficiente para recomendação de artigos legais no direito criminal chinês, combinando um Grafo de Conhecimento Enriquecido por Casos (CLAKG) e um Modelo de Linguagem de Grande Escala (LLM), o que resultou em um aumento significativo da precisão de 0,549 para 0,694 em comparação com métodos existentes.

Yongming Chen, Miner Chen, Ye Zhu + 7 more2026-03-04🤖 cs.AI

Covering Numbers for Deep ReLU Networks with Applications to Function Approximation and Nonparametric Regression

Este artigo preenche uma lacuna na literatura ao estabelecer limites inferiores e superiores rigorosos para os números de cobertura de redes ReLU profundas, permitindo uma compreensão fundamental do impacto da esparsidade e quantização, otimizar a compressão de redes e remover fatores logarítmicos desnecessários nas taxas de complexidade de amostra para regressão não paramétrica.

Weigutian Ou, Helmut Bölcskei2026-03-04📊 stat

StarWhisper Telescope: An AI framework for automating end-to-end astronomical observations

O artigo apresenta o StarWhisper Telescope, um framework de IA que automatiza todo o ciclo de observações astronômicas — desde o planejamento até a análise de dados e o acionamento de propostas de acompanhamento — demonstrando sua eficácia na detecção de transientes em uma rede de telescópios amadores e servindo como modelo para futuras instalações de grande escala.

Cunshi Wang, Yu Zhang, Yuyang Li + 25 more2026-03-04🔭 astro-ph

Hallucination, Monofacts, and Miscalibration: An Empirical Investigation

Este estudo empírico investiga a relação entre alucinações, monofatos e má calibração em modelos de linguagem, demonstrando que uma técnica de superpeso seletivo, que introduz intencionalmente má calibração ao repetir apenas 5% dos dados de treinamento, reduz as alucinações em até 40% sem comprometer a precisão, desafiando assim as políticas universais de deduplicação.

Miranda Muqing Miao, Michael Kearns2026-03-04🤖 cs.AI

Robust Counterfactual Inference in Markov Decision Processes

Este artigo propõe uma abordagem não paramétrica eficiente e escalável para inferência contrafactual em Processos de Decisão de Markov, que calcula limites fechados para probabilidades de transição em todos os modelos causais compatíveis e identifica políticas robustas que otimizam a recompensa no pior caso, superando as limitações de métodos existentes que dependem de modelos causais fixos ou de otimização computacionalmente proibitiva.

Jessica Lally, Milad Kazemi, Nicola Paoletti2026-03-04🤖 cs.AI

$\texttt{SEM-CTRL}$ : Semantically Controlled Decoding

O artigo apresenta o \texttt{SEM-CTRL}, uma abordagem unificada que integra busca por árvore de Monte Carlo (MCTS) no nível de tokens e gramáticas de conjuntos de respostas para impor restrições sintáticas e semânticas durante a decodificação de modelos de linguagem, garantindo saídas válidas sem necessidade de ajuste fino e permitindo que modelos menores superem versões maiores e modelos de raciocínio de ponta em diversas tarefas.

Mohammad Albinhassan, Pranava Madhyastha, Alessandra Russo2026-03-04🤖 cs.AI

LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

O artigo apresenta o LINGOLY-TOO, um novo benchmark de raciocínio linguístico que utiliza obfuscação ortográfica para isolar a capacidade de raciocínio dos modelos de linguagem, demonstrando que seu desempenho cai significativamente quando dependem de conhecimento prévio em vez de lógica pura.

Jude Khouja, Lingyi Yang, Karolina Korgul + 6 more2026-03-04🤖 cs.AI

AttackSeqBench: Benchmarking the Capabilities of LLMs for Attack Sequences Understanding

Este artigo apresenta o AttackSeqBench, um novo benchmark projetado para avaliar sistematicamente a capacidade de raciocínio de modelos de linguagem grandes na compreensão de sequências de ataques descritas em relatórios de inteligência de ameaças cibernéticas, identificando suas vantagens e limitações para apoiar operações de segurança.

Haokai Ma, Javier Yong, Yunshan Ma + 4 more2026-03-04🤖 cs.AI

Robust Weight Imprinting: Insights from Neural Collapse and Proxy-Based Aggregation

Este trabalho propõe o framework geral \texttt{IMPRINT}, que analisa componentes de geração, normalização e agregação para o aprendizado de transferência sem otimização de parâmetros, introduzindo uma variante inovadora baseada em aglomeração motivada pelo fenômeno de colapso neural que supera os métodos anteriores em 4%.

Justus Westerhoff, Golzar Atefi, Mario Koddenbrock + 4 more2026-03-04🤖 cs.AI

A Local Perspective-based Model for Overlapping Community Detection

O artigo propõe o LQ-GCN, um modelo de detecção de comunidades sobrepostas baseado em uma perspectiva local que utiliza um modelo Bernoulli-Poisson e modularidade local para superar as limitações de métodos existentes baseados em GCNs, alcançando melhorias significativas em precisão e recall em redes de grande escala.

Gaofeng Zhou, Rui-Feng Wang, Kangning Cui2026-03-04🤖 cs.AI

Doxing via the Lens: Revealing Location-related Privacy Leakage on Multi-modal Large Reasoning Models

Este artigo revela que os Modelos de Raciocínio Multimodal (MLRMs) representam um risco de privacidade inédito ao inferirem com precisão informações geográficas sensíveis a partir de imagens, superando a capacidade humana nesse aspecto e exigindo uma reavaliação urgente das proteções de privacidade nesses sistemas.

Weidi Luo, Tianyu Lu, Qiming Zhang + 8 more2026-03-04🤖 cs.AI

Param $Δ$ for Direct Weight Mixing: Post-Train Large Language Model at Zero Cost

Este artigo apresenta o método Param $Î$ , uma técnica inovadora que transfere capacidades de pós-treinamento de um modelo para uma nova base atualizada simplesmente misturando seus pesos, permitindo a criação de modelos instruídos de alto desempenho sem custos computacionais adicionais.

Sheng Cao, Mingrui Wu, Karthik Prasad + 2 more2026-03-04🤖 cs.AI

Adaptive Social Learning via Mode Policy Optimization for Language Agents

Este artigo propõe o framework ASL, que utiliza o algoritmo AMPO para permitir que agentes de linguagem adaptem dinamicamente sua profundidade de raciocínio em interações sociais, alcançando desempenho superior e maior eficiência de tokens em comparação com métodos existentes.

Minzheng Wang, Yongbin Li, Haobo Wang + 6 more2026-03-04🤖 cs.AI

The Gen AI Generation: Student Views of Awareness, Preparedness, and Concern

Este estudo analisa as percepções da "Geração GenAI" sobre a tecnologia, revelando que, embora os estudantes mostrem entusiasmo, a falta de exposição curricular gera uma lacuna na preparação e levanta preocupações significativas sobre ética, deslocamento de empregos e a adequação das estruturas educacionais atuais.

Micaela Siraj, Jon Duke, Thomas Plötz2026-03-04🤖 cs.AI

ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language Models

O artigo apresenta o ViPlan, o primeiro benchmark de código aberto que compara abordagens de planejamento simbólico com VLMs como fundamentadores versus planejamento direto com VLMs em dois domínios visuais, revelando que a eficácia de cada método depende do domínio (sendo o fundamentador superior em Blocksworld e o planejador direto em robótica doméstica) e que o Chain-of-Thought não oferece benefícios consistentes.

Matteo Merler, Nicola Dainese, Minttu Alakuijala + 5 more2026-03-04🤖 cs.AI

Efficient Agent Training for Computer Use

O artigo apresenta o PC Agent-E, um framework de treinamento eficiente que supera o Claude 3.7 Sonnet no benchmark WindowsAgentArena-V2 ao combinar apenas 312 trajetórias humanas anotadas com dados sintetizados por IA, reduzindo drasticamente a dependência de demonstrações humanas em larga escala.

Yanheng He, Jiahe Jin, Pengfei Liu2026-03-04🤖 cs.AI

← Anterior Próximo →

cs.AI