NutriBench: A Dataset for Evaluating Large Language Models on Nutrition Estimation from Meal Descriptions

O artigo apresenta o NutriBench, o primeiro conjunto de dados público com descrições de refeições verificadas por humanos para avaliar a capacidade de Grandes Modelos de Linguagem (LLMs) na estimativa nutricional, demonstrando que, embora ofereçam previsões comparáveis às de nutricionistas profissionais, eles são significativamente mais rápidos e possuem potencial para melhorar os resultados de saúde, apesar dos desafios existentes.

Andong Hua, Mehak Preet Dhaliwal, Laya Pullela + 2 more2026-03-04🤖 cs.AI

The Price of Prompting: Profiling Energy Use in Large Language Models Inference

Este artigo apresenta o MELODI, um framework e conjunto de dados inovadores para monitorar e analisar o consumo energético na inferência de modelos de linguagem grandes, revelando disparidades significativas na eficiência energética em relação aos atributos dos prompts e destacando a necessidade de otimização para um futuro sustentável.

Erik Johannes Husom, Arda Goknil, Lwin Khin Shar + 1 more2026-03-04🤖 cs.AI

Leverage Knowledge Graph and Large Language Model for Law Article Recommendation: A Case Study of Chinese Criminal Law

Este artigo propõe uma abordagem eficiente para recomendação de artigos legais no direito criminal chinês, combinando um Grafo de Conhecimento Enriquecido por Casos (CLAKG) e um Modelo de Linguagem de Grande Escala (LLM), o que resultou em um aumento significativo da precisão de 0,549 para 0,694 em comparação com métodos existentes.

Yongming Chen, Miner Chen, Ye Zhu + 7 more2026-03-04🤖 cs.AI

Covering Numbers for Deep ReLU Networks with Applications to Function Approximation and Nonparametric Regression

Este artigo preenche uma lacuna na literatura ao estabelecer limites inferiores e superiores rigorosos para os números de cobertura de redes ReLU profundas, permitindo uma compreensão fundamental do impacto da esparsidade e quantização, otimizar a compressão de redes e remover fatores logarítmicos desnecessários nas taxas de complexidade de amostra para regressão não paramétrica.

Weigutian Ou, Helmut Bölcskei2026-03-04📊 stat

StarWhisper Telescope: An AI framework for automating end-to-end astronomical observations

O artigo apresenta o StarWhisper Telescope, um framework de IA que automatiza todo o ciclo de observações astronômicas — desde o planejamento até a análise de dados e o acionamento de propostas de acompanhamento — demonstrando sua eficácia na detecção de transientes em uma rede de telescópios amadores e servindo como modelo para futuras instalações de grande escala.

Cunshi Wang, Yu Zhang, Yuyang Li + 25 more2026-03-04🔭 astro-ph

Hallucination, Monofacts, and Miscalibration: An Empirical Investigation

Este estudo empírico investiga a relação entre alucinações, monofatos e má calibração em modelos de linguagem, demonstrando que uma técnica de superpeso seletivo, que introduz intencionalmente má calibração ao repetir apenas 5% dos dados de treinamento, reduz as alucinações em até 40% sem comprometer a precisão, desafiando assim as políticas universais de deduplicação.

Miranda Muqing Miao, Michael Kearns2026-03-04🤖 cs.AI

Robust Counterfactual Inference in Markov Decision Processes

Este artigo propõe uma abordagem não paramétrica eficiente e escalável para inferência contrafactual em Processos de Decisão de Markov, que calcula limites fechados para probabilidades de transição em todos os modelos causais compatíveis e identifica políticas robustas que otimizam a recompensa no pior caso, superando as limitações de métodos existentes que dependem de modelos causais fixos ou de otimização computacionalmente proibitiva.

Jessica Lally, Milad Kazemi, Nicola Paoletti2026-03-04🤖 cs.AI

SEM-CTRL\texttt{SEM-CTRL}: Semantically Controlled Decoding

O artigo apresenta o \texttt{SEM-CTRL}, uma abordagem unificada que integra busca por árvore de Monte Carlo (MCTS) no nível de tokens e gramáticas de conjuntos de respostas para impor restrições sintáticas e semânticas durante a decodificação de modelos de linguagem, garantindo saídas válidas sem necessidade de ajuste fino e permitindo que modelos menores superem versões maiores e modelos de raciocínio de ponta em diversas tarefas.

Mohammad Albinhassan, Pranava Madhyastha, Alessandra Russo2026-03-04🤖 cs.AI

AttackSeqBench: Benchmarking the Capabilities of LLMs for Attack Sequences Understanding

Este artigo apresenta o AttackSeqBench, um novo benchmark projetado para avaliar sistematicamente a capacidade de raciocínio de modelos de linguagem grandes na compreensão de sequências de ataques descritas em relatórios de inteligência de ameaças cibernéticas, identificando suas vantagens e limitações para apoiar operações de segurança.

Haokai Ma, Javier Yong, Yunshan Ma + 4 more2026-03-04🤖 cs.AI

ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language Models

O artigo apresenta o ViPlan, o primeiro benchmark de código aberto que compara abordagens de planejamento simbólico com VLMs como fundamentadores versus planejamento direto com VLMs em dois domínios visuais, revelando que a eficácia de cada método depende do domínio (sendo o fundamentador superior em Blocksworld e o planejador direto em robótica doméstica) e que o Chain-of-Thought não oferece benefícios consistentes.

Matteo Merler, Nicola Dainese, Minttu Alakuijala + 5 more2026-03-04🤖 cs.AI