cs.AI artigos | Gist.Science

Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision-Language Models

Este trabalho introduz o framework "Informativeness" e um novo conjunto de dados específico para o setor de hospitalidade a fim de avaliar a capacidade de Modelos Visuais-Linguísticos (VLMs) em fornecer informações úteis para a tomada de decisão, revelando que, embora esses modelos necessitem de ajuste fino específico para o domínio, eles podem se tornar eficazes ao identificar sinais visuais-chave para necessidades informativas dos usuários.

Jeongwoo Lee, Baek Duhyeong, Eungyeol Han, Soyeon Shin, Gukin han, Seungduk Kim, Jaehyun Jeon, Taewoo Jeong2026-03-10🤖 cs.LG

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

O artigo apresenta o CCR-Bench, um novo benchmark projetado para avaliar a capacidade de modelos de linguagem de seguir instruções complexas em cenários industriais reais, revelando que mesmo os modelos mais avançados atuais possuem deficiências significativas ao lidar com a entrelaçamento profundo de requisitos de conteúdo e formatação, raciocínio condicional e planejamento procedural.

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

Este artigo utiliza o filtro de partículas (SMC) para analisar teoricamente e empiricamente o compromisso entre custo e precisão em métodos de inferência de linguagem que agregam múltiplas amostras, identificando critérios de garantia, melhorias algorítmicas e limites fundamentais, embora os resultados empíricos sugiram que a precisão final dependa de fatores além do erro de amostragem.

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

Este trabalho apresenta o VLM-SubtleBench, um novo benchmark que avalia a capacidade de raciocínio comparativo sutil de modelos de visão e linguagem (VLMs) em dez tipos de diferenças e diversos domínios, revelando lacunas significativas entre o desempenho desses modelos e o humano.

Minkyu Kim, Sangheon Lee, Dongmin Park2026-03-10🤖 cs.LG

Visualizing Coalition Formation: From Hedonic Games to Image Segmentation

Este artigo propõe a segmentação de imagens como um banco de testes visual para jogos hedônicos, demonstrando como um parâmetro de granularização influencia a estrutura de equilíbrio e a fragmentação de coalizões ao modelar pixels como agentes.

Pedro Henrique de Paula França, Lucas Lopes Felipe, Daniel Sadoc Menasché2026-03-10💻 cs

A Lightweight Traffic Map for Efficient Anytime LaCAM*

Este artigo propõe uma nova abordagem que aproveita a capacidade do LaCAM* de construir um mapa de tráfego dinâmico e leve durante sua busca, superando as limitações de custo computacional e rigidez das soluções baseadas em caminhos de orientação estáticos para melhorar a qualidade das soluções em problemas de Planejamento de Caminhos Multiagentes (MAPF).

Bojie Shen, Yue Zhang, Zhe Chen, Daniel Harabor2026-03-10💻 cs

Designing probabilistic AI monsoon forecasts to inform agricultural decision-making

Este artigo apresenta um sistema de previsão de monções baseado em inteligência artificial e inferência bayesiana, desenvolvido sob uma estrutura de teoria da decisão para atender às necessidades heterogêneas dos agricultores, o que resultou na entrega operacional de previsões personalizadas a 38 milhões de agricultores na Índia em 2025.

Colin Aitken, Rajat Masiwal, Adam Marchakitus, Katherine Kowal, Mayank Gupta, Tyler Yang, Amir Jina, Pedram Hassanzadeh, William R. Boos, Michael Kremer2026-03-10🤖 cs.LG

SMGI: A Structural Theory of General Artificial Intelligence

O artigo apresenta a SMGI, uma teoria estrutural de inteligência artificial geral que redefine o aprendizado como a evolução controlada da interface de aprendizagem, formalizando um modelo meta-estrutural dinâmico e provando que abordagens clássicas e modernas são instâncias restritas desse quadro unificado.

Aomar Osmani2026-03-10🤖 cs.LG

EveryQuery: Zero-Shot Clinical Prediction via Task-Conditioned Pretraining over Electronic Health Records

O EveryQuery é um modelo fundamental de prontuários eletrônicos que, ao utilizar pré-treinamento condicionado a tarefas para estimar diretamente a probabilidade de desfechos clínicos em uma única passagem, supera os métodos autoregressivos na previsão zero-shot de eventos, especialmente os raros, embora apresente limitações em raciocínios que exigem disjunção de múltiplos códigos.

Payal Chandak, Gregory Kondas, Isaac Kohane, Matthew McDermott2026-03-10💻 cs

Long-Short Term Agents for Pure-Vision Bronchoscopy Robotic Autonomy

Este artigo apresenta um quadro de autonomia puramente visual para navegação broncoscópica robótica que utiliza agentes hierárquicos de curto e longo prazo, juntamente com um crítico de modelo de mundo, para alcançar navegação autônoma precisa em modelos pré-clínicos sem depender de tecnologias de localização externas.

Junyang Wu, Mingyi Luo, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Chunxi Zhang, Junhao Wang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents

O artigo apresenta o Ares, um framework que utiliza um roteador leve para selecionar dinamicamente o nível de esforço de raciocínio em cada etapa de tarefas de agentes LLM, reduzindo significativamente o custo de inferência sem comprometer substancialmente a taxa de sucesso.

Jingbo Yang, Bairu Hou, Wei Wei, Yujia Bao, Shiyu Chang2026-03-10💻 cs

Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

O artigo apresenta o Rel-MOSS, um novo método de aprendizado profundo relacional que utiliza um controlador de portas por tipo de relação e um sintetizador guiado por relações para realizar sobreamostragem de entidades minoritárias, resolvendo eficazmente o problema de desequilíbrio de classes em bancos de dados relacionais e superando os métodos atuais em precisão balanceada e média geométrica.

Jun Yin, Peng Huo, Bangguo Zhu, Hao Yan, Senzhang Wang, Shirui Pan, Chengqi Zhang2026-03-10🤖 cs.LG

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

O artigo apresenta o IMSE, um método de adaptação em tempo de teste que utiliza uma mistura intrínseca de especialistas espectrais em Vision Transformers, ajustando apenas os valores singulares via decomposição SVD e introduzindo uma perda de maximização de diversidade e recuperação de códigos espectrais para evitar o colapso de características e melhorar significativamente a precisão com parâmetros treináveis drasticamente reduzidos.

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

O artigo apresenta o SWE-Fuse, um novo framework de treinamento que combina aprendizado de trajetórias sem problemas e treinamento de RLVR consciente de entropia para superar a falta de descrições de problemas de alta qualidade e melhorar significativamente a capacidade de agentes de LLM em resolver tarefas reais de engenharia de software.

Xin-Cheng Wen, Binbin Chen, Haoxuan Lan, Hang Yu, Peng Di, Cuiyun Gao2026-03-10💻 cs

AI Agents, Language, Deep Learning and the Next Revolution in Science

O artigo propõe que agentes de IA supervisionados por humanos, baseados em modelos de linguagem e aprendizado profundo, constituam a próxima evolução do método científico para lidar com a complexidade de dados em diversas disciplinas, exemplificada pelo sistema Dr. Sai no Instituto de Física de Altas Energias da Academia Chinesa de Ciências.

Ke Li, Beijiang Liu, Bruce Mellado, Changzheng Yuan, Zhengde Zhang2026-03-10💻 cs

ELLMob: Event-Driven Human Mobility Generation with Self-Aligned LLM Framework

O artigo apresenta o ELLMob, um framework baseado em LLM que gera trajetórias humanas realistas durante grandes eventos sociais, superando as limitações de métodos anteriores ao utilizar a Teoria do Rastro Difuso para alinhar padrões habituais com restrições impostas por eventos, apoiado pelo primeiro conjunto de dados anotados com eventos.

Yusong Wang, Chuang Yang, Jiawei Wang, Xiaohang Xu, Jiayi Xu, Dongyuan Li, Chuan Xiao, Renhe Jiang2026-03-10🤖 cs.LG

PSTNet: Physically-Structured Turbulence Network

O artigo apresenta o PSTNet, uma rede neural leve e estruturada fisicamente que integra princípios da teoria atmosférica para estimar a intensidade da turbulência em tempo real com alta precisão e eficiência computacional, sendo ideal para sistemas de navegação aérea em veículos hipersônicos e ambientes com recursos limitados.

Boris Kriuk, Fedor Kriuk2026-03-10🤖 cs.LG

Advancing Automated Algorithm Design via Evolutionary Stagewise Design with LLMs

O artigo apresenta o EvoStage, uma nova abordagem evolutiva que utiliza modelos de linguagem (LLMs) em estágios sequenciais com feedback e uma perspectiva global-local para superar as limitações de métodos de caixa preta, resultando no projeto de algoritmos otimizados que superam designs humanos e técnicas existentes em tarefas complexas como o posicionamento de chips.

Chen Lu, Ke Xue, Chengrui Gao, Yunqi Shi, Siyuan Xu, Mingxuan Yuan, Chao Qian, Zhi-Hua Zhou2026-03-10💻 cs

Adaptive Collaboration with Humans: Metacognitive Policy Optimization for Multi-Agent LLMs with Continual Learning

O artigo propõe o framework HILA, que utiliza uma otimização de política em duplo loop para capacitar sistemas multiagentes a aprender metacognitivamente quando colaborar com humanos, permitindo aprendizado contínuo e superando as limitações de conhecimento estático dos modelos autônomos.

Wei Yang, Defu Cao, Jiacheng Pang, Muyan Weng, Yan Liu2026-03-10💻 cs

VORL-EXPLORE: A Hybrid Learning Planning Approach to Multi-Robot Exploration in Dynamic Environments

O artigo apresenta o VORL-EXPLORE, uma abordagem híbrida de aprendizado e planejamento para exploração multi-robô em ambientes dinâmicos que utiliza uma estimativa compartilhada de navegabilidade para acoplar alocação de tarefas e execução de movimento, reduzindo contenções e adaptando-se a obstáculos não estacionários através de um mecanismo de arbitragem entre navegação global e políticas reativas.

Ning Liu, Sen Shen, Zheng Li, Sheng Liu, Dongkun Han, Shangke Lyu, Thomas Braunl2026-03-10💻 cs

← Anterior Próximo →