Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision-Language Models

Este trabalho introduz o framework "Informativeness" e um novo conjunto de dados específico para o setor de hospitalidade a fim de avaliar a capacidade de Modelos Visuais-Linguísticos (VLMs) em fornecer informações úteis para a tomada de decisão, revelando que, embora esses modelos necessitem de ajuste fino específico para o domínio, eles podem se tornar eficazes ao identificar sinais visuais-chave para necessidades informativas dos usuários.

Jeongwoo Lee, Baek Duhyeong, Eungyeol Han, Soyeon Shin, Gukin han, Seungduk Kim, Jaehyun Jeon, Taewoo Jeong2026-03-10🤖 cs.LG

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

O artigo apresenta o CCR-Bench, um novo benchmark projetado para avaliar a capacidade de modelos de linguagem de seguir instruções complexas em cenários industriais reais, revelando que mesmo os modelos mais avançados atuais possuem deficiências significativas ao lidar com a entrelaçamento profundo de requisitos de conteúdo e formatação, raciocínio condicional e planejamento procedural.

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

Este artigo utiliza o filtro de partículas (SMC) para analisar teoricamente e empiricamente o compromisso entre custo e precisão em métodos de inferência de linguagem que agregam múltiplas amostras, identificando critérios de garantia, melhorias algorítmicas e limites fundamentais, embora os resultados empíricos sugiram que a precisão final dependa de fatores além do erro de amostragem.

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

Designing probabilistic AI monsoon forecasts to inform agricultural decision-making

Este artigo apresenta um sistema de previsão de monções baseado em inteligência artificial e inferência bayesiana, desenvolvido sob uma estrutura de teoria da decisão para atender às necessidades heterogêneas dos agricultores, o que resultou na entrega operacional de previsões personalizadas a 38 milhões de agricultores na Índia em 2025.

Colin Aitken, Rajat Masiwal, Adam Marchakitus, Katherine Kowal, Mayank Gupta, Tyler Yang, Amir Jina, Pedram Hassanzadeh, William R. Boos, Michael Kremer2026-03-10🤖 cs.LG

EveryQuery: Zero-Shot Clinical Prediction via Task-Conditioned Pretraining over Electronic Health Records

O EveryQuery é um modelo fundamental de prontuários eletrônicos que, ao utilizar pré-treinamento condicionado a tarefas para estimar diretamente a probabilidade de desfechos clínicos em uma única passagem, supera os métodos autoregressivos na previsão zero-shot de eventos, especialmente os raros, embora apresente limitações em raciocínios que exigem disjunção de múltiplos códigos.

Payal Chandak, Gregory Kondas, Isaac Kohane, Matthew McDermott2026-03-10💻 cs

Long-Short Term Agents for Pure-Vision Bronchoscopy Robotic Autonomy

Este artigo apresenta um quadro de autonomia puramente visual para navegação broncoscópica robótica que utiliza agentes hierárquicos de curto e longo prazo, juntamente com um crítico de modelo de mundo, para alcançar navegação autônoma precisa em modelos pré-clínicos sem depender de tecnologias de localização externas.

Junyang Wu, Mingyi Luo, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Chunxi Zhang, Junhao Wang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

O artigo apresenta o Rel-MOSS, um novo método de aprendizado profundo relacional que utiliza um controlador de portas por tipo de relação e um sintetizador guiado por relações para realizar sobreamostragem de entidades minoritárias, resolvendo eficazmente o problema de desequilíbrio de classes em bancos de dados relacionais e superando os métodos atuais em precisão balanceada e média geométrica.

Jun Yin, Peng Huo, Bangguo Zhu, Hao Yan, Senzhang Wang, Shirui Pan, Chengqi Zhang2026-03-10🤖 cs.LG

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

O artigo apresenta o IMSE, um método de adaptação em tempo de teste que utiliza uma mistura intrínseca de especialistas espectrais em Vision Transformers, ajustando apenas os valores singulares via decomposição SVD e introduzindo uma perda de maximização de diversidade e recuperação de códigos espectrais para evitar o colapso de características e melhorar significativamente a precisão com parâmetros treináveis drasticamente reduzidos.

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

O artigo apresenta o SWE-Fuse, um novo framework de treinamento que combina aprendizado de trajetórias sem problemas e treinamento de RLVR consciente de entropia para superar a falta de descrições de problemas de alta qualidade e melhorar significativamente a capacidade de agentes de LLM em resolver tarefas reais de engenharia de software.

Xin-Cheng Wen, Binbin Chen, Haoxuan Lan, Hang Yu, Peng Di, Cuiyun Gao2026-03-10💻 cs

AI Agents, Language, Deep Learning and the Next Revolution in Science

O artigo propõe que agentes de IA supervisionados por humanos, baseados em modelos de linguagem e aprendizado profundo, constituam a próxima evolução do método científico para lidar com a complexidade de dados em diversas disciplinas, exemplificada pelo sistema Dr. Sai no Instituto de Física de Altas Energias da Academia Chinesa de Ciências.

Ke Li, Beijiang Liu, Bruce Mellado, Changzheng Yuan, Zhengde Zhang2026-03-10💻 cs

ELLMob: Event-Driven Human Mobility Generation with Self-Aligned LLM Framework

O artigo apresenta o ELLMob, um framework baseado em LLM que gera trajetórias humanas realistas durante grandes eventos sociais, superando as limitações de métodos anteriores ao utilizar a Teoria do Rastro Difuso para alinhar padrões habituais com restrições impostas por eventos, apoiado pelo primeiro conjunto de dados anotados com eventos.

Yusong Wang, Chuang Yang, Jiawei Wang, Xiaohang Xu, Jiayi Xu, Dongyuan Li, Chuan Xiao, Renhe Jiang2026-03-10🤖 cs.LG

Advancing Automated Algorithm Design via Evolutionary Stagewise Design with LLMs

O artigo apresenta o EvoStage, uma nova abordagem evolutiva que utiliza modelos de linguagem (LLMs) em estágios sequenciais com feedback e uma perspectiva global-local para superar as limitações de métodos de caixa preta, resultando no projeto de algoritmos otimizados que superam designs humanos e técnicas existentes em tarefas complexas como o posicionamento de chips.

Chen Lu, Ke Xue, Chengrui Gao, Yunqi Shi, Siyuan Xu, Mingxuan Yuan, Chao Qian, Zhi-Hua Zhou2026-03-10💻 cs

VORL-EXPLORE: A Hybrid Learning Planning Approach to Multi-Robot Exploration in Dynamic Environments

O artigo apresenta o VORL-EXPLORE, uma abordagem híbrida de aprendizado e planejamento para exploração multi-robô em ambientes dinâmicos que utiliza uma estimativa compartilhada de navegabilidade para acoplar alocação de tarefas e execução de movimento, reduzindo contenções e adaptando-se a obstáculos não estacionários através de um mecanismo de arbitragem entre navegação global e políticas reativas.

Ning Liu, Sen Shen, Zheng Li, Sheng Liu, Dongkun Han, Shangke Lyu, Thomas Braunl2026-03-10💻 cs