AStar: Boosting Multimodal Reasoning with Automated Structured Thinking

O artigo apresenta o AStar, uma metodologia de raciocínio multimodal livre de treinamento que utiliza "cartões de pensamento" recuperados automaticamente para estruturar o raciocínio do modelo, superando a eficiência e a precisão de métodos baseados em busca ou pós-treinamento, como demonstrado por resultados superiores ao GPT-4o em tarefas complexas de matemática e visão.

Jinyang Wu, Mingkuan Feng, Guocheng Zhai + 7 more2026-03-03💬 cs.CL

Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection

Este artigo propõe um quadro de adaptação robusto para Modelos Multimodais de Grande Escala que supera as limitações de métodos existentes, alcançando desempenho superior e maior generalização na detecção de memes de ódio, ao mesmo tempo que preserva as capacidades gerais do modelo e melhora a interpretabilidade através de explicações de alta qualidade.

Jingbiao Mei, Jinghong Chen, Guangyu Yang + 2 more2026-03-03💬 cs.CL

Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

Este artigo propõe uma abordagem inovadora de Aprendizado por Reforço que ajusta finamente Grandes Modelos de Linguagem para expressar estimativas de confiança calibradas junto às suas respostas, integrando a calibração ao processo generativo e demonstrando melhorias significativas na precisão e generalização sem necessidade de ajuste adicional.

David Bani-Harouni, Chantal Pellegrini, Paul Stangel + 4 more2026-03-03💬 cs.CL

I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

Este artigo apresenta um modelo teórico que demonstra que a previsão do próximo token em LLMs permite aprender conceitos latentes discretos interpretáveis por humanos, provando que suas representações correspondem aproximadamente aos logaritmos das probabilidades posteriores desses conceitos e oferecendo uma base teórica unificada para entender a hipótese de representações lineares e avaliar autoencoders esparsos.

Yuhang Liu, Dong Gong, Yichao Cai + 6 more2026-03-03💬 cs.CL

A Foundational Individual Mobility Prediction Model based on Open-Source Large Language Models

Este artigo apresenta o MoBLLM, um modelo fundamental de previsão de mobilidade individual baseado em modelos de linguagem grandes (LLM) de código aberto e técnicas de ajuste fino eficientes em parâmetros, que supera os métodos tradicionais em precisão, robustez e transferabilidade entre diferentes contextos espaciais e temporais, oferecendo uma solução custo-eficiente para serviços de transporte personalizados.

Zhenlin Qin, Leizhen Wang, Yancheng Ling + 2 more2026-03-03💬 cs.CL