StarWhisper Telescope: An AI framework for automating end-to-end astronomical observations

O artigo apresenta o StarWhisper Telescope, um framework de IA que automatiza todo o ciclo de observações astronômicas — desde o planejamento até a análise de dados e o acionamento de propostas de acompanhamento — demonstrando sua eficácia na detecção de transientes em uma rede de telescópios amadores e servindo como modelo para futuras instalações de grande escala.

Cunshi Wang, Yu Zhang, Yuyang Li + 25 more2026-03-04🔭 astro-ph

Hallucination, Monofacts, and Miscalibration: An Empirical Investigation

Este estudo empírico investiga a relação entre alucinações, monofatos e má calibração em modelos de linguagem, demonstrando que uma técnica de superpeso seletivo, que introduz intencionalmente má calibração ao repetir apenas 5% dos dados de treinamento, reduz as alucinações em até 40% sem comprometer a precisão, desafiando assim as políticas universais de deduplicação.

Miranda Muqing Miao, Michael Kearns2026-03-04🤖 cs.AI

Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment

O artigo apresenta o GOAT, um novo framework que supera as limitações do LoRA ao integrar adaptativamente priores via SVD em uma arquitetura Mixture-of-Experts e alinhar sua otimização com um fator de escala teórico, alcançando desempenho superior e reduzindo a lacuna em relação ao ajuste fino completo em diversas tarefas.

Chenghao Fan, Zhenyi Lu, Sichen Liu + 4 more2026-03-04💬 cs.CL

SEM-CTRL\texttt{SEM-CTRL}: Semantically Controlled Decoding

O artigo apresenta o \texttt{SEM-CTRL}, uma abordagem unificada que integra busca por árvore de Monte Carlo (MCTS) no nível de tokens e gramáticas de conjuntos de respostas para impor restrições sintáticas e semânticas durante a decodificação de modelos de linguagem, garantindo saídas válidas sem necessidade de ajuste fino e permitindo que modelos menores superem versões maiores e modelos de raciocínio de ponta em diversas tarefas.

Mohammad Albinhassan, Pranava Madhyastha, Alessandra Russo2026-03-04🤖 cs.AI

Talk to Your Slides: High-Efficiency Slide Editing via Language-Driven Structured Data Manipulation

Este artigo apresenta o "Talk-to-Your-Slides", um agente de edição de slides de alta eficiência que utiliza manipulação de dados estruturados orientada por linguagem em vez de processamento visual, alcançando maior velocidade, fidelidade e redução de custos em comparação com agentes baseados em GUI, além de introduzir o benchmark TSBench para avaliação de tarefas complexas.

Kyudan Jung, Hojun Cho, Jooyeol Yun + 3 more2026-03-04💬 cs.CL

REFLEX: Metacognitive Reasoning for Reflective Zero-Shot Robotic Planning with Large Language Models

O artigo apresenta o REFLEX, um framework que integra capacidades metacognitivas em modelos de linguagem para permitir que agentes robóticos decomponham habilidades, reflitam sobre falhas e criem novas soluções em cenários de zero-shot, superando significativamente as abordagens existentes e demonstrando criatividade no planejamento robótico.

Wenjie Lin, Jin Wei-Kocsis, Jiansong Zhang + 4 more2026-03-04💬 cs.CL

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

Este artigo apresenta o HSSBench, um novo benchmark multilíngue com mais de 13.000 amostras e um pipeline de geração de dados colaborativo, projetado especificamente para avaliar e superar as limitações dos Modelos de Linguagem Grandes Multimodais (MLLMs) em tarefas de Humanidades e Ciências Sociais que exigem raciocínio interdisciplinar horizontal.

Zhaolu Kang, Junhao Gong, Jiaxu Yan + 15 more2026-03-04🤖 cs.AI

Search Arena: Analyzing Search-Augmented LLMs

Este trabalho apresenta o "Search Arena", um conjunto de dados de grande escala e crowdsourced com mais de 24.000 interações multi-turno e preferências humanas para analisar modelos de linguagem aumentados por busca, revelando que a credibilidade percebida pelos usuários é influenciada pelo número de citações e pela fonte, e demonstrando que a busca na web pode melhorar o desempenho em contextos gerais enquanto a dependência exclusiva do conhecimento paramétrico prejudica a qualidade em cenários de busca.

Mihran Miroyan, Tsung-Han Wu, Logan King + 8 more2026-03-04💬 cs.CL

You Only Fine-tune Once: Many-Shot In-Context Fine-Tuning for Large Language Models

Este artigo propõe o ManyICL, uma abordagem de ajuste fino em contexto com muitos exemplos que utiliza um novo objetivo de treinamento para tratar todas as respostas no contexto como alvos supervisionados, reduzindo significativamente a lacuna de desempenho entre o aprendizado em contexto e o ajuste fino dedicado enquanto mitiga o esquecimento catastrófico.

Wenchong He, Liqian Peng, Zhe Jiang + 1 more2026-03-04🤖 cs.AI

LLM Probability Concentration: How Alignment Shrinks the Generative Horizon

Este artigo introduz o "Fator de Ramificação" (BF) como uma métrica para quantificar como o alinhamento de modelos de linguagem reduz a diversidade de geração ao concentrar as probabilidades de saída, explicando por que modelos alinhados são mais previsíveis e como técnicas como o raciocínio em cadeia (CoT) exploram essa determinação para estabilizar respostas complexas.

Chenghao Yang, Sida Li, Ari Holtzman2026-03-04🤖 cs.AI