cs.CL artigos | Gist.Science

StarWhisper Telescope: An AI framework for automating end-to-end astronomical observations

O artigo apresenta o StarWhisper Telescope, um framework de IA que automatiza todo o ciclo de observações astronômicas — desde o planejamento até a análise de dados e o acionamento de propostas de acompanhamento — demonstrando sua eficácia na detecção de transientes em uma rede de telescópios amadores e servindo como modelo para futuras instalações de grande escala.

Cunshi Wang, Yu Zhang, Yuyang Li + 25 more2026-03-04🔭 astro-ph

A Survey of Query Optimization in Large Language Models

Este artigo apresenta uma revisão abrangente sobre otimização de consultas em Grandes Modelos de Linguagem, introduzindo o Framework do Ciclo de Vida de Otimização de Consultas (QOL), uma taxonomia de complexidade de consultas e uma análise detalhada de quatro operações atômicas fundamentais para melhorar o desempenho em sistemas de Geração Aumentada por Recuperação (RAG).

Mingyang Song, Mao Zheng2026-03-04💬 cs.CL

Evaluating Spoken Language as a Biomarker for Automated Screening of Cognitive Impairment

Este estudo demonstra que modelos de aprendizado de máquina explicáveis, baseados em características linguísticas da fala, são promissores para a triagem automatizada e estratificação de risco de doenças neurodegenerativas, oferecendo uma solução escalável e não invasiva para o monitoramento da saúde cognitiva.

Maria R. Lima, Alexander Capstick, Fatemeh Geranmayeh + 4 more2026-03-04💬 cs.CL

Hallucination, Monofacts, and Miscalibration: An Empirical Investigation

Este estudo empírico investiga a relação entre alucinações, monofatos e má calibração em modelos de linguagem, demonstrando que uma técnica de superpeso seletivo, que introduz intencionalmente má calibração ao repetir apenas 5% dos dados de treinamento, reduz as alucinações em até 40% sem comprometer a precisão, desafiando assim as políticas universais de deduplicação.

Miranda Muqing Miao, Michael Kearns2026-03-04🤖 cs.AI

Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment

O artigo apresenta o GOAT, um novo framework que supera as limitações do LoRA ao integrar adaptativamente priores via SVD em uma arquitetura Mixture-of-Experts e alinhar sua otimização com um fator de escala teórico, alcançando desempenho superior e reduzindo a lacuna em relação ao ajuste fino completo em diversas tarefas.

Chenghao Fan, Zhenyi Lu, Sichen Liu + 4 more2026-03-04💬 cs.CL

$\texttt{SEM-CTRL}$ : Semantically Controlled Decoding

O artigo apresenta o \texttt{SEM-CTRL}, uma abordagem unificada que integra busca por árvore de Monte Carlo (MCTS) no nível de tokens e gramáticas de conjuntos de respostas para impor restrições sintáticas e semânticas durante a decodificação de modelos de linguagem, garantindo saídas válidas sem necessidade de ajuste fino e permitindo que modelos menores superem versões maiores e modelos de raciocínio de ponta em diversas tarefas.

Mohammad Albinhassan, Pranava Madhyastha, Alessandra Russo2026-03-04🤖 cs.AI

LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

O artigo apresenta o LINGOLY-TOO, um novo benchmark de raciocínio linguístico que utiliza obfuscação ortográfica para isolar a capacidade de raciocínio dos modelos de linguagem, demonstrando que seu desempenho cai significativamente quando dependem de conhecimento prévio em vez de lógica pura.

Jude Khouja, Lingyi Yang, Karolina Korgul + 6 more2026-03-04🤖 cs.AI

BioChemInsight: An Online Platform for Automated Extraction of Chemical Structures and Activity Data from Patents

O artigo apresenta o BioChemInsight, uma plataforma de código aberto que automatiza a extração de estruturas químicas e dados de bioatividade de patentes, alcançando mais de 90% de precisão e complementando o espaço químico do banco de dados ChEMBL para acelerar a descoberta de fármacos.

Zhe Wang, Fangtian Fu, Wei Zhang + 10 more2026-03-04🧬 q-bio

Param $Δ$ for Direct Weight Mixing: Post-Train Large Language Model at Zero Cost

Este artigo apresenta o método Param $Î$ , uma técnica inovadora que transfere capacidades de pós-treinamento de um modelo para uma nova base atualizada simplesmente misturando seus pesos, permitindo a criação de modelos instruídos de alto desempenho sem custos computacionais adicionais.

Sheng Cao, Mingrui Wu, Karthik Prasad + 2 more2026-03-04🤖 cs.AI

Adaptive Social Learning via Mode Policy Optimization for Language Agents

Este artigo propõe o framework ASL, que utiliza o algoritmo AMPO para permitir que agentes de linguagem adaptem dinamicamente sua profundidade de raciocínio em interações sociais, alcançando desempenho superior e maior eficiência de tokens em comparação com métodos existentes.

Minzheng Wang, Yongbin Li, Haobo Wang + 6 more2026-03-04🤖 cs.AI

Talk to Your Slides: High-Efficiency Slide Editing via Language-Driven Structured Data Manipulation

Este artigo apresenta o "Talk-to-Your-Slides", um agente de edição de slides de alta eficiência que utiliza manipulação de dados estruturados orientada por linguagem em vez de processamento visual, alcançando maior velocidade, fidelidade e redução de custos em comparação com agentes baseados em GUI, além de introduzir o benchmark TSBench para avaliação de tarefas complexas.

Kyudan Jung, Hojun Cho, Jooyeol Yun + 3 more2026-03-04💬 cs.CL

Efficient Agent Training for Computer Use

O artigo apresenta o PC Agent-E, um framework de treinamento eficiente que supera o Claude 3.7 Sonnet no benchmark WindowsAgentArena-V2 ao combinar apenas 312 trajetórias humanas anotadas com dados sintetizados por IA, reduzindo drasticamente a dependência de demonstrações humanas em larga escala.

Yanheng He, Jiahe Jin, Pengfei Liu2026-03-04🤖 cs.AI

REFLEX: Metacognitive Reasoning for Reflective Zero-Shot Robotic Planning with Large Language Models

O artigo apresenta o REFLEX, um framework que integra capacidades metacognitivas em modelos de linguagem para permitir que agentes robóticos decomponham habilidades, reflitam sobre falhas e criem novas soluções em cenários de zero-shot, superando significativamente as abordagens existentes e demonstrando criatividade no planejamento robótico.

Wenjie Lin, Jin Wei-Kocsis, Jiansong Zhang + 4 more2026-03-04💬 cs.CL

BitBypass: A New Direction in Jailbreaking Aligned Large Language Models with Bitstream Camouflage

O artigo apresenta o BitBypass, um novo ataque de jailbreak em caixa preta que contorna a segurança de modelos de linguagem de última geração ao utilizar camuflagem de fluxo de bits separada por hífens, demonstrando maior eficácia e discrição em comparação com métodos existentes.

Kalyan Nakka, Nitesh Saxena2026-03-04💬 cs.CL

DiaBlo: Diagonal Blocks Are Sufficient For Finetuning

O artigo apresenta o DiaBlo, uma abordagem de ajuste fino eficiente em parâmetros que atualiza apenas os blocos diagonais das matrizes de peso de modelos de linguagem, eliminando a necessidade de produtos de matrizes de baixo posto e oferecendo convergência estável e desempenho competitivo comparável ao ajuste fino completo.

Selcuk Gurses, Aozhong Zhang, Yanxia Deng + 5 more2026-03-04🤖 cs.AI

Go-Browse: Training Web Agents with Structured Exploration

O artigo apresenta o Go-Browse, um método que utiliza exploração estruturada baseada em busca em grafos para coletar dados de navegação web em escala, permitindo que um modelo de linguagem de 7B parâmetros atinja o estado da arte no benchmark WebArena com uma taxa de sucesso de 21,7%.

Apurva Gandhi, Graham Neubig2026-03-04💬 cs.CL

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

Este artigo apresenta o HSSBench, um novo benchmark multilíngue com mais de 13.000 amostras e um pipeline de geração de dados colaborativo, projetado especificamente para avaliar e superar as limitações dos Modelos de Linguagem Grandes Multimodais (MLLMs) em tarefas de Humanidades e Ciências Sociais que exigem raciocínio interdisciplinar horizontal.

Zhaolu Kang, Junhao Gong, Jiaxu Yan + 15 more2026-03-04🤖 cs.AI

Search Arena: Analyzing Search-Augmented LLMs

Este trabalho apresenta o "Search Arena", um conjunto de dados de grande escala e crowdsourced com mais de 24.000 interações multi-turno e preferências humanas para analisar modelos de linguagem aumentados por busca, revelando que a credibilidade percebida pelos usuários é influenciada pelo número de citações e pela fonte, e demonstrando que a busca na web pode melhorar o desempenho em contextos gerais enquanto a dependência exclusiva do conhecimento paramétrico prejudica a qualidade em cenários de busca.

Mihran Miroyan, Tsung-Han Wu, Logan King + 8 more2026-03-04💬 cs.CL

You Only Fine-tune Once: Many-Shot In-Context Fine-Tuning for Large Language Models

Este artigo propõe o ManyICL, uma abordagem de ajuste fino em contexto com muitos exemplos que utiliza um novo objetivo de treinamento para tratar todas as respostas no contexto como alvos supervisionados, reduzindo significativamente a lacuna de desempenho entre o aprendizado em contexto e o ajuste fino dedicado enquanto mitiga o esquecimento catastrófico.

Wenchong He, Liqian Peng, Zhe Jiang + 1 more2026-03-04🤖 cs.AI

LLM Probability Concentration: How Alignment Shrinks the Generative Horizon

Este artigo introduz o "Fator de Ramificação" (BF) como uma métrica para quantificar como o alinhamento de modelos de linguagem reduz a diversidade de geração ao concentrar as probabilidades de saída, explicando por que modelos alinhados são mais previsíveis e como técnicas como o raciocínio em cadeia (CoT) exploram essa determinação para estabilizar respostas complexas.

Chenghao Yang, Sida Li, Ari Holtzman2026-03-04🤖 cs.AI

← Anterior Próximo →

cs.CL