cs.CL artigos | Gist.Science

SpiroLLM: Finetuning Pretrained LLMs to Understand Spirogram Time Series with Clinical Validation in COPD Reporting

O artigo apresenta o SpiroLLM, o primeiro modelo de linguagem multimodal capaz de interpretar séries temporais de espirogramas para gerar relatórios diagnósticos explicáveis e clinicamente validados para a DPOC, superando as limitações de modelos anteriores ao alcançar alta precisão e robustez mesmo com dados incompletos.

Shuhao Mei, Yongchao Long, Xiaoyu Xiao + 6 more2026-03-03💬 cs.CL

Diversity-Enhanced Reasoning for Subjective Questions

O artigo propõe o MultiRole-R1, um framework de treinamento que aprimora o raciocínio de modelos em questões subjetivas ao introduzir diversidade de perspectivas e de tokens via RL, resultando em ganhos significativos de precisão tanto em tarefas subjetivas quanto em problemas matemáticos avançados.

Yumeng Wang, Zhiyuan Fan, Jiayu Liu + 2 more2026-03-03💬 cs.CL

Rote Learning Considered Useful: Generalizing over Memorized Data in LLMs

Este trabalho desafia a visão de que a aprendizagem de cor (memorização) prejudica a generalização, demonstrando que modelos de linguagem de grande escala podem generalizar dados memorizados através de um framework de duas fases que alinha representações latentes entre tokens sintéticos e prompts semanticamente significativos.

Qinyuan Wu, Soumi Das, Mahsa Amani + 4 more2026-03-03💬 cs.CL

DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router

O artigo apresenta o DeepSieve, um framework agênico de RAG que utiliza um LLM como roteador de conhecimento para decompor consultas complexas, filtrar informações irrelevantes e melhorar a precisão da recuperação e a profundidade do raciocínio em tarefas de múltiplos saltos.

Minghao Guo, Qingcheng Zeng, Xujiang Zhao + 5 more2026-03-03💬 cs.CL

Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

O artigo apresenta o Uni-CoT, um framework unificado que supera as limitações atuais no raciocínio multimodal ao combinar compreensão e geração de imagens em um único modelo, utilizando uma abordagem de raciocínio em dois níveis (macro e micro) e treinamento estruturado para alcançar desempenho state-of-the-art com eficiência computacional.

Luozheng Qin, Jia Gong, Yuqing Sun + 6 more2026-03-03💬 cs.CL

Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

O estudo demonstra que a esparsidade ideal em modelos de linguagem do tipo Mixture-of-Experts para tarefas de raciocínio depende de um equilíbrio entre FLOPs ativos e tokens totais por parâmetro, revelando que o aumento do cálculo ativo melhora o raciocínio enquanto a memorização beneficia-se de mais parâmetros, independentemente de técnicas de pós-treinamento ou computação em tempo de teste.

Taishi Nakamura, Satoki Ishikawa, Masaki Kawamura + 4 more2026-03-03💬 cs.CL

EigenBench: A Comparative Behavioral Measure of Value Alignment

O artigo apresenta o EigenBench, um método de caixa preta que utiliza o algoritmo EigenTrust para gerar uma métrica comparativa de alinhamento de valores em modelos de linguagem, avaliando-os mutuamente em diversos cenários sem depender de rótulos de verdade absoluta e validando seus resultados através da forte correlação com julgamentos humanos.

Jonathn Chang, Leonhard Piff, Suvadip Sana + 2 more2026-03-03💬 cs.CL

Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

O artigo propõe o método GACD, uma técnica de decodificação baseada em inferência que utiliza gradientes de primeira ordem para estimar e mitigar vieses textuais e de coocorrência em modelos de linguagem multimodal, reduzindo alucinações e melhorando a fundamentação visual sem necessidade de ajuste fino.

Shan Wang, Maying Shen, Nadine Chang + 3 more2026-03-03💬 cs.CL

Post-training Large Language Models for Diverse High-Quality Responses

O artigo propõe o método DQO (Otimização de Qualidade e Diversidade), baseado em Processos de Pontos Determinantais, para aprimorar a diversidade semântica das respostas de Grandes Modelos de Linguagem durante o treinamento por reforço sem comprometer sua qualidade.

Yilei Chen, Souradip Chakraborty, Lorenz Wolf + 2 more2026-03-03💬 cs.CL

BinaryShield: Cross-Service Threat Intelligence in LLM Services using Privacy-Preserving Fingerprints

O artigo apresenta o BinaryShield, um sistema pioneiro que permite o compartilhamento seguro de inteligência sobre ameaças entre serviços de LLMs através de impressões digitais que preservam a privacidade, superando as barreiras regulatórias para detectar ataques de injeção de prompts sem violar os dados dos usuários.

Waris Gill, Natalie Isak, Matthew Dressman2026-03-03💬 cs.CL

Distribution-Aligned Decoding for Efficient LLM Task Adaptation

O artigo apresenta o SVDecode, um método leve e teoricamente fundamentado que melhora a adaptação de tarefas em grandes modelos de linguagem alinhando suas distribuições de saída durante a decodificação por meio de um vetor de direção extraído de um ajuste fino inicial, alcançando ganhos de desempenho significativos sem adicionar parâmetros treináveis além dos adaptadores PEFT existentes.

Senkang Hu, Xudong Han, Jinqi Jiang + 5 more2026-03-03💬 cs.CL

Actions Speak Louder than Prompts: A Large-Scale Study of LLMs for Graph Inference

Este estudo de grande escala avalia sistematicamente a interação entre modelos de linguagem grandes (LLMs) e dados gráficos, revelando que a geração de código supera outras abordagens em desempenho e adaptabilidade, especialmente em grafos heterofílicos e com textos longos, oferecendo diretrizes práticas para o desenvolvimento futuro de métodos de inferência gráfica.

Ben Finkelshtein, Silviu Cucerzan, Sujay Kumar Jauhar + 1 more2026-03-03💬 cs.CL

PMark: Towards Robust and Distortion-free Semantic-level Watermarking with Channel Constraints

O artigo apresenta o PMark, um novo método de marcação d'água semântica para grandes modelos de linguagem que, fundamentado em um framework teórico de funções proxy e múltiplas restrições de canal, garante robustez contra ataques de paráfrase e qualidade de texto sem distorções, superando as abordagens existentes.

Jiahao Huo, Shuliang Liu, Bin Wang + 5 more2026-03-03💬 cs.CL

Bridging Draft Policy Misalignment: Group Tree Optimization for Speculative Decoding

Este artigo apresenta a Otimização de Árvore de Grupo (GTO), um novo método que alinha o treinamento do modelo de rascunho com a política de decodificação em árvore do tempo de execução, resultando em um aumento significativo no comprimento de aceitação e na velocidade de inferência de modelos de linguagem grandes em comparação com o estado da arte.

Shijing Hu, Jingyang Li, Zhihui Lu + 1 more2026-03-03💬 cs.CL

Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs

Este artigo propõe o T2PAM e o algoritmo leve ROSA, que adaptam a política de modelos de linguagem em tempo real durante interações multi-turno utilizando feedback do usuário para corrigir erros e alinhar-se às preferências do usuário com alta eficiência computacional.

Chenxing Wei, Hong Wang, Ying He + 2 more2026-03-03💬 cs.CL

Train Once, Answer All: Many Pretraining Experiments for the Cost of One

Os autores propõem e validam uma abordagem inovadora que permite realizar múltiplos experimentos de pré-treinamento simultaneamente durante uma única execução de treinamento, reduzindo drasticamente os custos computacionais sem comprometer significativamente o desempenho do modelo ou a validade dos resultados.

Sebastian Bordt, Martin Pawelczyk2026-03-03💬 cs.CL

Dynamic Level Sets

Este artigo apresenta e analisa o conceito matemático de "conjuntos de nível dinâmicos", uma noção distinta da literatura padrão que, fundamentada no Princípio da Auto-modificabilidade, desafia resultados clássicos sobre a equivalência entre máquinas de Turing determinísticas e probabilísticas ao propor que a realização física de um conjunto lógico invariante é reconfigurada a cada passo por um processo físico incomputável.

Michael Stephen Fiske2026-03-03🔢 math-ph

FeynTune: Large Language Models for High-Energy Theory

O artigo apresenta o FeynTune, um conjunto de modelos de linguagem especializados em Física de Altas Energias, obtidos por meio do ajuste fino de variantes do Llama-3.1 em dados do arXiv, os quais superaram o modelo base e outros grandes modelos comerciais em tarefas de conclusão de resumos teóricos.

Paul Richmond, Prarit Agarwal, Borun Chowdhury + 2 more2026-03-02⚛️ hep-th

What Are They Filtering Out? An Experimental Benchmark of Filtering Strategies for Harm Reduction in Pretraining Datasets

Este artigo apresenta um estudo de benchmark que demonstra que, embora as estratégias de filtragem de dados reduzam conteúdos prejudiciais no pré-treinamento de modelos de linguagem, elas inadvertidamente aumentam a sub-representação de grupos vulneráveis à discriminação nos conjuntos de dados.

Marco Antonio Stranisci, Christian Hardmeier2025-02-17💬 cs.CL

When ChatGPT is gone: Creativity reverts and homogeneity persists

Um estudo de sete dias com estudantes universitários revela que, embora o ChatGPT aumente temporariamente o desempenho criativo, sua ausência leva a um retorno à linha de base e a uma homogeneização persistente das ideias, sugerindo que a inteligência artificial generativa pode, a longo prazo, limitar a capacidade criativa humana.

Qinghan Liu, Yiyong Zhou, Jihao Huang + 1 more2024-01-11💬 cs.CL

← Anterior Próximo →