cs.CL artigos | Gist.Science

Optimizing Language Models for Crosslingual Knowledge Consistency

Este trabalho apresenta a Otimização Direta de Consistência (DCO), um método eficiente inspirado no DPO que utiliza aprendizado por reforço para melhorar significativamente a consistência do conhecimento em modelos de linguagem multilíngue sem a necessidade de um modelo de recompensa explícito.

Tianyu Liu, Jirui Qi, Mrinmaya Sachan + 3 more2026-03-06💻 cs

Non-Zipfian Distribution of Stopwords and Subset Selection Models

Este artigo propõe e valida um modelo de seleção de subconjunto baseado em funções de Hill para explicar por que a distribuição de frequência de stopwords segue a Função de Classificação Beta (BRF) em vez da Lei de Zipf, enquanto as palavras não-stopwords se ajustam melhor a uma função quadrática.

Wentian Li, Oscar Fontanelli2026-03-06💻 cs

Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

Este artigo avalia técnicas de aumento de dados e aprimoramento de recursos para detecção de discurso de ódio, demonstrando que o modelo de linguagem aberto gpt-oss-20b alcança os melhores resultados gerais, enquanto o Delta TF-IDF se destaca em conjuntos específicos, e confirmando que a eficácia dessas estratégias depende da interação entre o conjunto de dados, a arquitetura do modelo e a técnica aplicada.

Brian Jing Hong Nge, Stefan Su, Thanh Thi Nguyen + 3 more2026-03-06💻 cs

Detection of Illicit Content on Online Marketplaces using Large Language Models

Esta pesquisa demonstra que modelos de linguagem de grande escala (LLMs), especificamente o Llama 3.2, superam métodos tradicionais na classificação complexa e multiclasse de conteúdo ilícito em marketplaces online ao serem ajustados com técnicas eficientes, oferecendo ferramentas mais escaláveis e adaptáveis para a segurança digital.

Quoc Khoa Tran, Thanh Thi Nguyen, Campbell Wilson2026-03-06💻 cs

AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments

Este artigo propõe e avalia um novo framework de duas camadas para medir a eficácia de modelos de IA na simulação de questionamentos específicos de juízes em tribunais simulados, utilizando transcrições do Supremo Tribunal dos EUA e revelando que, embora as perguntas geradas sejam realistas e cobrem bem questões legais substantivas, os modelos ainda apresentam limitações significativas como baixa diversidade e sycophancy que só são detectadas por essa abordagem de avaliação rigorosa.

Kylie Zhang, Nimra Nadeem, Lucia Zheng + 2 more2026-03-06💻 cs

Model Medicine: A Clinical Framework for Understanding, Diagnosing, and Treating AI Models

Este artigo apresenta o "Model Medicine", um novo paradigma de pesquisa que aplica uma estrutura clínica sistemática para entender, diagnosticar e tratar desordens em modelos de IA, introduzindo contribuições como uma taxonomia de disciplinas, o Modelo de Quatro Camadas, a ferramenta de diagnóstico Neural MRI e frameworks padronizados para avaliação e relato de casos.

Jihoon Jeong2026-03-06💻 cs

Solving an Open Problem in Theoretical Physics using AI-Assisted Discovery

Este artigo demonstra como um sistema neuro-simbólico, combinando o modelo de linguagem Gemini Deep Think com uma busca em árvore e feedback numérico, resolveu autonomamente um problema em aberto na física teórica ao derivar soluções analíticas exatas para o espectro de potência da radiação gravitacional emitida por cordas cósmicas.

Michael P. Brenner, Vincent Cohen-Addad, David Woodruff2026-03-06💻 cs

Interactive Benchmarks

O artigo propõe os "Interactive Benchmarks", um novo paradigma de avaliação unificado que testa a capacidade de raciocínio de modelos sob restrições orçamentárias em cenários interativos de provas e jogos, demonstrando que essa abordagem oferece uma avaliação mais robusta e fiel da inteligência artificial do que os benchmarks padrão.

Baoqing Yue, Zihan Zhu, Yifan Zhang + 3 more2026-03-06💻 cs

IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation

Este artigo apresenta o IF-RewardBench, um novo benchmark abrangente para avaliar modelos juízes na tarefa de seguimento de instruções, que supera as limitações de métodos existentes ao utilizar um paradigma de avaliação listwise baseado em grafos de preferência, demonstrando uma correlação mais forte com o desempenho em tarefas downstream.

Bosi Wen, Yilin Niu, Cunxiang Wang + 5 more2026-03-06💻 cs

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

O artigo apresenta o DARE, um modelo de recuperação leve que alinha agentes de LLM ao ecossistema estatístico R ao incorporar informações de distribuição de dados nas representações de funções, resultando em uma recuperação de pacotes e geração de código significativamente mais precisas.

Maojun Sun, Yue Wu, Yifei Xie + 5 more2026-03-06💻 cs

HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

O HiMAP-Travel é um framework hierárquico de agentes múltiplos que supera as limitações de planejamento sequencial em viagens de longo prazo com restrições rígidas, utilizando coordenação estratégica, execução paralela e mecanismos de monitoramento transacional para alcançar desempenho superior no benchmark TravelPlanner.

The Viet Bui, Wenjun Li, Yong Liu2026-03-06💻 cs

Stacked from One: Multi-Scale Self-Injection for Context Window Extension

O artigo apresenta o SharedLLM, uma arquitetura inovadora que estende a janela de contexto de modelos de linguagem para além de 128K tokens com alta eficiência e precisão, utilizando um mecanismo de "auto-injeção" que empilha dois modelos curtos idênticos para compressão e decodificação de informações em múltiplas escalas sem a necessidade de custosos treinamentos contínuos.

Wei Han, Pan Zhou, Shuicheng Yan2026-03-06💻 cs

TSEmbed: Unlocking Task Scaling in Universal Multimodal Embeddings

O artigo apresenta o TSEmbed, um framework de embeddings multimodais universal que combina Mixture-of-Experts e LoRA para resolver conflitos de tarefas, introduz uma amostragem negativa consciente de especialistas (EANS) para aprimorar a discriminação semântica e adota um paradigma de treinamento em duas etapas, alcançando desempenho superior em benchmarks e dados industriais.

Yebo Wu, Feng Liu, Ziwei Xie + 4 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

Este relatório técnico apresenta a Privacy Camera 2.0, um novo framework de percepção que equilibra privacidade e segurança ao transformar imagens brutas em vetores de características abstratos e irreversíveis na borda, permitindo a reconstrução semântica de comportamentos na nuvem sem expor dados visuais originais.

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction

O artigo apresenta o RLSTA, uma abordagem de Aprendizado por Reforço que utiliza âncoras de resposta de turno único para superar a "inércia contextual" em LLMs, permitindo que eles integrem corretamente novas informações e se auto-calibrem em interações multi-turno, superando métodos de ajuste fino tradicionais e demonstrando forte generalização entre domínios.

Xingwu Chen, Zhanqiu Zhang, Yiwen Guo + 1 more2026-03-06💻 cs

Beyond Linear LLM Invocation: An Efficient and Effective Semantic Filter Paradigm

O artigo propõe o paradigma CSV (Clustering-Sampling-Voting), um novo framework que reduz a complexidade das invocações de modelos de linguagem grandes (LLMs) para sublinear ao agrupar tuplas semanticamente, amostrar um subconjunto para avaliação e inferir rótulos via estratégias de votação, alcançando uma redução de 1,28 a 355 vezes no número de chamadas ao LLM em comparação com abordagens atuais, sem comprometer a precisão e a pontuação F1.

Nan Hou, Kangfei Zhao, Jiadong Xie + 1 more2026-03-06💻 cs

Attention's Gravitational Field:A Power-Law Interpretation of Positional Correlation

Este artigo propõe o conceito de Campo Gravitacional de Atenção (AGF) para decodificar e otimizar os mecanismos de posicionamento em Modelos de Linguagem de Grande Escala (LLMs), demonstrando que essa abordagem, alinhada à Lei da Gravitação Universal de Newton, supera os métodos de codificação atuais e oferece novas perspectivas para a interpretabilidade e otimização de modelos.

Edward Zhang2026-03-06💻 cs

Beyond the Context Window: A Cost-Performance Analysis of Fact-Based Memory vs. Long-Context LLMs for Persistent Agents

Este estudo compara sistemas de memória baseados em fatos com modelos de linguagem de longo contexto, demonstrando que, embora os últimos ofereçam maior precisão em tarefas de recuperação factual, a abordagem de memória estruturada se torna mais econômica em cenários de conversas persistentes após um número limitado de interações, fornecendo critérios claros para a seleção de arquiteturas em produção.

Natchanon Pollertlam, Witchayut Kornsuwannawit2026-03-06💬 cs.CL

Autoscoring Anticlimax: A Meta-analytic Understanding of AI's Short-answer Shortcomings and Wording Weaknesses

Este estudo meta-analítico revela que os modelos de linguagem atuais apresentam limitações significativas na pontuação automática de respostas curtas, incluindo desempenho inferior em arquiteturas decodificadoras, sensibilidade à formulação e viés racial, desafiando a noção de que a dificuldade humana na tarefa correlaciona-se com a eficácia da IA.

Michael Hardy2026-03-06💬 cs.CL

From Unfamiliar to Familiar: Detecting Pre-training Data via Gradient Deviations in Large Language Models

O artigo propõe o GDS, um método inovador que detecta dados de pré-treinamento em Grandes Modelos de Linguagem analisando desvios nos gradientes durante o treinamento, superando as abordagens existentes ao alcançar desempenho superior e maior transferibilidade entre conjuntos de dados.

Ruiqi Zhang, Lingxiang Wang, Hainan Zhang + 2 more2026-03-06💬 cs.CL

← Anterior Próximo →