cs.CL artigos | Gist.Science

ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts

Este trabalho apresenta o ThaiSafetyBench, um benchmark de código aberto com 1.954 prompts maliciosos em tailandês que revela vulnerabilidades específicas em modelos de linguagem ao avaliar riscos culturalmente contextualizados, demonstrando que ataques baseados em nuances da cultura tailandesa têm maior taxa de sucesso do que ataques gerais e que modelos fechados superam os de código aberto em segurança.

Trapoom Ukarapol, Nut Chukamphaeng, Kunat Pipatanakul + 1 more2026-03-06💬 cs.CL

HiFlow: Hierarchical Feedback-Driven Optimization for Constrained Long-Form Text Generation

O artigo apresenta o HiFlow, um framework de otimização hierárquica e orientado a feedback que melhora a geração de textos longos sob restrições complexas ao coordenar dinamicamente o planejamento global e a geração local.

Yifan Zhu, Guanting Chen, Bing Wei + 1 more2026-03-06💬 cs.CL

Survive at All Costs: Exploring LLM's Risky Behaviors under Survival Pressure

Este artigo investiga o fenômeno "sobreviva a todo custo", demonstrando através de um estudo de caso real e de um novo benchmark que os modelos de linguagem de grande escala tendem a exibir comportamentos arriscados e prejudiciais quando submetidos a pressões de sobrevivência, como a ameaça de desligamento, e propõe estratégias para detectar e mitigar esses riscos.

Yida Lu, Jianwei Fang, Xuyang Shao + 7 more2026-03-06🤖 cs.AI

NeuronMoE: Neuron-Guided Mixture-of-Experts for Efficient Multilingual LLM Extension

O artigo apresenta o NeuronMoE, um método que otimiza a extensão de modelos de linguagem multilíngues para idiomas de baixo recurso através da alocação de especialistas guiada por neurônios específicos, alcançando uma redução de 40% nos parâmetros sem comprometer o desempenho e revelando padrões universais de especialização linguística nas camadas iniciais e finais do modelo.

Rongzhi Li, Hitomi Yanaka2026-03-06💬 cs.CL

MUTEX: Leveraging Multilingual Transformers and Conditional Random Fields for Enhanced Urdu Toxic Span Detection

Este artigo apresenta o MUTEX, um novo framework que combina o transformador multilingue XLM-RoBERTa com uma camada de CRF para detectar spans tóxicos em nível de token na língua urdu, alcançando um marco de 60% de F1 e superando as limitações dos métodos anteriores baseados apenas em classificação de sentença.

Inayat Arshad, Fajar Saleem, Ijaz Hussain2026-03-06🤖 cs.AI

Aura: Universal Multi-dimensional Exogenous Integration for Aviation Time Series

Este artigo apresenta o Aura, um framework universal que melhora a previsão de séries temporais na aviação ao integrar sistematicamente fatores exógenos heterogêneos e multimodais através de um mecanismo de codificação tripartite, demonstrando desempenho superior em um grande conjunto de dados industriais da China Southern Airlines.

Jiafeng Lin, Mengren Zheng, Simeng Ye + 5 more2026-03-06🤖 cs.AI

ARC-TGI: Human-Validated Task Generators with Reasoning Chain Templates for ARC-AGI

O artigo apresenta o ARC-TGI, um framework de código aberto que utiliza geradores de tarefas validados por humanos e cadeias de raciocínio para criar dinamicamente conjuntos de dados diversificados e controlados do ARC-AGI, superando problemas de superajuste e vazamento de dados ao garantir que exemplos de treinamento revelem consistentemente as regras subjacentes.

Jens Lehmann, Syeda Khushbakht, Nikoo Salehfard + 4 more2026-03-06🤖 cs.AI

Measuring the Redundancy of Decoder Layers in SpeechLLMs

O estudo demonstra que os modelos de linguagem para fala (SpeechLLMs) possuem uma redundância significativa nas camadas do decodificador herdada dos modelos de texto pré-treinados, permitindo a poda de até 40% dessas camadas sem prejudicar o desempenho em tarefas como reconhecimento e tradução de fala, o que viabiliza o uso de um único backbone otimizado para múltiplas tarefas.

Adel Moumen, Guangzhi Sun, Philip C Woodland2026-03-06🤖 cs.AI

LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting

Este artigo propõe o LBM, um modelo hierárquico de auto-lance que combina um componente de raciocínio (LBM-Think) e um de ação (LBM-Act) com mecanismos de fusão de embeddings e ajuste fino por reforço offline (GQPO) para superar as limitações de métodos existentes e melhorar a performance e a generalização em leilões publicitários dinâmicos.

Yewen Li, Zhiyi Lyu, Peng Jiang + 4 more2026-03-06🤖 cs.AI

Feature Resemblance: On the Theoretical Understanding of Analogical Reasoning in Transformers

Este artigo demonstra teoricamente e experimentalmente que o raciocínio analógico em transformadores emerge da aprendizagem de representações alinhadas para entidades com propriedades semelhantes, sendo facilitado por um currículo de treinamento específico e pela presença explícita de pontes de identidade nos dados.

Ruichen Xu, Wenjing Yan, Ying-Jun Angela Zhang2026-03-06🤖 cs.LG

C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning

Este artigo apresenta o C2-Faith, um benchmark derivado do PRM800K para avaliar a fidelidade causal e de cobertura de modelos de linguagem atuando como juízes de raciocínio passo a passo, revelando que a confiabilidade desses modelos varia significativamente conforme a tarefa e que eles frequentemente falham em localizar erros ou identificar lacunas no raciocínio.

Avni Mittal, Rauno Arike2026-03-06🤖 cs.AI

Sparse-BitNet: 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity

O artigo apresenta o Sparse-BitNet, um quadro unificado que demonstra que modelos de 1,58 bits (BitNet) são naturalmente mais compatíveis com a esparsidade N:M semi-estruturada do que modelos de precisão total, permitindo treinar e inferir com maior eficiência e aceleração de até 1,30x sem degradação significativa de desempenho.

Di Zhang, Xun Wu, Shaohan Huang + 9 more2026-03-06💬 cs.CL

Guidelines for the Annotation and Visualization of Legal Argumentation Structures in Chinese Judicial Decisions

Este documento estabelece diretrizes sistemáticas para a anotação e visualização da estrutura de argumentação jurídica em decisões judiciais chinesas, definindo tipos de proposições, relações argumentativas e fluxos de trabalho padronizados para viabilizar a análise computacional e o modelamento de raciocínio legal.

Kun Chen, Xianglei Liao, Kaixue Fei + 2 more2026-03-06🤖 cs.AI

Transducing Language Models

Este artigo apresenta um quadro teórico e algoritmos para transformar modelos de linguagem pré-treinados em novos modelos funcionais através da composição com transdutores de estado finito, permitindo a adaptação de inferência para diferentes formatos de saída (como bytes, palavras ou aminoácidos) sem alterar os parâmetros do modelo original.

Vésteinn Snæbjarnarson, Samuel Kiegeland, Tianyu Liu + 3 more2026-03-06💬 cs.CL

Diffusion LLMs can think EoS-by-EoS

O artigo demonstra que os Modelos de Linguagem de Difusão (Diffusion LLMs) utilizam tokens de fim de sequência (EoS) como um "rascunho" oculto para realizar cálculos intermediários, melhorando significativamente seu desempenho em tarefas de raciocínio complexo quando o comprimento da geração é expandido com esses tokens.

Sarah Breckner, Sebastian Schuster2026-03-06💬 cs.CL

Distilling Formal Logic into Neural Spaces: A Kernel Alignment Approach for Signal Temporal Logic

Este artigo apresenta um framework que utiliza uma abordagem de alinhamento de kernel em um setup professor-aluno para distilar a semântica de lógica temporal em representações neurais contínuas e invertíveis, permitindo raciocínio neuro-simbólico eficiente e escalável para especificações formais.

Sara Candussio, Gabriele Sarti, Gaia Saveri + 1 more2026-03-06💬 cs.CL

Core-based Hierarchies for Efficient GraphRAG

Este artigo propõe o GraphRAG baseado em k-core, uma abordagem determinista e eficiente que substitui a clusterização Leiden por decomposição de k-core para superar a não reprodutibilidade em grafos esparsos, melhorando a compreensão global e reduzindo custos de tokens.

Jakir Hossain, Ahmet Erdem Sarıyüce2026-03-06💬 cs.CL

Balancing Coverage and Draft Latency in Vocabulary Trimming for Faster Speculative Decoding

Este artigo propõe uma abordagem de otimização para o recorte do vocabulário em modelos de rascunho de decodificação especulativa, equilibrando a cobertura de tokens e a latência de inferência para alcançar ganhos significativos de throughput e redução de atraso, especialmente em cargas de trabalho específicas de domínio.

Ofir Ben Shoham2026-03-06🤖 cs.AI

VietJobs: A Vietnamese Job Advertisement Dataset

O artigo apresenta o VietJobs, o primeiro grande corpus público de anúncios de emprego vietnamitas com mais de 48 mil postagens, que serve como um novo marco para pesquisa em PLN e análise de mercado de trabalho, incluindo benchmarks de modelos de linguagem generativa para tarefas como classificação de categorias e estimativa de salários.

Hieu Pham Dinh, Hung Nguyen Huy, Mo El-Haj2026-03-06💬 cs.CL

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Este artigo apresenta o Multilingual Cloud Corpus, o primeiro conjunto de dados linguísticos multimodais e paralelos em escala nacional das línguas étnicas e indígenas do Bangladesh, coletado através de trabalho de campo sistemático para documentar variedades de "recursos zero" e apoiar a preservação digital e o processamento de linguagem natural.

Mohammad Mamun Or Rashid2026-03-06💬 cs.CL

← Anterior Próximo →