cs.CL artigos | Gist.Science

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

O artigo apresenta o Dial, um sistema de NL2SQL baseado em conhecimento que supera as limitações dos métodos existentes ao gerar consultas SQL semanticamente corretas e executáveis em diversos dialetos de banco de dados, utilizando planejamento lógico consciente de dialeto, uma base de conhecimento hierárquica e um ciclo de depuração orientado à execução.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan WuTue, 10 Ma🤖 cs.LG

Image Generation Models: A Technical History

Este artigo oferece uma pesquisa abrangente sobre a evolução técnica dos modelos de geração de imagens, detalhando desde VAEs e GANs até métodos baseados em difusão, abordando também avanços na geração de vídeo e as questões de responsabilidade e robustez no seu uso.

Rouzbeh ShirvaniTue, 10 Ma💬 cs.CL

The Dual-Stream Transformer: Channelized Architecture for Interpretable Language Modeling

O artigo apresenta o Transformer de Duplo Fluxo, uma arquitetura que separa o fluxo residual em componentes de token e contexto para criar um trade-off ajustável entre interpretabilidade e desempenho, permitindo que modelos de linguagem mantenham robustez funcional e aprendam algoritmos discretos enquanto expõem sua estrutura interna por design.

J. Clayton Kerce, Alexis FoxTue, 10 Ma🤖 cs.LG

Cross-Modal Taxonomic Generalization in (Vision-) Language Models

O estudo demonstra que modelos de linguagem pré-treinados, quando integrados a codificadores de imagem em modelos de visão-linguagem, conseguem recuperar e generalizar conhecimento taxonômico (hiperônimos) mesmo sem evidência explícita durante o treinamento, indicando que essa capacidade surge da combinação entre a coerência dos dados visuais e o conhecimento derivado de pistas linguísticas.

Tianyang Xu, Marcelo Sandoval-Castaneda, Karen Livescu, Greg Shakhnarovich, Kanishka MisraTue, 10 Ma💬 cs.CL

Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

O artigo demonstra que os modelos de difusão nativos (dLLMs) possuem uma estrutura de representação mais redundante e hierárquica do que os modelos autoregressivos, permitindo uma redução de até 18,75% nos FLOPs através de um método de pulo de camadas estático e sem alterações arquiteturais, enquanto os modelos autoregressivos sofrem degradação significativa de desempenho sob a mesma condição.

Raghavv Goel, Risheek Garrepalli, Sudhanshu Agrawal, Chris Lott, Mingu Lee, Fatih PorikliTue, 10 Ma💬 cs.CL

A Joint Neural Baseline for Concept, Assertion, and Relation Extraction from Clinical Text

Este artigo propõe um sistema neural end-to-end inovador para a extração conjunta de conceitos, asserções e relações em textos clínicos, demonstrando desempenho superior ao dos modelos em pipeline tradicionais e estabelecendo uma forte linha de base para pesquisas futuras na área.

Fei Cheng, Ribeka Tanaka, Sadao KurohashiTue, 10 Ma💬 cs.CL

Bolbosh: Script-Aware Flow Matching for Kashmiri Text-to-Speech

Este trabalho apresenta o Bolbosh, o primeiro sistema neural de texto para fala (TTS) de código aberto e específico para o idioma caxemire, que supera as limitações dos modelos multilíngues existentes ao utilizar uma estratégia de adaptação supervisionada baseada em Fluxo Condicional de Transporte Ótimo (OT-CFM) e um pipeline de aprimoramento acústico para alcançar inteligibilidade e qualidade superiores.

Tajamul Ashraf, Burhaan Rasheed Zargar, Saeed Abdul Muizz, Ifrah Mushtaq, Nazima Mehdi, Iqra Altaf Gillani, Aadil Amin Kak, Janibul BashirTue, 10 Ma💬 cs.CL

TableMind++: An Uncertainty-Aware Programmatic Agent for Tool-Augmented Table Reasoning

O artigo apresenta o TableMind++, uma evolução do agente programático TableMind que introduz um novo framework de inferência consciente da incerteza, combinando poda de planos guiada por memória, refinamento de ações baseado em confiança e agregação de trajetórias para mitigar alucinações e melhorar o raciocínio em tabelas.

Mingyue Cheng, Shuo Yu, Chuang Jiang, Xiaoyu Tao, Qingyang Mao, Jie Ouyang, Qi Liu, Enhong ChenTue, 10 Ma💬 cs.CL

Accent Vector: Controllable Accent Manipulation for Multilingual TTS Without Accented Data

O artigo apresenta o "Accent Vector", uma representação controlável que permite a manipulação de sotaques em sistemas de síntese de fala multilíngue sem a necessidade de dados de treinamento com sotaques, gerando fala com sotaques variados e mistos através do ajuste e interpolação de vetores derivados de idiomas nativos.

Thanathai Lertpetchpun, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth NarayananTue, 10 Ma💬 cs.CL

MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

O artigo apresenta o MAWARITH, um grande conjunto de dados e benchmark em árabe com 12.500 casos de herança islâmica projetado para treinar e avaliar a capacidade de raciocínio estruturado de modelos de linguagem, introduzindo também a métrica MIR-E para uma avaliação detalhada das etapas de inferência jurídica.

Abdessalam Bouchekif, Shahd Gaben, Samer Rashwani, Somaya Eltanbouly, Mutaz Al-Khatib, Heba Sbahi, Mohammed Ghaly, Emad MohamedTue, 10 Ma💬 cs.CL

Learning-free L2-Accented Speech Generation using Phonological Rules

Este artigo propõe um framework de geração de fala com sotaque que utiliza regras fonológicas aplicadas a sequências de fonemas em um modelo TTS multilíngue, permitindo a criação de sotaques (como espanhol e indiano) sem a necessidade de dados de treinamento específicos.

Thanathai Lertpetchpun, Yoonjeong Lee, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth NarayananTue, 10 Ma💬 cs.CL

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

Este trabalho apresenta o corpus de fala Devanagari "Nwāchā Munā" e demonstra que o ajuste fino de um modelo de reconhecimento de fala treinado em nepali (uma língua vizinha) supera a escassez de recursos para a língua Nepal Bhasha, alcançando desempenho comparável a modelos multilíngues massivos com maior eficiência computacional.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna BalTue, 10 Ma💬 cs.CL

KCoEvo: A Knowledge Graph Augmented Framework for Evolutionary Code Generation

O artigo apresenta o KCoEvo, um framework aprimorado por grafos de conhecimento que divide a migração de código em recuperação de caminhos evolutivos e geração informada, superando as limitações dos modelos de linguagem padrão ao lidar com mudanças em APIs de terceiros.

Jiazhen Kang, Yuchen Lu, Chen Jiang, Jinrui Liu, Tianhao Zhang, Bo Jiang, Ningyuan Sun, Tongtong Wu, Guilin QiTue, 10 Ma💬 cs.CL

StyleBench: Evaluating Speech Language Models on Conversational Speaking Style Control

Este artigo apresenta o StyleBench, um benchmark de diálogos múltiplos projetado para avaliar sistematicamente a capacidade de modelos de linguagem de fala em controlar a intensidade de estilos conversacionais em quatro dimensões: emoção, velocidade, volume e tom.

Haishu Zhao, Aokai Hao, Yuan Ge, Zhenqiang Hong, Tong Xiao, Jingbo ZhuTue, 10 Ma💬 cs.CL

KohakuRAG: A simple RAG framework with hierarchical document indexing

O artigo apresenta o KohakuRAG, um framework RAG hierárquico que preserva a estrutura documental através de uma representação em árvore de quatro níveis, utiliza um planejador de consultas baseado em LLM e inferência em conjunto para melhorar a precisão e a estabilidade, alcançando o primeiro lugar no Desafio WattBot 2025 com pontuação de 0,861.

Shih-Ying Yeh, Yueh-Feng Ku, Ko-Wei Huang, Buu-Khang TuTue, 10 Ma💬 cs.CL

Scalable Training of Mixture-of-Experts Models with Megatron Core

Este artigo apresenta o Megatron Core, uma solução de código aberto que otimiza o treinamento escalável de modelos Mixture-of-Experts (MoE) através de técnicas integradas de memória, comunicação e computação, alcançando alto desempenho em clusters de milhares de GPUs para modelos de bilhões a trilhões de parâmetros.

Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)Tue, 10 Ma🤖 cs.LG

Large Language Model for Discrete Optimization Problems: Evaluation and Step-by-step Reasoning

Este trabalho avalia a capacidade de diferentes modelos de linguagem, como a série Llama-3 e o ChatGPT, na resolução de problemas de otimização discreta em larga escala, demonstrando que modelos mais robustos tendem a ter melhor desempenho e que técnicas como o raciocínio passo a passo (CoT) nem sempre são eficazes, oferecendo assim diretrizes e benchmarks para pesquisas futuras e aplicações automáticas.

Tianhao Qian, Guilin Qi, Z. Y. Wu, Ran Gu, Xuanyi Liu, Canchen LyuTue, 10 Ma💬 cs.CL

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

O artigo apresenta o 3ViewSense, um novo framework que supera a lacuna de inteligência espacial em Modelos Visão-Linguagem ao utilizar um mecanismo de "Simular e Raciocinar" baseado em vistas ortográficas para construir representações mentais 3D coerentes a partir de observações 2D.

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao ZhengTue, 10 Ma💬 cs.CL

Whitening Reveals Cluster Commitment as the Geometric Separator of Hallucination Types

O artigo demonstra que a normalização (whitening) em espaços de embeddings revela o compromisso do cluster como o separador geométrico correto entre tipos de alucinação, distinguindo a convergência para o "poço errado" (Tipo 2) das lacunas de cobertura (Tipo 3) e indicando que a dificuldade em separar os tipos 1 e 2 é uma limitação de capacidade dos modelos em vez de um artefato de medição.

Matic KorunTue, 10 Ma💬 cs.CL

QuadAI at SemEval-2026 Task 3: Ensemble Learning of Hybrid RoBERTa and LLMs for Dimensional Aspect-Based Sentiment Analysis

O artigo apresenta o sistema QuadAI para a tarefa SemEval-2026, que utiliza aprendizado de conjunto para combinar um codificador híbrido RoBERTa com grandes modelos de linguagem (LLMs), alcançando melhor desempenho na análise de sentimento dimensional baseada em aspectos através da integração de representações contínuas e discretas.

A. J. W. de Vink, Filippos Karolos Ventirozos, Natalia Amat-Lefort, Lifeng HanTue, 10 Ma💬 cs.CL

← Anterior Próximo →