cs.CL artigos | Gist.Science

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

Este trabalho apresenta um framework leve e explicável de duas etapas, baseado em Swin Transformer e decodificadores de linguagem, que alcança desempenho quase perfeito na identificação de culturas e doenças e na resposta a perguntas visuais, superando modelos maiores com menos parâmetros e oferecendo evidências interpretáveis.

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam AnsaryTue, 10 Ma💬 cs.CL

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

O NC-Bench é um novo benchmark para avaliar a competência conversacional de modelos de linguagem, focando na estrutura e no formato das interações com base no IBM Natural Conversation Framework, em vez do conteúdo, e revela que, embora os modelos se saiam bem em respostas básicas, enfrentam dificuldades significativas em tarefas de reparo e em solicitações complexas de múltiplas voltas.

Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj GalaTue, 10 Ma💬 cs.CL

A Component-Based Survey of Interactions between Large Language Models and Multi-Armed Bandits

Este artigo apresenta a primeira pesquisa que revisa sistematicamente a interação bidirecional entre Grandes Modelos de Linguagem e Algoritmos de Multi-Armed Bandit em nível de componente, destacando como os bandits aprimoram desafios dos LLMs e como os LLMs redefinem componentes centrais dos sistemas de bandit para melhorar a tomada de decisão.

Siguang Chen, Chunli Lv, Miao XieTue, 10 Ma🤖 cs.LG

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

O artigo apresenta o MAS-Orchestra, um framework de treinamento que formula a orquestração de agentes como um problema de aprendizado por reforço para gerar sistemas multiagentes de forma holística, e o MASBENCH, um benchmark controlado que demonstra que os benefícios dos sistemas multiagentes dependem criticamente da estrutura da tarefa, permitindo melhorias consistentes e eficiência superior em diversas tarefas de raciocínio.

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq JotyTue, 10 Ma💬 cs.CL

Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

Este artigo apresenta o DFAH, uma estrutura de garantia que mede independentemente a determinismo e a precisão de agentes de IA em serviços financeiros, revelando que os dois atributos não são correlacionados e que nenhum modelo atual alcança simultaneamente determinismo perfeito e alta precisão, embora arquiteturas baseadas em esquema possam atender aos requisitos de auditoria.

Raffi KhatchadourianTue, 10 Ma💬 cs.CL

EFT-CoT: A Multi-Agent Chain-of-Thought Framework for Emotion-Focused Therapy

O artigo propõe o EFT-CoT, um framework multiagente baseado em Terapia Focada nas Emoções (EFT) que, juntamente com o dataset EFT-Instruct e o modelo EFT-LLM, supera abordagens tradicionais de Terapia Cognitivo-Comportamental ao oferecer suporte de saúde mental com maior profundidade empática e profissionalismo estrutural.

Lanqing Du, Yunong Li, YuJie Long, Shihong ChenTue, 10 Ma💬 cs.CL

Improving X-Codec-2.0 for Multi-Lingual Speech: 25 Hz Latent Rate and 24 kHz Sampling

Este trabalho aprimora o modelo X-Codec-2.0 para processamento de fala multilíngue ao reduzir a taxa latente para 25 Hz e aumentar a taxa de amostragem para 24 kHz, resultando em maior eficiência e qualidade perceptiva superior sem alterar a arquitetura central.

Husein ZolkepliTue, 10 Ma💬 cs.CL

RedSage: A Cybersecurity Generalist LLM

O artigo apresenta o RedSage, um assistente de cibersegurança de código aberto e localmente implantável, treinado com dados de domínio especializado e aumentação agênica, que supera modelos de base em benchmarks de cibersegurança e tarefas gerais de raciocínio.

Naufal Suryanto, Muzammal Naseer, Pengfei Li, Syed Talal Wasim, Jinhui Yi, Juergen Gall, Paolo Ceravolo, Ernesto DamianiTue, 10 Ma💬 cs.CL

Mem-T: Densifying Rewards for Long-Horizon Memory Agents

O artigo apresenta o Mem-T, um agente de memória autônomo que utiliza o framework de aprendizado por reforço MoT-GRPO para transformar recompensas esparsas em supervisão densa, permitindo a otimização conjunta de construção e recuperação de memória e alcançando desempenho superior e maior eficiência em comparação com métodos existentes.

Yanwei Yue, Boci Peng, Xuanbo Fan, Jiaxin Guo, Qiankun Li, Yan ZhangTue, 10 Ma🤖 cs.LG

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

Este estudo demonstra que, para a detecção de valores humanos em nível de frase, a estrutura de valores de ordem superior de Schwartz funciona melhor como um viés indutivo do que como uma regra de roteamento rígida, sendo que os ganhos mais significativos de desempenho provêm de técnicas de calibração e ensembles em vez de arquiteturas hierárquicas complexas.

Víctor Yeste, Paolo RossoTue, 10 Ma🤖 cs.LG

LatentMem: Customizing Latent Memory for Multi-Agent Systems

O artigo apresenta o LatentMem, um framework de memória multiagente aprendível que supera as limitações de homogeneização e sobrecarga de informação existentes ao sintetizar memórias latentes compactas e específicas para cada agente, otimizando-as através da Política de Otimização de Memória Latente (LMPO) para alcançar ganhos de desempenho significativos sem modificar os sistemas subjacentes.

Muxin Fu, Xiangyuan Xue, Yafu Li, Zefeng He, Siyuan Huang, Xiaoye Qu, Yu Cheng, Yang YangTue, 10 Ma🤖 cs.LG

Measuring Complexity at the Requirements Stage: Spectral Metrics as Development Effort Predictors

Este estudo demonstra que métricas espectrais extraídas de redes estruturais de requisitos, utilizando integração molecular como proxy controlado, preveem o esforço de integração com correlações superiores a 0,95, preenchendo uma lacuna crítica na quantificação da complexidade em engenharia de requisitos.

Maximilian Vierlboeck, Antonio Pugliese, Roshanak Nilchian, Paul Grogan, Rashika Sugganahalli Natesh BabuTue, 10 Ma💬 cs.CL

Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

O artigo apresenta o CoCoA, um algoritmo de decodificação sem treinamento que mitiga alucinações em Grandes Modelos de Linguagem ao penalizar gerações instáveis detectadas pela desconfiança entre camadas internas, melhorando significativamente a factualidade em diversas tarefas sem necessidade de re-treinamento do modelo.

Koduvayur Subbalakshmi, Sabbir Hossain Ujjal, Venkata Krishna Teja Mangichetty, Nastaran Jamalipour SoofiTue, 10 Ma💬 cs.CL

Neuro-Symbolic Synergy for Interactive World Modeling

O artigo apresenta o NeSyS, um framework neuro-simbólico que integra as capacidades semânticas probabilísticas de modelos de linguagem com regras simbólicas executáveis para criar modelos de mundo interativos mais robustos e expressivos, reduzindo a necessidade de dados de treinamento em 50% sem perda de precisão.

Hongyu Zhao, Siyu Zhou, Haolin Yang, Zengyi Qin, Tianyi ZhouTue, 10 Ma💬 cs.CL

Learning Page Order in Shuffled WOO Releases

Este artigo investiga a reordenação de páginas em documentos WOO holandeses desordenados, demonstrando que, embora modelos especializados alcancem alta precisão em documentos curtos, os transformadores seq2seq falham em generalizar para textos longos devido à necessidade de estratégias de ordenação distintas, um desafio mitigado com sucesso pelo uso de modelos especializados.

Efe Kahraman, Giulio TosatoTue, 10 Ma🤖 cs.LG

Discovering Semantic Latent Structures in Psychological Scales: A Response-Free Pathway to Efficient Simplification

Este artigo apresenta um novo quadro de trabalho baseado em processamento de linguagem natural que utiliza modelagem de tópicos e agrupamento semântico para simplificar escalas psicológicas sem depender de dados de resposta, conseguindo reduzir o número de itens em cerca de 60,5% enquanto preserva a estrutura fatorial e a consistência interna das escalas originais.

Bo Wang, Yuxuan Zhang, Yueqin Hu, Hanchao Hou, Kaiping Peng, Shiguang NiTue, 10 Ma🤖 cs.LG

A Geometric Taxonomy of Hallucinations in LLMs

Este artigo propõe uma taxonomia geométrica de alucinações em LLMs, classificando-as em três tipos e introduzindo índices de detecção baseados em espaço de embeddings que demonstram alta eficácia na identificação de desvios de contexto e confabulações, ao mesmo tempo que expõem limitações metodológicas na detecção de erros factuais.

Javier MarínTue, 10 Ma💬 cs.CL

Why Code, Why Now: Learnability, Computability, and the Real Limits of Machine Learning

O artigo propõe uma hierarquia de cinco níveis de aprendibilidade baseada na estrutura de informação dos problemas, argumentando que a geração de código avança mais rapidamente que o aprendizado por reforço devido à sua verificação densa e local, e que o progresso futuro da IA depende mais da natureza aprendível das tarefas do que apenas do aumento do tamanho dos modelos.

Zhimin ZhaoTue, 10 Ma🤖 cs.LG

Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets

O artigo apresenta o XTF, um framework de filtragem de ruído em nível de token que melhora significativamente o desempenho de modelos de linguagem grandes (LLMs) em tarefas de ajuste fino ao decompor a contribuição dos dados em atributos explicáveis e mascarar gradientes de tokens ruidosos.

Yuchen Yang, Wenze Lin, Enhao Huang, Zhixuan Chu, Hongbin Zhou, Lan Tao, Yiming Li, Zhan Qin, Kui RenTue, 10 Ma💬 cs.CL

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

O artigo apresenta o CogitoRAG, um framework de Geração Aumentada por Recuperação (RAG) inspirado na memória episódica humana que utiliza extração de "gist" semântico, difusão global em grafos de conhecimento e um algoritmo de reclassificação cognitiva para superar as limitações de integridade semântica e melhorar o raciocínio em tarefas complexas.

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun YuTue, 10 Ma💬 cs.CL

← Anterior Próximo →