A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

Este trabalho apresenta um framework leve e explicável de duas etapas, baseado em Swin Transformer e decodificadores de linguagem, que alcança desempenho quase perfeito na identificação de culturas e doenças e na resposta a perguntas visuais, superando modelos maiores com menos parâmetros e oferecendo evidências interpretáveis.

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam AnsaryTue, 10 Ma💬 cs.CL

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

O NC-Bench é um novo benchmark para avaliar a competência conversacional de modelos de linguagem, focando na estrutura e no formato das interações com base no IBM Natural Conversation Framework, em vez do conteúdo, e revela que, embora os modelos se saiam bem em respostas básicas, enfrentam dificuldades significativas em tarefas de reparo e em solicitações complexas de múltiplas voltas.

Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj GalaTue, 10 Ma💬 cs.CL

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

O artigo apresenta o MAS-Orchestra, um framework de treinamento que formula a orquestração de agentes como um problema de aprendizado por reforço para gerar sistemas multiagentes de forma holística, e o MASBENCH, um benchmark controlado que demonstra que os benefícios dos sistemas multiagentes dependem criticamente da estrutura da tarefa, permitindo melhorias consistentes e eficiência superior em diversas tarefas de raciocínio.

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq JotyTue, 10 Ma💬 cs.CL

Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

Este artigo apresenta o DFAH, uma estrutura de garantia que mede independentemente a determinismo e a precisão de agentes de IA em serviços financeiros, revelando que os dois atributos não são correlacionados e que nenhum modelo atual alcança simultaneamente determinismo perfeito e alta precisão, embora arquiteturas baseadas em esquema possam atender aos requisitos de auditoria.

Raffi KhatchadourianTue, 10 Ma💬 cs.CL

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

Este estudo demonstra que, para a detecção de valores humanos em nível de frase, a estrutura de valores de ordem superior de Schwartz funciona melhor como um viés indutivo do que como uma regra de roteamento rígida, sendo que os ganhos mais significativos de desempenho provêm de técnicas de calibração e ensembles em vez de arquiteturas hierárquicas complexas.

Víctor Yeste, Paolo RossoTue, 10 Ma🤖 cs.LG

LatentMem: Customizing Latent Memory for Multi-Agent Systems

O artigo apresenta o LatentMem, um framework de memória multiagente aprendível que supera as limitações de homogeneização e sobrecarga de informação existentes ao sintetizar memórias latentes compactas e específicas para cada agente, otimizando-as através da Política de Otimização de Memória Latente (LMPO) para alcançar ganhos de desempenho significativos sem modificar os sistemas subjacentes.

Muxin Fu, Xiangyuan Xue, Yafu Li, Zefeng He, Siyuan Huang, Xiaoye Qu, Yu Cheng, Yang YangTue, 10 Ma🤖 cs.LG

Measuring Complexity at the Requirements Stage: Spectral Metrics as Development Effort Predictors

Este estudo demonstra que métricas espectrais extraídas de redes estruturais de requisitos, utilizando integração molecular como proxy controlado, preveem o esforço de integração com correlações superiores a 0,95, preenchendo uma lacuna crítica na quantificação da complexidade em engenharia de requisitos.

Maximilian Vierlboeck, Antonio Pugliese, Roshanak Nilchian, Paul Grogan, Rashika Sugganahalli Natesh BabuTue, 10 Ma💬 cs.CL

Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

O artigo apresenta o CoCoA, um algoritmo de decodificação sem treinamento que mitiga alucinações em Grandes Modelos de Linguagem ao penalizar gerações instáveis detectadas pela desconfiança entre camadas internas, melhorando significativamente a factualidade em diversas tarefas sem necessidade de re-treinamento do modelo.

Koduvayur Subbalakshmi, Sabbir Hossain Ujjal, Venkata Krishna Teja Mangichetty, Nastaran Jamalipour SoofiTue, 10 Ma💬 cs.CL

Discovering Semantic Latent Structures in Psychological Scales: A Response-Free Pathway to Efficient Simplification

Este artigo apresenta um novo quadro de trabalho baseado em processamento de linguagem natural que utiliza modelagem de tópicos e agrupamento semântico para simplificar escalas psicológicas sem depender de dados de resposta, conseguindo reduzir o número de itens em cerca de 60,5% enquanto preserva a estrutura fatorial e a consistência interna das escalas originais.

Bo Wang, Yuxuan Zhang, Yueqin Hu, Hanchao Hou, Kaiping Peng, Shiguang NiTue, 10 Ma🤖 cs.LG

Why Code, Why Now: Learnability, Computability, and the Real Limits of Machine Learning

O artigo propõe uma hierarquia de cinco níveis de aprendibilidade baseada na estrutura de informação dos problemas, argumentando que a geração de código avança mais rapidamente que o aprendizado por reforço devido à sua verificação densa e local, e que o progresso futuro da IA depende mais da natureza aprendível das tarefas do que apenas do aumento do tamanho dos modelos.

Zhimin ZhaoTue, 10 Ma🤖 cs.LG

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

O artigo apresenta o CogitoRAG, um framework de Geração Aumentada por Recuperação (RAG) inspirado na memória episódica humana que utiliza extração de "gist" semântico, difusão global em grafos de conhecimento e um algoritmo de reclassificação cognitiva para superar as limitações de integridade semântica e melhorar o raciocínio em tarefas complexas.

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun YuTue, 10 Ma💬 cs.CL