cs.LG artigos | Gist.Science

Active Value Querying to Minimize Additive Error in Subadditive Set Function Learning

Este artigo propõe e avalia métodos de consulta ativa para minimizar o erro aditivo na aprendizagem de funções de conjunto subaditivas com valores faltantes, focando na redução da distância entre as conclusões mínima e máxima dessas funções em cenários offline e online.

Martin Černý, David Sychrovský, Filip Úradník, Jakub Černý2026-03-12🤖 cs.LG

How Large Language Models Get Stuck: Early structure with persistent errors

Este artigo investiga como modelos de linguagem como o OPT podem desenvolver erros persistentes durante o treinamento ao estabelecerem cedo vieses estatísticos equivocados (especialmente baseados em bigramas) que se tornam difíceis de reverter, sugerindo que insights linguísticos são essenciais para otimizar esse processo.

Alokesh Manna, William Snyder, Whitney Tabor2026-03-12💬 cs.CL

CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework

O artigo apresenta o CARE, um framework agêntico que aprimora a responsabilidade clínica no raciocínio médico multimodal ao decompor a tarefa em módulos especializados com fundamentação em evidências visuais e verificação iterativa, superando significativamente os modelos de ponta em benchmarks de VQA médica.

Yuexi Du, Jinglu Wang, Shujie Liu, Nicha C. Dvornek, Yan Lu2026-03-12🤖 cs.AI

CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

O artigo apresenta o CFG-Ctrl, um quadro unificado que reinterpreta a Orientação Livre de Classificador (CFG) como um controle de fluxo, propondo especificamente o método SMC-CFG baseado em Controle por Modo Deslizante para superar a instabilidade e a perda de fidelidade semântica dos métodos existentes, garantindo convergência estável e superior em modelos de geração de imagens.

Hanyang Wang, Yiyang Liu, Jiawei Chi, Fangfu Liu, Ran Xue, Yueqi Duan2026-03-12🤖 cs.LG

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Este artigo apresenta a primeira avaliação abrangente do ajuste fino eficiente em parâmetros (PEFT) para análise de código multitarefa, demonstrando que um único módulo PEFT compartilhado pode igualar ou superar o ajuste fino completo e o ajuste de tarefas únicas, oferecendo um excelente equilíbrio entre desempenho e eficiência enquanto revela que o sucesso depende de fatores como estabilidade da tarefa, arquitetura do modelo e complementaridade.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

Explainable LLM Unlearning Through Reasoning

O artigo propõe o "Targeted Reasoning Unlearning" (TRU), uma nova abordagem que utiliza alvos de raciocínio explícitos para guiar a remoção precisa de conhecimento indesejado em Grandes Modelos de Linguagem, garantindo ao mesmo tempo a preservação das capacidades gerais do modelo e a robustez contra ataques.

Junfeng Liao, Qizhou Wang, Shanshan Ye, Xin Yu, Ling Chen, Zhen Fang2026-03-12🤖 cs.LG

MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios

O artigo apresenta o MoE-SpAc, um framework de inferência para modelos MoE em dispositivos de borda heterogêneos que utiliza a Decodificação Especulativa como sensor de previsão de demanda de memória, resultando em um aumento de 42% na taxa de tokens por segundo em comparação com a linha de base mais avançada.

Shuhuai Li, Jianghao Lin, Dongdong Ge, Yinyu Ye2026-03-12🤖 cs.LG

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

Este artigo apresenta um framework que otimiza a transformação de características impulsionada por Grandes Modelos de Linguagem (LLMs) através de um ciclo fechado de evolução de demonstrações e seleção diversificada de experiências, superando métodos existentes em desempenho, estabilidade e cobertura em benchmarks tabulares.

Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

Este artigo apresenta o TAMUSA-Chat, um quadro de pesquisa para desenvolver sistemas conversacionais de modelos de linguagem adaptados a contextos institucionais, combinando ajuste fino supervisionado, geração aumentada por recuperação e metodologias de avaliação para garantir transparência e conformidade com práticas de IA responsável.

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Este estudo avalia a robustez e a segurança pedagógica de modelos de linguagem offline para o ensino da língua turca, demonstrando que modelos de 8B a 14B parâmetros oferecem o melhor equilíbrio entre custo e segurança, enquanto a resistência a anomalias não depende apenas da escala do modelo e o viés de sycophancy representa um risco pedagógico.

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Beyond the Prompt in Large Language Models: Comprehension, In-Context Learning, and Chain-of-Thought

Este artigo oferece uma fundamentação teórica para as capacidades emergentes de modelos de linguagem grandes, demonstrando que a compreensão semântica de prompts, o aprendizado em contexto e o raciocínio em cadeia de pensamento são impulsionados pela inferência de probabilidades de transição, redução de ambiguidade e decomposição de tarefas, respectivamente.

Yuling Jiao, Yanming Lai, Huazhen Lin, Wensen Ma, Houduo Qi, Defeng Sun2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Este artigo apresenta a criação do banco de dados LatamQA, composto por mais de 26 mil perguntas e respostas sobre culturas latino-americanas extraídas da Wikipedia e Wikidata, utilizado para demonstrar que os Grandes Modelos de Linguagem exibem viés sociocultural, performando melhor em espanhol peninsular e em seus idiomas nativos do que nas diversas culturas da América Latina.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

O artigo apresenta o SpreadsheetArena, uma plataforma de avaliação que utiliza comparações cegas para analisar a capacidade de modelos de linguagem em gerar planilhas complexas, revelando que, embora existam critérios variados de preferência, os modelos atuais ainda não conseguem garantir consistentemente as melhores práticas específicas de domínio, como no setor financeiro.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

Probing the Limits of the Lie Detector Approach to LLM Deception

Este artigo demonstra que as abordagens atuais de detecção de mentiras em modelos de linguagem falham ao identificar enganos que não envolvem falsidades explícitas, revelando uma lacuna crítica que exige a incorporação de crenças de segunda ordem e cenários dialógicos no treinamento de sondas.

Tom-Felix Berger2026-03-12💬 cs.CL

GATech at AbjadGenEval Shared Task: Multilingual Embeddings for Arabic Machine-Generated Text Classification

O artigo descreve a abordagem da GATech na tarefa compartilhada AbjadGenEval, onde o ajuste fino do codificador multilíngue E5-large com pooling médio alcançou um F1 de 0,75 na classificação de texto árabe gerado por IA, superando métodos de pooling mais complexos devido à estabilidade e à observação de que textos humanos tendem a ser significativamente mais longos que os gerados por máquinas.

Ahmed Khaled Khamis2026-03-12💬 cs.CL

GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification

Este artigo demonstra que, para a classificação de textos médicos árabes em 82 categorias, os codificadores bidirecionais especializados (como o AraBERTv2) superam os decodificadores causais ao capturar com mais precisão as fronteiras semânticas necessárias, mesmo diante de desequilíbrio de classes e ruído nos dados.

Ahmed Khaled Khamis2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

O artigo apresenta o Personalized GRPO (P-GRPO), um novo framework de alinhamento que supera as limitações do GRPO padrão ao normalizar vantagens com base em históricos específicos de grupos de preferência, permitindo assim uma convergência mais rápida e um alinhamento eficaz com preferências humanas heterogêneas sem sacrificar capacidades gerais.

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

Defining AI Models and AI Systems: A Framework to Resolve the Boundary Problem

Este artigo propõe definições conceituais e operacionais claras para distinguir "modelos de IA" de "sistemas de IA", com base em uma revisão sistemática da literatura e de documentos regulatórios, visando resolver ambiguidades na atribuição de responsabilidades aos diferentes atores da cadeia de valor de IA e facilitar a implementação de regulamentações como o AI Act da UE.

Yuanyuan Sun, Timothy Parker, Lara Gierschmann, Sana Shams, Teo Canmetin, Mathieu Duteil, Rokas Gipiškis, Ze Shen Chin2026-03-12🤖 cs.AI

LWM-Temporal: Sparse Spatio-Temporal Attention for Wireless Channel Representation Learning

O LWM-Temporal é um modelo de base para canais sem fio que utiliza atenção espaciotemporal esparsa alinhada à propagação e pré-treinamento auto-supervisionado para aprender representações universais e transferíveis que capturam a evolução induzida pela mobilidade, superando abordagens existentes em tarefas de previsão de canal, especialmente em horizontes longos e com dados limitados.

Sadjad Alikhani, Akshay Malhotra, Shahab Hamidi-Rad, Ahmed Alkhateeb2026-03-12🤖 cs.LG

HTM-EAR: Importance-Preserving Tiered Memory with Hybrid Routing under Saturation

O artigo apresenta o HTM-EAR, um sistema de memória hierárquica que combina armazenamento de trabalho baseado em HNSW com armazenamento de arquivo e um mecanismo de roteamento híbrido para preservar informações essenciais e manter alta precisão em consultas sob condições de saturação, superando significativamente abordagens tradicionais como LRU.

Shubham Kumar Singh2026-03-12🤖 cs.AI

← Anterior Próximo →