cs.AI artigos | Gist.Science

Understanding LLM Behavior When Encountering User-Supplied Harmful Content in Harmless Tasks

Este estudo revela que os atuais Grandes Modelos de Linguagem (LLMs), incluindo os mais recentes, frequentemente falham em rejeitar conteúdo prejudicial fornecido pelo usuário quando este é inserido em tarefas aparentemente inofensivas, expondo uma vulnerabilidade ética de nível de conteúdo que requer medidas de segurança aprimoradas.

Junjie Chu, Yiting Qu, Ye Leng, Michael Backes, Yun Shen, Savvas Zannettou, Yang Zhang2026-03-13🤖 cs.AI

MobileKernelBench: Can LLMs Write Efficient Kernels for Mobile Devices?

Este artigo apresenta o MobileKernelBench, um novo framework de avaliação que revela as limitações atuais dos LLMs na geração de kernels eficientes para dispositivos móveis e propõe o MoKA, um agente multiagente que supera essas barreiras, alcançando uma taxa de sucesso de compilação de 93,7% e melhorias de desempenho significativas.

Xingze Zou, Jing Wang, Yuhua Zheng, Xueyi Chen, Haolei Bai, Lingcheng Kong, Syed A. R. Abu-Bakar, Zhaode Wang, Chengfei Lv, Haoji Hu, Huan Wang2026-03-13🤖 cs.LG

Fair Learning for Bias Mitigation and Quality Optimization in Paper Recommendation

O artigo apresenta o Fair-PaperRec, um modelo baseado em MLP que utiliza critérios interseccionais e uma função de perda personalizada para mitigar disparidades demográficas nas decisões de aceitação de artigos, aumentando a participação de grupos sub-representados em 42,03% e melhorando a utilidade geral em 3,16% sem comprometer o rigor acadêmico.

Uttamasha Anjally Oyshi, Susan Gauch2026-03-13🤖 cs.AI

Prototype-Based Knowledge Guidance for Fine-Grained Structured Radiology Reporting

O artigo apresenta o ProtoSR, uma abordagem que utiliza um pipeline de extração automática para construir uma base de conhecimento multimodal baseada em protótipos a partir de relatórios de radiografia em texto livre, permitindo que um modelo de IA refine suas previsões para relatórios estruturados de radiologia com maior precisão em atributos detalhados.

Chantal Pellegrini, Adrian Delchev, Ege Özsoy, Nassir Navab, Matthias Keicher2026-03-13🤖 cs.AI

Effective Resistance Rewiring: A Simple Topological Correction for Over-Squashing

O artigo apresenta a Reconfiguração por Resistência Efetiva (ERR), uma estratégia simples e sem parâmetros que utiliza a resistência elétrica global para identificar e corrigir gargalos estruturais em Redes Neurais de Grafos, melhorando a propagação de informações de longo alcance e o desempenho preditivo ao equilibrar o super-achatamento com o super-suavização através da reconfiguração da topologia do grafo.

Bertran Miquel-Oliver, Manel Gil-Sorribes, Victor Guallar, Alexis Molina2026-03-13🤖 cs.LG

Geometry-Aware Probabilistic Circuits via Voronoi Tessellations

Este artigo propõe a integração de tesselações de Voronoi em circuitos probabilísticos para capturar a geometria local dos dados, abordando o desafio da perda de tratabilidade através de um framework de inferência aproximada com limites garantidos e de uma condição estrutural que recupera a inferência exata, além de introduzir uma relaxação diferenciável para aprendizado baseado em gradiente.

Sahil Sidheekh, Sriraam Natarajan2026-03-13🤖 cs.LG

Delayed Backdoor Attacks: Exploring the Temporal Dimension as a New Attack Surface in Pre-Trained Models

Este artigo introduz os Ataques de Backdoor Adiado (DBA), uma nova classe de ameaças que desacopla a ativação maliciosa da exposição ao gatilho no tempo, demonstrando através do protótipo DND que é possível usar palavras comuns como gatilhos para manter os modelos inativos por um período controlado antes de desencadear uma falha generalizada com alta precisão.

Zikang Ding, Haomiao Yang, Meng Hao, Wenbo Jiang, Kunlan Xiang, Runmeng Du, Yijing Liu, Ruichen Zhang, Dusit Niyato2026-03-13🤖 cs.AI

Learning Transferable Sensor Models via Language-Informed Pretraining

O artigo apresenta o SLIP, um framework de pré-treinamento auto-supervisionado que alinha dados de sensores multivariados com linguagem natural para aprender representações transferíveis que superam as limitações de configurações fixas e alcançam desempenho superior em tarefas de classificação, legendagem e resposta a perguntas em diversos conjuntos de dados.

Yuliang Chen, Arvind Pillai, Yu Yvonne Wu, Tess Z. Griffin, Lisa Marsch, Michael V. Heinz, Nicholas C. Jacobson, Andrew Campbell2026-03-13🤖 cs.AI

Multimodal Emotion Recognition via Bi-directional Cross-Attention and Temporal Modeling

Este artigo apresenta um framework de reconhecimento multimodal de emoções para o desafio ABAW 10, que combina modelos pré-treinados de áudio e vídeo com uma rede de convolução temporal e um módulo de atenção cruzada bidirecional para superar as limitações de abordagens unimodais em ambientes não controlados.

Junhyeong Byeon, Jeongyeol Kim, Sejoon Lim2026-03-13🤖 cs.AI

Normative Common Ground Replication (NormCoRe): Replication-by-Translation for Studying Norms in Multi-agent AI

O artigo propõe o framework NormCoRe, um método inovador que traduz sistematicamente experimentos com sujeitos humanos para ambientes de Inteligência Artificial Multiagente (MAAI), permitindo a análise de normas coletivas e demonstrando como as julgamentos normativos dos agentes variam conforme o modelo base e a linguagem utilizada.

Luca Deck, Simeon Allmendinger, Lucas Müller, Niklas Kühl2026-03-13🤖 cs.AI

HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios

Este artigo apresenta o HomeSafe-Bench, um novo benchmark para avaliar a detecção de ações inseguras em ambientes domésticos por modelos de visão e linguagem, e propõe a arquitetura HD-Guard, que combina um processamento rápido e contínuo com uma análise profunda assíncrona para garantir monitoramento de segurança eficiente e preciso em agentes corporificados.

Jiayue Pu, Zhongxiang Sun, Zilu Zhang, Xiao Zhang, Jun Xu2026-03-13🤖 cs.AI

LABSHIELD: A Multimodal Benchmark for Safety-Critical Reasoning and Planning in Scientific Laboratories

O artigo apresenta o LABSHIELD, um benchmark multimodal baseado em normas de segurança internacionais para avaliar a capacidade de modelos de linguagem grandes multimodais em identificar riscos e planejar ações seguras em laboratórios científicos, revelando uma lacuna significativa entre seu desempenho geral e sua confiabilidade em cenários de alta risco.

Qianpu Sun, Xiaowei Chi, Yuhan Rui, Ying Li, Kuangzhi Ge, Jiajun Li, Sirui Han, Shanghang Zhang2026-03-13🤖 cs.AI

BTZSC: A Benchmark for Zero-Shot Text Classification Across Cross-Encoders, Embedding Models, Rerankers and LLMs

O artigo apresenta o BTZSC, um novo benchmark abrangente para classificação de texto zero-shot que, ao avaliar 38 modelos em 22 conjuntos de dados, revela que os rerankers modernos estabelecem um novo estado da arte, superando os modelos baseados em NLI e oferecendo um desempenho competitivo em comparação com embeddings e LLMs instruídos.

Ilias Aarab2026-03-13💬 cs.CL

Few-for-Many Personalized Federated Learning

O artigo propõe o FedFew, um algoritmo de Aprendizado Federado Personalizado que reformula o problema como uma otimização "poucos para muitos", mantendo apenas um pequeno número de modelos compartilhados no servidor para atender eficientemente a milhares de clientes com dados heterogêneos, superando abordagens existentes em precisão e escalabilidade.

Ping Guo, Tiantian Zhang, Xi Lin, Xiang Li, Zhi-Ri Tang, Qingfu Zhang2026-03-13🤖 cs.AI

Can RL Improve Generalization of LLM Agents? An Empirical Study

Este estudo empírico demonstra que, embora o ajuste fino por reforço (RFT) generalize bem para tarefas de dificuldade variável dentro do mesmo ambiente, seu desempenho em ambientes não vistos é limitado por mudanças nas interfaces e priores semânticos, enquanto o treinamento sequencial e por mistura oferece ganhos promissores com esquecimento mínimo.

Zhiheng Xi, Xin Guo, Jiaqi Liu, Jiazheng Zhang, Yutao Fan, Zhihao Zhang, Shichun Liu, Mingxu Chai, Xiaowei Shi, Yitao Zhai, Xunliang Cai, Tao Gui, Qi Zhang, Xuanjing Huang2026-03-13🤖 cs.AI

Flowcean - Model Learning for Cyber-Physical Systems

O artigo apresenta o Flowcean, um novo framework modular e flexível que automatiza a geração de modelos de Sistemas Ciber-Físicos (CPS) por meio de aprendizado de dados, integrando diversas estratégias de aprendizado, métodos de processamento e métricas de avaliação para tornar o processo mais eficiente e acessível.

Maximilian Schmidt, Swantje Plambeck, Markus Knitt, Hendrik Rose, Goerschwin Fey, Jan Christian Wieck, Stephan Balduin2026-03-13🤖 cs.LG

An Intent of Collaboration: On Agencies between Designers and Emerging (Intelligent) Technologies

Este artigo relata um estudo de três meses no qual designers colaboraram com um modelo de linguagem (LLLM) para investigar como a dinâmica de agência entre humanos e IA pode levar à perda de criatividade, propondo que a recuperação dessa agência exige introspecção sobre o processo criativo, compreensão estrutural da tecnologia e ajustes deliberados na relação de trabalho.

Pei-Ying Lin, Julie Heij, Iris Borst, Britt Joosten, Kristina Andersen, Wijnand IJsselsteijn2026-03-13🤖 cs.AI

Sim-to-reality adaptation for Deep Reinforcement Learning applied to an underwater docking application

Este artigo apresenta uma abordagem sistemática para o acoplamento autônomo de um AUV utilizando Aprendizado por Reforço Profundo, onde um ambiente de simulação de alta fidelidade com PPO permitiu treinar um agente que alcançou mais de 90% de sucesso na simulação e validação bem-sucedida em um tanque físico, demonstrando comportamentos emergentes eficazes para a adaptação sim-real.

Alaaeddine Chaarani, Narcis Palomeras, Pere Ridao2026-03-13🤖 cs.AI

Just Use XML: Revisiting Joint Translation and Label Projection

O artigo apresenta o LabelPigeon, um novo framework que utiliza tags XML para realizar tradução e projeção de rótulos de forma conjunta, demonstrando que essa abordagem supera os métodos existentes ao melhorar a transferência cruzada de idiomas sem comprometer, e até aprimorando, a qualidade da tradução.

Thennal D K, Chris Biemann, Hans Ole Hatzel2026-03-13💬 cs.CL

Cascade: Composing Software-Hardware Attack Gadgets for Adversarial Threat Amplification in Compound AI Systems

Este artigo investiga como vulnerabilidades tradicionais de software e hardware podem ser combinadas com falhas algorítmicas em sistemas de IA compostos para amplificar ameaças adversariais, demonstrando novos vetores de ataque que comprometem a segurança e a confidencialidade desses sistemas.

Sarbartha Banerjee, Prateek Sahu, Anjo Vahldiek-Oberwagner, Jose Sanchez Vicarte, Mohit Tiwari2026-03-13🤖 cs.AI

← Anterior Próximo →