cs.AI artigos | Gist.Science

Topological Alignment of Shared Vision-Language Embedding Space

O artigo apresenta o ToMCLIP, um framework que utiliza alinhamento topológico baseado em homologia persistente para corrigir o viés linguístico e melhorar a coerência estrutural e o desempenho de modelos de visão e linguagem multilíngues.

Junwon You, Dasol Kang, Jae-Hun Jung2026-03-05🤖 cs.AI

Circuit Insights: Towards Interpretability Beyond Activations

O artigo apresenta o WeightLens e o CircuitLens, dois métodos complementares que superam as limitações das análises baseadas apenas em ativações ao interpretar características diretamente a partir dos pesos e capturar dinâmicas de circuitos, permitindo uma análise mecânica escalável e robusta de redes neurais.

Elena Golimblevskaia, Aakriti Jain, Bruno Puri + 3 more2026-03-05🤖 cs.AI

AMiD: Knowledge Distillation for LLMs with $α$ -mixture Assistant Distribution

O artigo propõe o AMiD, um novo framework unificado para destilação de conhecimento em LLMs que introduz uma distribuição de assistente baseada em mistura- $\alpha$ e uma família generalizada de divergências, superando as limitações de estabilidade e desempenho dos métodos anteriores ao explorar sistematicamente o espaço de interpolação e otimização.

Donghyeok Shin, Yeongmin Kim, Suhyeon Jo + 2 more2026-03-05🤖 cs.AI

Kaleido: Open-Sourced Multi-Subject Reference Video Generation Model

O artigo apresenta o Kaleido, um modelo de geração de vídeo aberto que supera as limitações atuais na consistência de múltiplos sujeitos e na fidelidade de referência, graças a um pipeline de construção de dados aprimorado e à introdução do Reference Rotary Positional Encoding (R-RoPE).

Zhenxing Zhang, Jiayan Teng, Zhuoyi Yang + 6 more2026-03-05🤖 cs.AI

REVISION:Reflective Intent Mining and Online Reasoning Auxiliary for E-commerce Visual Search System Optimization

O artigo apresenta o framework REVISION, que integra mineração de intenções implícitas offline e raciocínio online via modelos de linguagem para otimizar sistemas de busca visual no e-commerce, reduzindo significativamente a taxa de cliques nulos ao alinhar as respostas do sistema às necessidades diversificadas dos usuários.

Yiwen Tang, Qiuyu Zhao, Zenghui Sun + 3 more2026-03-05🤖 cs.AI

Key and Value Weights Are Probably All You Need: On the Necessity of the Query, Key, Value weight Triplet in Self-Attention Transformers

Este artigo demonstra teoricamente e valida empiricamente que as matrizes de pesos de Query, Key ou Value em Transformers são redundantes e podem ser substituídas por matrizes identidade, reduzindo os parâmetros em 25% e simplificando a otimização sem comprometer o desempenho.

Marko Karbevski, Antonij Mijoski2026-03-05🤖 cs.AI

MuSaG: A Multimodal German Sarcasm Dataset with Full-Modal Annotations

Este artigo apresenta o MuSaG, o primeiro conjunto de dados multimodal em alemão para detecção de sarcasmo, composto por trechos de programas de televisão com anotações humanas alinhadas de texto, áudio e vídeo, e demonstra que, embora os modelos atuais performem melhor com texto, existe uma lacuna significativa em relação à dependência humana de pistas auditivas, motivando o desenvolvimento de modelos mais robustos para cenários realistas.

Aaron Scott, Maike Züfle, Jan Niehues2026-03-05🤖 cs.AI

Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents

Este trabalho apresenta o Protocolo de Dados de Agentes (ADP), uma linguagem de representação leve que unifica diversos conjuntos de dados de agentes em um formato padronizado, permitindo o ajuste fino eficaz de modelos de linguagem e alcançando desempenho de ponta em tarefas como codificação, navegação e uso de ferramentas sem necessidade de ajuste específico por domínio.

Yueqi Song, Ketan Ramaneti, Zaid Sheikh + 18 more2026-03-05🤖 cs.AI

Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime

Este trabalho demonstra que o viés implícito do Adam com amostras individuais (incremental) em dados linearmente separáveis pode divergir do regime de lote completo, convergindo para classificadores de margem máxima em normas diferentes (como $\ell_2$ em vez de $\ell_\infty$ ) dependendo do conjunto de dados, ao contrário do Signum, que mantém invariância no viés para qualquer tamanho de lote.

Beomhan Baek, Minhak Song, Chulhee Yun2026-03-05🤖 cs.AI

SpotIt: Evaluating Text-to-SQL Evaluation with Formal Verification

O artigo apresenta o SpotIt, um novo pipeline de avaliação para Text-to-SQL que utiliza verificação formal de equivalência para identificar diferenças entre consultas geradas e de referência que os métodos tradicionais baseados em testes poderiam ignorar.

Rocky Klopfenstein, Yang He, Andrew Tremante + 3 more2026-03-05🤖 cs.AI

Cognition Envelopes for Bounded Decision Making in Autonomous UAS Operations

Este artigo propõe o conceito de "Cognition Envelopes" para estabelecer limites de raciocínio que restringem decisões geradas por IA em sistemas ciber-físicos, como drones de busca e resgate, mitigando erros como alucinações e validando a abordagem por meio de uma análise probabilística de pistas.

Pedro Antonio Alarcon Granadeno, Arturo Miguel Bernal Russell, Sofia Nelson + 5 more2026-03-05🤖 cs.AI

CareMedEval dataset: Evaluating Critical Appraisal and Reasoning in the Biomedical Field

O artigo apresenta o CareMedEval, um novo conjunto de dados derivado de exames médicos franceses para avaliar a capacidade de raciocínio crítico e análise fundamentada em artigos científicos de modelos de linguagem, revelando limitações significativas dos modelos atuais em tarefas especializadas de biomedicina.

Doria Bonzi, Alexandre Guiggi, Frédéric Béchet + 2 more2026-03-05🤖 cs.AI

Improving Multi-View Reconstruction via Texture-Guided Gaussian-Mesh Joint Optimization

Este artigo propõe um novo quadro unificado que otimiza simultaneamente a geometria da malha e as cores dos vértices por meio de uma renderização diferenciável guiada por Gaussianas, integrando consistência fotométrica e regularização geométrica para gerar reconstruções 3D de alta qualidade prontas para tarefas de edição downstream.

Zhejia Cai, Puhua Jiang, Shiwei Mao + 2 more2026-03-05🤖 cs.AI

Can a Small Model Learn to Look Before It Leaps? Dynamic Learning and Proactive Correction for Hallucination Detection

O artigo propõe o framework LEAP, que utiliza um modelo professor para desenvolver estratégias de verificação dinâmicas e as transfere para um modelo eficiente com correção proativa, superando as limitações das abordagens fixas na detecção de alucinações em modelos de linguagem.

Zepeng Bao, Shen Zhou, Qiankun Pi + 5 more2026-03-05🤖 cs.AI

AudAgent: Automated Auditing of Privacy Policy Compliance in AI Agents

O AudAgent é uma ferramenta que monitora em tempo real a conformidade de agentes de IA com suas políticas de privacidade, utilizando formalização de políticas, anotação de dados e verificação automatizada para detectar violações e bloquear proativamente o processamento de dados sensíveis não autorizado.

Ye Zheng, Yimin Chen, Yidan Hu2026-03-05🤖 cs.AI

Multimodal Large Language Models for Low-Resource Languages: A Case Study for Basque

Este artigo apresenta o desenvolvimento de um Modelo de Linguagem Multimodal (MLLM) robusto para a língua basca, demonstrando que uma pequena proporção de dados multimodais em basco (cerca de 20%) é suficiente para obter bons resultados e que não é necessário utilizar um modelo de linguagem base pré-adaptado ao basco para alcançar esse desempenho.

Lukas Arana, Julen Etxaniz, Ander Salaberria + 1 more2026-03-05🤖 cs.AI

DecNefSimulator: A Modular, Interpretable Framework for Decoded Neurofeedback Simulation Using Generative Models

O artigo apresenta o DecNefSimulator, um framework de simulação modular e interpretável que utiliza modelos generativos para formalizar o neurofeedback decodificado como um problema de aprendizado de máquina, permitindo a análise de suas dinâmicas e o design otimizado de protocolos antes da implementação em humanos.

Alexander Olza, Roberto Santana, David Soto2026-03-05🤖 cs.AI

Implicit Bias of the JKO Scheme

O artigo caracteriza o viés implícito do esquema JKO de segunda ordem, demonstrando que ele equivale a um fluxo de gradiente de Wasserstein em uma energia modificada que subtrai um termo proporcional à curvatura métrica da energia original, resultando em um desaceleramento direcional que se manifesta como informações de Fisher ou energia cinética em casos específicos.

Peter Halmos, Boris Hanin2026-03-05🤖 cs.AI

SpatialBench: Benchmarking Multimodal Large Language Models for Spatial Cognition

O artigo apresenta o SpatialBench, um benchmark em larga escala e um framework hierárquico para avaliar a cognição espacial de Modelos de Linguagem Multimodais (MLLMs), revelando que, embora possuam forte percepção, eles ainda carecem em raciocínio simbólico, inferência causal e planejamento em comparação com a capacidade humana de abstração direcionada a objetivos.

Peiran Xu, Sudong Wang, Yao Zhu + 3 more2026-03-05🤖 cs.AI

Training High-Level Schedulers with Execution-Feedback Reinforcement Learning for Long-Horizon GUI Automation

Este artigo propõe o framework CES, que utiliza aprendizado por reforço com feedback de execução para treinar modelos de alto nível (Coordenador e Rastreador de Estado) que, integrados a qualquer executor de baixo nível, superam os desafios de planejamento e gerenciamento de estado em tarefas de automação de GUI de longo prazo.

Zehao Deng, Tianjie Ju, Zheng Wu + 2 more2026-03-05🤖 cs.AI

← Anterior Próximo →

cs.AI