cs.AI artigos | Gist.Science

Uncovering a Winning Lottery Ticket with Continuously Relaxed Bernoulli Gates

Este artigo propõe um método totalmente diferenciável para descobrir Sub-redes de Loteria Forte (SLT) utilizando portas de Bernoulli relaxadas continuamente, permitindo a otimização eficiente de redes superparametrizadas com até 90% de esparsidade e perda mínima de precisão sem necessidade de treinamento de pesos ou estimadores de gradiente não diferenciáveis.

Itamar Tsayag, Ofir LindenbaumWed, 11 Ma🤖 cs.AI

Quantifying Uncertainty in AI Visibility: A Statistical Framework for Generative Search Measurement

Este artigo demonstra que as métricas de visibilidade em motores de busca generativos são inerentemente estocásticas e instáveis, argumentando que elas devem ser tratadas como estimadores amostrais com intervalos de confiança em vez de valores fixos de ponto único.

Ronald SielinskiWed, 11 Ma🤖 cs.AI

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

Este artigo apresenta um novo benchmark sintético e uma abordagem inovadora que utiliza modelos de visão e linguagem (VLMs) com aprendizado em contexto para gerar automaticamente configurações JSON de simulação de plantas a partir de imagens de drones, visando superar os desafios de complexidade e escalabilidade na criação de gêmeos digitais agrícolas.

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason EarlesWed, 11 Ma🤖 cs.AI

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

O artigo apresenta o "Guardian", um sistema de suporte à decisão que utiliza uma arquitetura de três camadas combinando cadeias de Markov, aprendizado por reforço e validação por modelos de linguagem para gerar planos de busca interpretáveis e otimizados para crianças desaparecidas nas primeiras 72 horas.

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

O artigo apresenta o PathoScribe, um framework unificado baseado em modelos de linguagem (LLM) que transforma arquivos de patologia estáticos em uma biblioteca viva e inteligente, permitindo recuperação semântica, construção automatizada de coortes e raciocínio clínico com alta precisão, conforme demonstrado em uma avaliação com 70.000 relatórios cirúrgicos.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

O artigo apresenta o VoxEmo, um benchmark abrangente para avaliar Modelos de Linguagem de Áudio em Reconhecimento de Emoções, oferecendo um toolkit padronizado e protocolos de avaliação que capturam a ambiguidade inerente às emoções humanas e demonstram que, embora os modelos zero-shot tenham menor precisão em rótulos rígidos, eles se alinham melhor com as distribuições subjetivas humanas.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem

Este artigo propõe o "AgentOS", um novo paradigma de sistema operacional baseado em uma interface natural que substitui as aplicações tradicionais por módulos de habilidades coordenados por um kernel de agentes, transformando a gestão do sistema em um processo contínuo de mineração de dados e descoberta de conhecimento para superar as limitações dos sistemas operacionais atuais.

Rui Liu, Tao Zhe, Dongjie Wang, Zijun Yao, Kunpeng Liu, Yanjie Fu, Huan Liu, Jian PeiWed, 11 Ma🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

O artigo apresenta o BiCLIP, um framework simples e eficiente que adapta modelos de linguagem e visão a domínios especializados aplicando uma transformação geométrica canônica baseada em poucos exemplos, alcançando resultados state-of-the-art em diversos benchmarks.

Pranav Mantini, Shishir K. ShahWed, 11 Ma🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

O artigo apresenta o Guardian, um sistema de pipeline multi-LLM que utiliza modelos especializados, um mecanismo de consenso e ajuste fino QLoRA para extrair e processar informações de forma auditável e coordenada, visando otimizar as investigações de pessoas desaparecidas nas primeiras 72 horas críticas.

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

Automated Tensor-Relational Decomposition for Large-Scale Sparse Tensor Computation

Este artigo apresenta o \texttt{EinSum}, uma notação de soma de Einstein adaptada para computação tensorial-relacional que permite a reescrita automática de cálculos para executar componentes intensivos em kernels numéricos eficientes enquanto gerencia a esparsidade por meio de sistemas relacionais.

Yuxin Tang, Zhiyuan Xin, Zhimin Ding, Xinyu Yao, Daniel Bourgeois, Tirthak Patel, Chris JermaineWed, 11 Ma🤖 cs.AI

The FABRIC Strategy for Verifying Neural Feedback Systems

Este trabalho apresenta o algoritmo FaBRIC, que integra análises de alcançabilidade direta e indireta para verificar sistemas de feedback neural não lineares, superando significativamente o estado da arte em benchmarks representativos.

I. Samuel Akinwande, Sydney M. Katz, Mykel J. Kochenderfer, Clark BarrettWed, 11 Ma🤖 cs.AI

Semantic Level of Detail: Multi-Scale Knowledge Representation via Heat Kernel Diffusion on Hyperbolic Manifolds

O artigo apresenta o SLoD, um framework que utiliza difusão de núcleo de calor em variedades hiperbólicas para criar uma representação contínua de conhecimento em múltiplas escalas, permitindo a detecção automática de limites de abstração semântica em grafos de conhecimento.

Edward IzgorodinWed, 11 Ma🤖 cs.AI

Arbiter: Detecting Interference in LLM Agent System Prompts

O artigo apresenta o Arbiter, um framework que combina regras de avaliação formal e varredura com múltiplos modelos de linguagem para detectar padrões de interferência em prompts de sistema de agentes de codificação, revelando vulnerabilidades críticas em ferramentas de grandes empresas e demonstrando que a arquitetura do prompt influencia o tipo de falha, mas não sua gravidade.

Tony MasonWed, 11 Ma🤖 cs.AI

Security Considerations for Multi-agent Systems

Este estudo caracteriza sistematicamente o cenário de ameaças dos sistemas multiagentes (MAS) e avalia quantitativamente 16 frameworks de segurança, revelando que nenhum deles oferece cobertura majoritária para as categorias de risco identificadas, com destaque para a lacuna crítica em não determinismo e vazamento de dados.

Tam Nguyen, Moses Ndebugre, Dheeraj ArremsettyWed, 11 Ma🤖 cs.AI

Gender Fairness in Audio Deepfake Detection: Performance and Disparity Analysis

Este artigo analisa a disparidade de gênero em modelos de detecção de deepfakes de áudio, demonstrando que métricas de justiça revelam desigualdades ocultas nas taxas de erro que as métricas tradicionais agregadas não capturam, destacando a necessidade de avaliações equitativas para sistemas mais robustos.

Aishwarya Fursule, Shruti Kshirsagar, Anderson R. AvilaWed, 11 Ma🤖 cs.AI

Improving through Interaction: Searching Behavioral Representation Spaces with CMA-ES-IG

Este trabalho apresenta o algoritmo CMA-ES-IG, que melhora a aprendizagem de preferências de usuários não especialistas em robótica ao incorporar considerações de experiência do usuário na geração de consultas, resultando em maior escalabilidade, robustez a ruídos e preferência dos usuários em comparação com métodos existentes.

Nathaniel Dennler, Zhonghao Shi, Yiran Tao, Andreea Bobu, Stefanos Nikolaidis, Maja MataricWed, 11 Ma🤖 cs.AI

Meissa: Multi-modal Medical Agentic Intelligence

O artigo apresenta o Meissa, um modelo de linguagem multimodal médico leve de 4 bilhões de parâmetros que, ao ser treinado offline com trajetórias estruturadas, supera ou iguala agentes proprietários de ponta em diversos benchmarks médicos, oferecendo uma solução de baixo custo, baixa latência e privacidade garantida para ambientes clínicos.

Yixiong Chen, Xinyi Bai, Yue Pan, Zongwei Zhou, Alan YuilleWed, 11 Ma🤖 cs.AI

AI Phenomenology for Understanding Human-AI Experiences Across Eras

O artigo propõe a fenomenologia da IA como um quadro de pesquisa que, ao priorizar as percepções de primeira pessoa e a evolução temporal da interação humano-IA, oferece ferramentas metodológicas e conceitos de design para capturar a complexidade da experiência humana com sistemas de IA além das métricas tradicionais de desempenho.

Bhada Yun, Evgenia Taranova, Dana Feng, Renn Su, April Yi WangWed, 11 Ma🤖 cs.AI

MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

O artigo apresenta o MEMO, um framework de auto-jogo que combina retenção de memória e exploração para otimizar o contexto de inferência em modelos de linguagem, reduzindo a variabilidade e aumentando significativamente as taxas de vitória em jogos multiagente de múltiplas rodadas.

Yunfei Xie, Kevin Wang, Bobby Cheng, Jianzhu Yao, Zhizhou Sha, Alexander Duffy, Yihan Xi, Hongyuan Mei, Cheston Tan, Chen Wei, Pramod Viswanath, Zhangyang WangWed, 11 Ma🤖 cs.AI

The Missing Memory Hierarchy: Demand Paging for LLM Context Windows

O artigo apresenta o Pichay, um sistema de paginação sob demanda que trata o contexto de modelos de linguagem como uma hierarquia de memória virtual, reduzindo drasticamente o consumo de recursos ao evitarem conteúdo obsoleto e recuperando-o automaticamente quando necessário, demonstrando que problemas como limites de contexto e degradação de atenção são essencialmente questões de gerenciamento de memória.

Tony MasonWed, 11 Ma🤖 cs.AI

← Anterior Próximo →