cs artigos | Gist.Science

Grounding Machine Creativity in Game Design Knowledge Representations: Empirical Probing of LLM-Based Executable Synthesis of Goal Playable Patterns under Structural Constraints

Este artigo investiga a capacidade de modelos de linguagem grandes (LLMs) de sintetizar código C# executável no Unity, partindo de Padrões Jogáveis de Objetivo (GPCs), demonstrando que, embora os modelos possam gerar código, a síntese escalável é limitada principalmente por falhas de "grounding" estrutural e de projeto ao tentar atender simultaneamente às restrições sintéticas do motor e ao significado semântico dos padrões de jogo.

Hugh Xuechen Liu, Kıvanç Tatar2026-03-10💻 cs

AutoUE: Automated Generation of 3D Games in Unreal Engine via Multi-Agent Systems

O artigo apresenta o AutoUE, um sistema multiagente inovador que automatiza a geração integral de jogos 3D no Unreal Engine, integrando recuperação de modelos, criação de cenas, síntese de código e testes automatizados para superar desafios como alucinações de ferramentas e garantir a robustez do resultado final.

Lei Yin, Wentao Cheng, Zhida Qin, Tianyu Huang, Yidong Li, Gangyi Ding2026-03-10💻 cs

Efficient Personalized Reranking with Semi-Autoregressive Generation and Online Knowledge Distillation

O artigo propõe o framework PSAD, que combina geração semi-autoregressiva, conhecimento de um modelo professor e uma Rede de Perfil de Usuário para superar os desafios de latência e interação usuário-item no reranking personalizado, superando os métodos atuais em desempenho e eficiência.

Kai Cheng, Hao Wang, Wei Guo, Weiwen Liu, Yong Liu, Yawen Li, Enhong Chen2026-03-10💻 cs

Vision Language Models Cannot Reason About Physical Transformation

O artigo apresenta o ConservationBench, um benchmark que revela que os Modelos de Linguagem e Visão (VLMs) atuais falham sistematicamente ao raciocinar sobre transformações físicas e não conseguem manter representações invariantes de propriedades físicas em cenas dinâmicas, dependendo excessivamente de priores textuais em vez de compreensão visual genuína.

Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng2026-03-10💻 cs

Learning From Failures: Efficient Reinforcement Learning Control with Episodic Memory

O artigo propõe a técnica FEMA (Failure Episodic Memory Alert), que utiliza uma memória episódica para armazenar e recuperar experiências de falhas, evitando que robôs caiam repetidamente em estados instáveis e melhorando significativamente a eficiência amostral e a exploração de trajetórias de longo prazo em tarefas de aprendizado por reforço.

Chenyang Miao2026-03-10💻 cs

Efficient Chest X-ray Representation Learning via Semantic-Partitioned Contrastive Learning

O artigo apresenta a S-PCL, um framework de aprendizado auto-supervisionado eficiente para radiografias de tórax que, ao particionar semanticamente os tokens de imagem sem depender de aumentos agressivos ou decodificadores auxiliares, alcança desempenho competitivo com menor custo computacional em diversos benchmarks médicos.

Wangyu Feng, Shawn Young, Lijian Xu2026-03-10💻 cs

aCAPTCHA: Verifying That an Entity Is a Capable Agent via Asymmetric Hardness

O artigo apresenta o aCAPTCHA, um protocolo de verificação de segurança que utiliza a assimetria de dificuldade temporal entre a cognição humana e o processamento de IA para distinguir e admitir apenas agentes autônomos capazes através de um jogo de verificação baseado em compreensão de linguagem natural sob restrições de tempo.

Zuyao Xu, Xiang Li, Fubin Wu, Yuqi Qiu, Lu Sun, FaSheng Miao2026-03-10💻 cs

TIQA: Human-Aligned Text Quality Assessment in Generated Images

O artigo apresenta o TIQA, uma nova tarefa e conjunto de dados para avaliação da qualidade de texto em imagens geradas, juntamente com o método leve ANTIQA, que supera métricas existentes ao alinhar-se melhor aos julgamentos humanos e demonstrar valor prático na filtragem e reclassificação de gerações de modelos de texto-para-imagem.

Kirill Koltsov, Aleksandr Gushchin, Dmitriy Vatolin, Anastasia Antsiferova2026-03-10💻 cs

Inter-Image Pixel Shuffling for Multi-focus Image Fusion

O artigo apresenta o Inter-image Pixel Shuffling (IPS), um método inovador que permite a fusão de imagens multi-foco sem necessidade de dados de treinamento reais, reformulando a tarefa como um problema de classificação de pixels e utilizando uma rede de fusão híbrida que combina redes neurais convolucionais com modelos de espaço de estado para superar os métodos existentes.

Huangxing Lin, Rongrong Ma, Cheng Wang2026-03-10💻 cs

Efficient Trajectory Optimization for Autonomous Racing via Formula-1 Data-Driven Initialization

Este artigo propõe uma estratégia de inicialização baseada em aprendizado, utilizando dados de telemetria da Fórmula 1 para prever trajetórias de corrida expert a partir da geometria local da pista, o que acelera significativamente a convergência e reduz o tempo de execução dos otimizadores de trajetória para corridas autônomas sem comprometer o tempo final da volta.

Samir Shehadeh, Lukas Kutsch, Nils Dengler, Sicong Pan, Maren Bennewitz2026-03-10💻 cs

Toward Multimodal Industrial Fault Analysis: A Single-Speed Chain Conveyor Dataset with Audio and Vibration Signals

Este artigo apresenta um novo conjunto de dados multimodal para análise de falhas industriais, coletado de um transportador de corrente de velocidade única com sinais de áudio e vibração, projetado para suportar pesquisa em detecção de falhas e fusão multimodal sob diversas condições operacionais e de ruído.

Zhang Chen, Yucong Zhang, Xiaoxiao Miao, Ming Li2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

O artigo apresenta o EyExIn, um framework eficiente em dados que utiliza um mecanismo de injeção profunda de especialistas para ancorar modelos de linguagem visual em conhecimento oftalmológico específico, superando lacunas de percepção e raciocínio e alcançando desempenho superior em diagnósticos de retina.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

More Than 1v1: Human-AI Alignment in Early Developmental Communities with Multimodal LLMs

Este artigo propõe que o alinhamento de modelos de linguagem multimodais em contextos de desenvolvimento infantil deve ser tratado como um processo governado pela comunidade, envolvendo a colaboração entre famílias e profissionais para distribuir autoridade e responsabilidade na interpretação das interações.

Weiyan Shi, Kenny Tsu Wei Choo2026-03-10💻 cs

The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating

O artigo apresenta o AutoSelect, um método que reformula a poda de tokens visuais como um problema de comunicação com restrição de capacidade, utilizando um mecanismo de "gate" de ruído e um denoiser para treinar um seletor leve em modelos VLM congelados, permitindo a seleção automática dos tokens mais importantes durante a inferência com ganhos significativos de velocidade e precisão quase total.

Landi He, Xiaoyu Yang, Lijian Xu2026-03-10💻 cs

DexKnot: Generalizable Visuomotor Policy Learning for Dexterous Bag-Knotting Manipulation

O artigo apresenta o DexKnot, um framework que combina correspondência de pontos-chave com políticas de difusão para aprender uma política de manipulação generalizável capaz de amarrar sacos plásticos em diversas configurações não vistas anteriormente.

Jiayuan Zhang, Ruihai Wu, Haojun Chen, Yuran Wang, Yifan Zhong, Ceyao Zhang, Yaodong Yang, Yuanpei Chen2026-03-10💻 cs

Model-based thermal drift compensation for high-precision hexapod robot actuators

Este estudo propõe e valida experimentalmente um método baseado em modelo para compensar a deriva térmica em atuadores de robôs hexápodes de alta precisão, utilizando medições de temperatura superficial para reduzir a expansão térmica em mais de 80%.

Clément Robert, Alain Vissiere, Olivier Company, Pierre Noire, Thierry Roux, Sébastien Krut2026-03-10💻 cs

PDD: Manifold-Prior Diverse Distillation for Medical Anomaly Detection

O artigo apresenta o PDD, um novo framework de detecção de anomalias em imagens médicas que utiliza a destilação de conhecimento baseada em prioridade de manifold, unindo professores duplos (VMamba-Tiny e Wide-ResNet50) para superar os métodos existentes e alcançar desempenho state-of-the-art em diversos conjuntos de dados.

Xijun Lu, Hongying Liu, Fanhua Shang, Yanming Hui, Liang Wan2026-03-10💻 cs

Tutorial on Aided Inertial Navigation Systems: A Modern Treatment Using Lie-Group Theoretical Methods

Este tutorial apresenta uma introdução orientada ao controle para sistemas de navegação inercial assistida, utilizando uma formulação baseada na teoria de grupos de Lie centrada no grupo estendido SE₂(3) para desenvolver uma estrutura geométrica clara que funde medições inerciais com informações auxiliares, destacando explicitamente os papéis da invariância e da simetria.

Soulaimane Berkane2026-03-10💻 cs

CanoVerse: 3D Object Scalable Canonicalization and Dataset for Generation and Pose

O artigo apresenta o CanoVerse, um novo framework de canonicização e um massivo dataset de 320 mil objetos 3D que resolvem a ambiguidade de rotação, permitindo geração mais estável, recuperação precisa de formas e estimativa de orientação zero-shot.

Li Jin, Yuchen Yang, Weikai Chen, Yujie Wang, Dehao Hao, Tanghui Jia, Yingda Yin, Zeyu Hu, Runze Zhang, Keyang Luo, Li Yuan, Long Quan, Xin Wang, Xueying Qin2026-03-10💻 cs

LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

O artigo apresenta o LiveWorld, um novo framework que resolve o problema de "dinâmicas fora do campo de visão" em modelos de mundo generativos ao simular a evolução persistente de entidades não observadas, garantindo a consistência temporal e espacial do ambiente.

Zicheng Duan, Jiatong Xia, Zeyu Zhang, Wenbo Zhang, Gengze Zhou, Chenhui Gou, Yefei He, Feng Chen, Xinyu Zhang, Lingqiao Liu2026-03-10💻 cs

← Anterior Próximo →