cs artículos | Gist.Science

From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations

Este estudio presenta la primera evaluación sistemática con sujetos humanos que demuestra que, aunque los modelos de lenguaje grandes pueden generar especificaciones Gherkin de alta calidad a partir de normativas de seguridad alimentaria, la presencia de omisiones y alucinaciones hace indispensable una revisión humana sistemática en dominios críticos.

Shabnam Hassani, Mehrdad Sabetzadeh, Daniel Amyot2026-03-12💻 cs

Pixel Motion Diffusion is What We Need for Robot Control

El artículo presenta DAWN, un marco unificado basado en difusión que utiliza representaciones estructuradas de movimiento de píxeles para controlar robots mediante instrucciones de lenguaje, logrando resultados de vanguardia en benchmarks como CALVIN y MetaWorld, así como una transferencia efectiva al mundo real con un ajuste fino mínimo.

E-Ro Nguyen, Yichi Zhang, Kanchana Ranasinghe, Xiang Li, Michael S. Ryoo2026-03-12💻 cs

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

El artículo presenta Dolphin, un método eficiente de separación de habla audiovisual que utiliza un codificador de labios ligero y atención global-local multiescala para superar la calidad de los modelos actuales mientras reduce significativamente los parámetros, el costo computacional y el tiempo de inferencia.

Kai Li, Kejun Gao, Xiaolin Hu2026-03-12💻 cs

PD-Diag-Net: Clinical-Priors guided Network on Brain MRI for Auxiliary Diagnosis of Parkinson's Disease

El artículo presenta PD-Diag-Net, una red neuronal automatizada que utiliza conocimientos clínicos previos sobre regiones cerebrales y el envejecimiento para diagnosticar la enfermedad de Parkinson a partir de resonancias magnéticas, logrando una precisión superior al 96% en casos tempranos y superando a los métodos existentes en más de un 20%.

Shuai Shao, Yan Wang, Shu Jiang, Shiyuan Zhao, Di Yang, Jiangtao Wang, Yutong Bai, Jianguo Zhang2026-03-12💻 cs

Seeing Space and Motion: Enhancing Latent Actions with Geometric and Dynamic Awareness for Vision-Language-Action Models

El artículo presenta Farsighted-LAM y SSM-VLA, un marco de acción latente que mejora la comprensión espacial y temporal de los modelos de visión-idioma-acción mediante codificación geométrica, modelado temporal multiescala y razonamiento explícito, logrando un rendimiento superior en tareas de inteligencia encarnada.

Zhejia Cai, Yandan Yang, Xinyuan Chang, Shiyi Liang, Ronghan Chen, Feng Xiong, Mu Xu, Ruqi Huang2026-03-12💻 cs

Adaptive Event Stream Slicing for Open-Vocabulary Event-Based Object Detection via Vision-Language Knowledge Distillation

Este artículo propone un marco de destilación de conocimiento entre visión y lenguaje que combina redes neuronales convolucionales y una red neuronal de pulsos híbrida con atención espacial para lograr una detección de objetos de vocabulario abierto en cámaras de eventos, superando la falta de información de textura y color mediante la transferencia de representaciones semánticas de CLIP y la segmentación adaptativa de flujos de eventos.

Jinchang Zhang, Zijun Li, Jiakai Lin, Guoyu Lu2026-03-12💻 cs

Equivariant Splitting: Self-supervised learning from incomplete data

Este artículo propone una nueva estrategia de aprendizaje auto-supervisado que combina pérdidas de división auto-supervisadas con redes de reconstrucción equivariantes para obtener estimaciones imparciales del error supervisado a partir de datos incompletos, logrando un rendimiento de vanguardia en diversas tareas de inversión como la tomografía computarizada y la resonancia magnética.

Victor Sechaud, Jérémy Scanvic, Quentin Barthélemy, Patrice Abry, Julián Tachella2026-03-12💻 cs

Symskill: Symbol and Skill Co-Invention for Data-Efficient and Reactive Long-Horizon Manipulation

SymSkill es un marco unificado que aprende simultáneamente abstracciones simbólicas y habilidades orientadas a objetivos a partir de demostraciones no etiquetadas, combinando la generalización composicional de la planificación con la recuperación reactiva en tiempo real para ejecutar tareas de manipulación de largo horizonte de manera eficiente en datos.

Yifei Simon Shao, Yuchen Zheng, Sunan Sun, Pratik Chaudhari, Vijay Kumar, Nadia Figueroa2026-03-12💻 cs

A Graded Modal Type Theory for Pulse Schedules

Este artículo presenta GRAMPUS, un lenguaje basado en teoría de tipos modales graduados que utiliza grados temporales para especificar formalmente y semánticamente los programas de pulsos de microondas necesarios para controlar computadoras cuánticas de qubits superconductores.

Robin Adams, Jean-Philippe Bernardy, Lorenzo Perticone, Jeremy Pope2026-03-12💻 cs

From Text to Alpha: Can LLMs Track Evolving Signals in Corporate Disclosures?

Este artículo demuestra que un marco basado en modelos de lenguaje grande (LLM) que extrae y compara cambios semánticos contextuales en los informes corporativos logra predecir alfa con más del doble de eficacia que los métodos tradicionales basados en reconocimiento de entidades nombradas.

Chanyeol Choi, Yoon Kim, Yu Yu, Young Cha, V. Zach Golkhou, Igor Halperin, Georgios Papaioannou, Minkyu Kim, Zhangyang Wang, Jihoon Kwon, Minjae Kim, Alejandro Lopez-Lira, Yongjae Lee2026-03-12💻 cs

R v F (2025): Addressing the Defence of Hacking

Este artículo presenta un estudio de caso pionero sobre el caso R v F (2025) que ilustra cómo los investigadores de informática forense pueden desmontar la defensa de "hacking" mediante evidencia empírica, ofreciendo lecciones prácticas para ayudar a los tribunales a distinguir entre inocentes y culpables.

Junade Ali2026-03-12💻 cs

Computational Complexity in Property Testing

Este trabajo inicia un estudio sistemático de la complejidad computacional en la prueba de propiedades, estableciendo teoremas de jerarquía entre consultas y tiempo, y demostrando mediante conjeturas de complejidad que la aproximación de la distancia a semiespacios requiere un tiempo significativamente mayor que el número de consultas, revelando así una brecha fundamental entre ambas complejidades.

Renato Ferreira Pinto Jr., Diptaksho Palit, Sofya Raskhodnikova2026-03-12💻 cs

CompassNav: Steering From Path Imitation To Decision Understanding In Navigation

El artículo presenta CompassNav, un nuevo paradigma que traslada el entrenamiento de agentes de navegación de la mera imitación de trayectorias a la comprensión de decisiones mediante el uso del dataset Compass-Data-22k y una función de recompensa híbrida, logrando así un estado del arte en la navegación hacia objetivos tanto en simulación como en robots físicos.

LinFeng Li, Jian Zhao, Yuan Xie, Xin Tan, Xuelong Li2026-03-12💻 cs

SDGraph: Multi-Level Sketch Representation Learning by Sparse-Dense Graph Architecture

El artículo presenta SDGraph, una arquitectura de aprendizaje profundo basada en grafos dispersos y densos que, mediante un esquema de representación de múltiples niveles (boceto, trazo y punto), identifica y explota la información efectiva de los bocetos manuales para mejorar significativamente el rendimiento en tareas de clasificación, recuperación y generación.

Xi Cheng, Pingfa Feng, Mingyu Fan, Zhichao Liao, Hang Cheng, Long Zeng2026-03-12💻 cs

InstantSfM: Towards GPU-Native SfM for the Deep Learning Era

El artículo presenta InstantSfM, un sistema global de Fotogrametría desde el Movimiento (SfM) totalmente nativo de GPU y compatible con PyTorch que integra profundidades métricas como priores para resolver la ambigüedad de escala, logrando una aceleración de hasta 40 veces frente a COLMAP en escenas a gran escala sin sacrificar la precisión de reconstrucción.

Jiankun Zhong, Zitong Zhan, Quankai Gao, Ziyu Chen, Haozhe Lou, Jiageng Mao, Ulrich Neumann, Chen Wang, Yue Wang2026-03-12💻 cs

UltraGen: Efficient Ultra-High-Resolution Image Generation with Hierarchical Local Attention

UltraGen es un marco novedoso que permite la generación eficiente y escalable de imágenes ultra de alta resolución (superiores a 8K) mediante una atención local jerárquica con guía global de baja resolución, logrando una reducción de la complejidad computacional a casi lineal, un uso de memoria significativamente menor y una aceleración de más de 10 veces en comparación con los modelos de difusión actuales.

Yuyao Zhang, Yu-Wing Tai2026-03-12💻 cs

REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting

El paper presenta REALM, un marco innovador basado en agentes MLLM que realiza segmentación y edición 3D en entornos abiertos sobre representaciones de Gaussian Splatting mediante una estrategia de anclaje espacial de global a local para interpretar instrucciones complejas sin necesidad de un entrenamiento específico extenso.

Changyue Shi, Minghao Chen, Yiping Mao, Chuxiao Yang, Xinyuan Hu, Jiajun Ding, Zhou Yu2026-03-12💻 cs

Opinion Maximization in Social Networks by Modifying Internal Opinions

Este artículo aborda la maximización de la opinión pública en redes sociales mediante la modificación estratégica de las opiniones internas de nodos clave, proponiendo algoritmos eficientes basados en muestreo y un método determinista asíncrono que supera a las técnicas tradicionales en velocidad y precisión, incluso en redes de gran escala.

Gengyu Wang, Runze Zhang, Zhongzhi Zhang2026-03-12💻 cs

Importance of Overlapping Network Nodes in Influence Spreading

Este estudio demuestra que los nodos superpuestos en estructuras de círculos dentro de redes complejas ejercen una influencia significativamente mayor que los nodos no superpuestos durante procesos de contagio simple y complejo, destacando su importancia estratégica en la dinámica de difusión.

Kosti Koistinen, Vesa Kuikka, Kimmo Kaski2026-03-12💻 cs

Compiler.next: A Search-Based Compiler to Power the AI-Native Future of Software Engineering

El artículo presenta Compiler.next, un compilador basado en búsqueda diseñado para la era de la Ingeniería de Software 3.0 que transforma intenciones humanas en software funcional mediante la optimización dinámica de arquitecturas cognitivas y modelos de IA, democratizando así el desarrollo de software y permitiendo sistemas automatizados, escalables y adaptativos.

Filipe R. Cogo, Gustavo A. Oliva, Ahmed E. Hassan2026-03-12💻 cs

← Anterior Siguiente →