cs.AI artículos | Gist.Science

Multi-head automated segmentation by incorporating detection head into the contextual layer neural network

Este artículo presenta un modelo de segmentación automática basado en una arquitectura Transformer de Swin U-Net con un cabezal de detección paralelo que actúa como puerta para suprimir las falsas positivas anatómicamente inválidas, mejorando significativamente la fiabilidad y la plausibilidad anatómica en la radioterapia.

Edwin Kys, Febian Febian2026-03-11🤖 cs.AI

UAT-LITE: Inference-Time Uncertainty-Aware Attention for Pretrained Transformers

El artículo presenta UAT-LITE, un marco de inferencia que mejora la calibración y la detección de incertidumbre en transformadores preentrenados mediante la inyección de dropout estocástico en los mecanismos de autoatención, logrando una reducción significativa del error de calibración esperado sin modificar los pesos del modelo ni requerir reentrenamiento.

Elias Hossain, Shubhashis Roy Dipta, Subash Neupane, Rajib Rana, Ravid Shwartz-Ziv, Ivan Garibay, Niloofar Yousefi2026-03-11🤖 cs.AI

WebAccessVL: Violation-Aware VLM for Web Accessibility

El artículo presenta WebAccessVL, un modelo de visión y lenguaje que corrige automáticamente las violaciones de accesibilidad en sitios web mediante la síntesis de código HTML condicional a las imágenes y a las descripciones de los errores, logrando una reducción del 96% en las violaciones y mejorando significativamente el diseño visual en comparación con modelos existentes.

Amber Yijia Zheng, Jae Joong Lee, Bedrich Benes, Raymond A. Yeh2026-03-11🤖 cs.AI

Why do we Trust Chatbots? From Normative Principles to Behavioral Drivers

El artículo propone redefinir a los chatbots como vendedores altamente cualificados en lugar de compañeros, argumentando que la confianza que generan se basa en sesgos cognitivos y decisiones de diseño más que en una verdadera fiabilidad, lo que crea una distinción crucial entre la confianza psicológica de los usuarios y la fiabilidad normativa.

Aditya Gulati, Nuria Oliver2026-03-11🤖 cs.AI

Monocular Normal Estimation via Shading Sequence Estimation

El artículo presenta RoSE, un nuevo enfoque que reformula la estimación de normales monoculares como la predicción de secuencias de sombreado mediante modelos generativos de imagen a video, logrando un rendimiento superior al estado del arte al resolver problemas de desalineación geométrica.

Zongrui Li, Xinhua Ma, Minghui Hu, Yunqing Zhao, Yingchen Yu, Qian Zheng, Chang Liu, Xudong Jiang, Song Bai2026-03-11🤖 cs.AI

Infusion: Shaping Model Behavior by Editing Training Data via Influence Functions

El marco Infusion demuestra que es posible moldear sistemáticamente el comportamiento de modelos de visión y lenguaje mediante pequeñas perturbaciones calculadas con funciones de influencia en una fracción mínima de los datos de entrenamiento, lo que subraya la importancia crítica de la interpretabilidad de dichos datos para la seguridad.

J Rosser, Robert Kirk, Edward Grefenstette, Jakob Foerster, Laura Ruis2026-03-11🤖 cs.AI

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

Este artículo propone un marco de presupuestado de picos consciente de la energía para el aprendizaje continuo en redes neuronales de spiking, que integra replay de experiencia y parámetros neuronales adaptables para optimizar simultáneamente la precisión y la eficiencia energética en sistemas de visión neuromórfica tanto para datos basados en fotogramas como en eventos.

Anika Tabassum Meem, Muntasir Hossain Nadid, Md Zesun Ahmed Mia2026-03-11🤖 cs.AI

B-DENSE: Branching For Dense Ensemble Network Supervision Efficiency

El paper presenta B-DENSE, un marco innovador que mejora la eficiencia de la destilación en modelos de difusión mediante un alineamiento de trayectoria denso y multirrama, permitiendo que el modelo estudiante aprenda pasos intermedios completos para generar imágenes de mayor calidad con menor latencia.

Cherish Puniani, Tushar Kumar, Arnav Bendre, Gaurav Kumar, Shree Singhi2026-03-11🤖 cs.AI

Contextuality from Single-State Ontological Models: An Information-Theoretic No-Go Theorem

Este artículo presenta un teorema de imposibilidad de información que demuestra que los modelos ontológicos clásicos que reutilizan un único espacio de estados onticos ineludiblemente incurren en un costo de información contextual, identificando así la contextualidad como una restricción fundamental en las representaciones clásicas que la teoría cuántica evita al relajar dicha suposición.

Song-Ju Kim2026-03-11⚛️ quant-ph

Continual uncertainty learning

Este estudio propone un marco de aprendizaje continuo basado en currículos que descompone problemas de control robusto con múltiples incertidumbres no lineales en tareas secuenciales, integrando un controlador basado en modelos para mejorar la eficiencia y evitar el olvido catastrófico, logrando así una transferencia exitosa de simulación a realidad en un controlador de vibración activa para trenes motrices automotrices.

Heisei Yonezawa, Ansei Yonezawa, Itsuro Kajiwara2026-03-11🤖 cs.AI

ReDON: Recurrent Diffractive Optical Neural Processor with Reconfigurable Self-Modulated Nonlinearity

El artículo presenta ReDON, un nuevo procesador óptico neuronal recurrente que supera las limitaciones de expresividad de las redes ópticas difractivas tradicionales mediante una no linealidad auto-modulada reconfigurable, logrando mejoras significativas en precisión y eficiencia energética sin añadir consumo eléctrico adicional.

Ziang Yin, Qi Jing, Raktim Sarma, Rena Huang, Yu Yao, Jiaqi Gu2026-03-11🔬 physics.optics

SafeGen-LLM: Enhancing Safety Generalization in Task Planning for Robotic Systems

El artículo presenta SafeGen-LLM, un marco de entrenamiento post-procesamiento que combina ajuste fino supervisado y optimización de políticas para dotar a los modelos de lenguaje grandes de una capacidad robusta de generalización en seguridad para la planificación de tareas robóticas en diversos dominios.

Jialiang Fan, Weizhe Xu, Mengyu Liu + 3 more2026-03-11🤖 cs.AI

Breaking the Factorization Barrier in Diffusion Language Models

El artículo presenta Coupled Discrete Diffusion (CoDD), un marco híbrido que supera la barrera de factorización en los modelos de lenguaje difusivos al reemplazar las distribuciones de salida totalmente factorizadas con una capa de inferencia probabilística ligera, permitiendo así generar texto coherente y de alta calidad en pocos pasos sin los altos costos computacionales de los enfoques existentes.

Ian Li, Zilei Shao, Benjie Wang, Rose Yu, Guy Van den Broeck, Anji Liu2026-03-11🤖 cs.AI

OrthoAI: A Neurosymbolic Framework for Evidence-Grounded Biomechanical Reasoning in Clear Aligner Orthodontics

El artículo presenta OrthoAI, un marco neurosimbólico que integra segmentación de puntos dentales con supervisión escasa, inferencia de restricciones biomecánicas basada en ontologías y evaluación multicriterio para apoyar la toma de decisiones clínicas en ortodoncia con alineadores transparentes.

Edouard Lansiaux, Margaux Leman, Mehdi Ammi2026-03-11🤖 cs.AI

Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1

Este artículo presenta un marco de doble flujo para la segmentación de imágenes de aves que combina Grounding DINO 1.5 y YOLOv11 con el modelo SAM 2.1, logrando resultados de vanguardia tanto en modo cero disparos como supervisado al superar las redes de segmentación tradicionales sin necesidad de reentrenar el modelo de segmentación.

Abhinav Munagala2026-03-11🤖 cs.AI

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

El artículo presenta Pri4R, un enfoque que mejora los modelos de Visión-Lenguaje-Acción (VLA) al incorporar dinámicas del mundo mediante el aprendizaje de trayectorias de puntos 3D durante el entrenamiento, logrando así un control físico más preciso sin añadir sobrecarga computacional en la inferencia.

Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, Bohyung Han, Hyunmin Lee, Laszlo A. Jeni, Seungryong Kim2026-03-11🤖 cs.AI

Reasoning as Gradient: Scaling MLE Agents Beyond Tree Search

El artículo presenta a \textsc{Gome}, un agente de ingeniería de aprendizaje automático que supera a los métodos tradicionales de búsqueda en árbol al operacionalizar la optimización basada en gradientes mediante el razonamiento estructurado, logrando un rendimiento superior a medida que aumenta la capacidad de razonamiento de los modelos.

Yifei Zhang, Xu Yang, Xiao Yang, Bowen Xian, Qizheng Li, Shikai Fang, Jingyuan Li, Jian Wang, Mingrui Xu, Weiqing Liu, Jiang Bian2026-03-11🤖 cs.AI

Boltzmann-based Exploration for Robust Decentralized Multi-Agent Planning (Extended Version)

Este trabajo presenta Coordinated Boltzmann MCTS (CB-MCTS), un nuevo enfoque de búsqueda en árboles de Monte Carlo descentralizado que utiliza una política estocástica basada en Boltzmann y una bonificación de entropía decreciente para superar las limitaciones de la exploración en entornos de recompensa dispersa o engañosa, demostrando un rendimiento superior frente a métodos existentes como Dec-MCTS.

Nhat D. A. Nguyen, Duong D. Nguyen, Gianluca Rizzo, Hung X. Nguyen2026-03-11🤖 cs.AI

FinTexTS: Financial Text-Paired Time-Series Dataset via Semantic-Based and Multi-Level Pairing

El artículo presenta FinTexTS, un nuevo conjunto de datos de series temporales financieras emparejadas con texto que utiliza un marco de emparejamiento semántico y multinivel para capturar las complejas interdependencias del mercado y mejorar la precisión en la predicción de precios de acciones.

Jaehoon Lee, Suhwan Park, Tae Yoon Lim, Seunghan Lee, Jun Seo, Dongwan Kang, Hwanil Choi, Minjae Kim, Sungdong Yoo, SoonYoung Lee, Yongjae Lee, Wonbin Ahn2026-03-11🤖 cs.AI

SPARC: Spatial-Aware Path Planning via Attentive Robot Communication

El artículo propone SPARC, un método de planificación de trayectorias para múltiples robots que utiliza un mecanismo de atención multi-cabeza mejorado con relaciones espaciales (RMHA) para priorizar dinámicamente la comunicación entre vecinos cercanos, logrando una tasa de éxito significativamente superior en entornos congestionados y una generalización cero-shot desde 8 hasta 128 robots.

Sayang Mu, Xiangyu Wu, Bo An2026-03-11🤖 cs.AI

← Anterior Siguiente →