cs artículos | Gist.Science

A Robust Deep Learning Framework for Bangla License Plate Recognition Using YOLO and Vision-Language OCR

Este artículo presenta un marco robusto de aprendizaje profundo para el reconocimiento de matrículas en bengalí que combina YOLOv8 con una estrategia de entrenamiento adaptativa para la localización y un modelo ViT+BanglaBERT para la extracción de texto, logrando una precisión del 97,83% y demostrando alta eficacia en diversas condiciones reales.

Nayeb Hasin, Md. Arafath Rahman Nishat, Mainul Islam, Khandakar Shakib Al Hasan, Asif Newaz2026-03-12💻 cs

SpecOps: A Fully Automated AI Agent Testing Framework in Real-World GUI Environments

El artículo presenta SpecOps, un marco de prueba totalmente automatizado que utiliza agentes de IA especializados para evaluar de manera eficiente y precisa la robustez y detectar errores en agentes de GUI del mundo real, superando a enfoques existentes en precisión y costo.

Syed Yusuf Ahmed, Shiwei Feng, Chanwoo Bae, Calix Barrus Xiangyu Zhang2026-03-12💻 cs

HiFIVE: High-Fidelity Vector-Tile Reduction for Interactive Map Exploration

El artículo presenta HiFIVE, un marco de gestión de datos que aborda el problema de reducción de teselas visualmente consciente mediante una solución de dos etapas para lograr visualizaciones geoespaciales interactivas de alta fidelidad y escalables en el lado del cliente.

Tarlan Bahadori, Ahmed Eldawy2026-03-12💻 cs

Post-Quantum Entropy as a Service for Embedded Systems

Este artículo presenta un sistema de Entropía Cuántica como Servicio (QEaaS) para dispositivos embebidos que, al combinar un servidor de entropía cuántica con protocolos post-cuánticos en el cliente, logra que el intercambio de claves y la autenticación sean hasta un 63% más rápidos que las soluciones clásicas en hardware ESP32.

Javier Blanco-Romero, Yuri Melissa Garcia-Niño, Florina Almenares Mendoza, Daniel Díaz-Sánchez, Carlos García-Rubio, Celeste Campo2026-03-12💻 cs

Update-Free On-Policy Steering via Verifiers

El artículo presenta UF-OPS, un método de guiado en línea sin actualizaciones que utiliza funciones verificadoras entrenadas con datos de simulación para predecir el éxito de las acciones y ajustar la política base en tiempo de ejecución, logrando una mejora promedio del 49% en la tasa de éxito en tareas de manipulación robótica reales sin modificar los parámetros del modelo original.

Maria Attarian, Ian Vyse, Claas Voelcker, Jasper Gerigk, Evgenii Opryshko, Anas Almasri, Sumeet Singh, Yilun Du, Igor Gilitschenski2026-03-12💻 cs

Instant Runoff Voting on Graphs: Exclusion Zones and Distortion

Este artículo estudia las zonas de exclusión y la distorsión del voto de segunda vuelta instantánea (IRV) en grafos no ponderados, demostrando que la verificación y el cálculo de estas zonas son problemas tratables en polinomial para árboles mediante programación dinámica, mientras que permanecen NP-duros en grafos generales y para reglas de eliminación que satisfacen la propiedad de eliminación forzada fuerte.

Georgios Birmpas, Georgios Chionas, Efthyvoulos Drousiotis, Soodeh Habibi, Marios Mavronicolas, Paul Spirakis2026-03-12💻 cs

From Imitation to Intuition: Intrinsic Reasoning for Open-Instance Video Classification

El artículo presenta DeepIntuit, un marco que transforma la clasificación de video de instancias abiertas de la mera imitación a la intuición intrínseca mediante la alineación supervisada, la optimización de políticas grupales y una etapa de calibración intuitiva para superar las limitaciones de los modelos tradicionales ante variaciones complejas en datos del mundo real.

Ke Zhang, Xiangchen Zhao, Yunjie Tian, Jiayu Zheng, Vishal M. Patel, Di Fu2026-03-12💻 cs

SteadyTray: Learning Object Balancing Tasks in Humanoid Tray Transport via Residual Reinforcement Learning

El artículo presenta ReST-RL, un marco de aprendizaje por refuerzo jerárquico que desacopla la locomoción de la estabilización de la carga para permitir que humanoides transporten objetos inestables con alta precisión y robustez, logrando una generalización exitosa de simulación a realidad en el hardware Unitree G1.

Anlun Huang, Zhenyu Wu, Soofiyan Atar, Yuheng Zhi, Michael Yip2026-03-12💻 cs

Towards Modeling Situational Awareness Through Visual Attention in Clinical Simulations

Este estudio preliminar aplica el Análisis de Redes de Transición a datos de seguimiento ocular en simulaciones de reanimación cardiopulmonar con realidad virtual para demostrar que la atención visual de los equipos clínicos se redistribuye dinámicamente según los roles y las fases del escenario, ofreciendo una herramienta valiosa para modelar la conciencia situacional y mejorar el entrenamiento en cuidados agudos.

Haoting Gao, Kapotaksha Das, Mohamed Abouelenien, Michael Cole, James Cooke, Vitaliy Popov2026-03-12💻 cs

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

El artículo presenta PRoADS, un marco de esteganografía de audio basado en modelos de difusión que logra una seguridad probada y una alta robustez mediante la proyección de mensajes secretos en el ruido inicial y la optimización de la inversión mediante técnicas de Latent Optimization y Backward Euler, logrando una tasa de error de bits extremadamente baja del 0,15% incluso bajo compresión MP3.

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen Ren2026-03-12💻 cs

The Orthogonal Vulnerabilities of Generative AI Watermarks: A Comparative Empirical Benchmark of Spatial and Latent Provenance

Este estudio demuestra empíricamente que las marcas de agua de IA generativa en dominios espaciales y latentes poseen vulnerabilidades ortogonales y mutuamente excluyentes frente a herramientas de edición modernas, revelando la insuficiencia de los enfoques de un solo dominio y la necesidad urgente de arquitecturas criptográficas multi-dominio para garantizar la procedencia digital.

Jesse Yu, Nicholas Wei2026-03-12💻 cs

FC-4DFS: Frequency-controlled Flexible 4D Facial Expression Synthesizing

Este artículo presenta FC-4DFS, un método de síntesis de expresiones faciales 4D que utiliza una red LSTM controlada por frecuencia y una red de desplazamiento consciente de la identidad para generar secuencias flexibles, suaves y de alta calidad a partir de puntos de referencia neutros.

Xin Lu, Chuanqing Zhuang. Zhengda Lu, Yiqun Wang, Jun Xiao2026-03-12💻 cs

Fuel Gauge: Estimating Chain-of-Thought Length Ahead of Time in Large Multimodal Models

El artículo presenta "Fuel Gauge", un método pionero que estima anticipadamente la longitud del razonamiento (Chain-of-Thought) en modelos multimodales grandes mediante un parámetro oculto de "combustible", lo que permite optimizar la asignación de memoria y ajustar la longitud del razonamiento para mejorar la eficiencia y la precisión.

Yuedong Yang, Xiwen Wei, Mustafa Munir, Radu Marculescu2026-03-12💻 cs

Landmark Guided 4D Facial Expression Generation

Este artículo presenta LM-4DGAN, un modelo generativo que utiliza hitos faciales neutros, un discriminador de identidad y un mecanismo de atención cruzada para sintetizar expresiones faciales 4D robustas ante cambios de identidad.

Xin Lu, Zhengda Lu, Yiqun Wang, Jun Xiao2026-03-12💻 cs

AgentServe: Algorithm-System Co-Design for Efficient Agentic AI Serving on a Consumer-Grade GPU

El artículo presenta AgentServe, un sistema de inferencia diseñado para ejecutar múltiples agentes de IA de manera estable en una sola GPU de consumo mediante el aislamiento de fases de prellenado y decodificación, logrando mejoras significativas en la estabilidad de la latencia y el rendimiento en comparación con enfoques anteriores.

Yuning Zhang, Yan Yan, Nan Yang, Dong Yuan2026-03-12💻 cs

EmoStory: Emotion-Aware Story Generation

El artículo presenta EmoStory, un marco de dos etapas que integra planificación basada en agentes y generación consciente de regiones para crear historias visuales coherentes y consistentes en el sujeto que incorporan explícitamente direcciones emocionales, superando a los métodos actuales en precisión emocional y alineación con el prompt.

Jingyuan Yang, Rucong Chen, Hui Huang2026-03-12💻 cs

Adaptive Manipulation Potential and Haptic Estimation for Tool-Mediated Interaction

Este artículo presenta un marco de control en lazo cerrado que utiliza una variedad de equilibrio parametrizada y una estrategia híbrida de estimación háptica (haptic SLAM) para lograr una manipulación adaptativa y robusta en interacciones mediadas por herramientas, validado mediante más de 260 pruebas reales de aflojado de tornillos.

Lin Yang, Anirvan Dutta, Yuan Ji, Yanxin Zhou, Shilin Shan, Lv Chen, Etienne Burdet, Domenico Campolo2026-03-12💻 cs

S-HPLB: Efficient LLM Attention Serving via Sparsity-Aware Head Parallelism Load Balance

El artículo presenta S-HPLB, una estrategia de balanceo de carga que aprovecha la elasticidad de dispersión heterogénea pero estable entre las cabezas de atención para asignar presupuestos de dispersión adaptativos, logrando una mejora de 2.88 veces en la latencia de computación sin degradar la calidad de la inferencia.

Di Liu, Yifei Liu, Chen Chen, Zhibin Yu, Xiaoyi Fan, Quan Chen, Minyi Guo2026-03-12💻 cs

StyleGallery: Training-free and Semantic-aware Personalized Style Transfer from Arbitrary Image References

El artículo presenta StyleGallery, un marco de transferencia de estilo personalizado, sin entrenamiento y consciente del semántico que supera las limitaciones de los métodos existentes al permitir el uso de referencias arbitrarias mediante segmentación semántica adaptativa, coincidencia de regiones agrupadas y optimización guiada por energía para lograr una estilización precisa y una preservación estructural superior.

Boyu He (College of Computer Science and Technology, National University of Defense Technology), Yunfan Ye (School of Design, Hunan University), Chang Liu (College of Computer Science and Technology, National University of Defense Technology), Weishang Wu (College of Computer Science and Technology, National University of Defense Technology), Fang Liu (School of Design, Hunan University), Zhiping Cai (College of Computer Science and Technology, National University of Defense Technology)2026-03-12💻 cs

One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination

Este artículo propone un marco unificado que manipula tokens visuales mediante calibración sinérgica y causal para corregir las alucinaciones de los modelos multimodales grandes, mejorando la precisión en benchmarks como POPE sin requerir reentrenamiento y con un sobrecosto de inferencia mínimo.

Zhan Fa, Yue Duan, Jian Zhang, Lei Qi, Yinghuan Shi2026-03-12💻 cs

← Anterior Siguiente →