cs.AI artículos | Gist.Science

Logos: An evolvable reasoning engine for rational molecular design

El artículo presenta Logos, un modelo de razonamiento molecular compacto que combina lógica multi-paso con estricta consistencia química mediante un entrenamiento escalonado, logrando alta precisión y validez en el diseño de moléculas mientras ofrece transparencia interpretable para la investigación científica.

Haibin Wen, Zhe Zhao, Fanfu Wang, Tianyi Xu, Hao Zhang, Chao Yang, Ye WeiWed, 11 Ma🤖 cs.AI

DendroNN: Dendrocentric Neural Networks for Energy-Efficient Classification of Event-Based Data

El artículo presenta DendroNN, una red neuronal bioinspirada que utiliza mecanismos de detección de secuencias en dendritas y un proceso de reconfiguración sin gradientes para clasificar datos basados en eventos con alta eficiencia energética, superando a las arquitecturas neuromórficas actuales en tareas de series temporales.

Jann Krausse, Zhe Su, Kyrus Mama, Maryada, Klaus Knobloch, Giacomo Indiveri, Jürgen BeckerWed, 11 Ma🤖 cs.AI

DenoiseSplat: Feed-Forward Gaussian Splatting for Noisy 3D Scene Reconstruction

El artículo presenta DenoiseSplat, un método de proyección gaussiana 3D de alimentación directa que supera a enfoques existentes en la reconstrucción de escenas ruidosas mediante el uso de un nuevo conjunto de datos de referencia ruidoso-limpio y un entrenamiento supervisado únicamente con renderizados 2D limpios.

Fuzhen Jiang, Zhuoran Li, Yinlin ZhangWed, 11 Ma🤖 cs.AI

Rescaling Confidence: What Scale Design Reveals About LLM Metacognition

El estudio demuestra que el diseño de la escala de confianza verbalizada en los modelos de lenguaje (LLM) no es neutral y que utilizar un rango de 0 a 20 mejora significativamente la eficiencia metacognitiva en comparación con el formato estándar de 0 a 100, el cual sufre de una fuerte discretización hacia números redondos.

Yuyang DaiWed, 11 Ma🤖 cs.AI

Curveball Steering: The Right Direction To Steer Isn't Always Linear

Este artículo propone "Curveball steering", un método de dirección no lineal basado en el análisis de la geometría intrínseca de los espacios de activación de los modelos de lenguaje, que supera a las técnicas lineales tradicionales al abordar las distorsiones geométricas que limitan la consistencia de las intervenciones globales.

Shivam Raval, Hae Jin Song, Linlin Wu, Abir Harrasse, Jeff Phillips, Amirali AbdullahWed, 11 Ma🤖 cs.AI

CLoE: Expert Consistency Learning for Missing Modality Segmentation

El artículo presenta CLoE, un marco de aprendizaje de consistencia que mejora la segmentación de imágenes médicas multimodales con modalidades faltantes al controlar la concordancia entre expertos a nivel de decisión y región, asignando pesos de fiabilidad dinámicos para lograr una fusión robusta y generalizable.

Xinyu Tong, Meihua Zhou, Bowu Fan, Haitao LiWed, 11 Ma🤖 cs.AI

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

Este artículo presenta SpaceSense-Bench, un nuevo benchmark de percepción espacial a gran escala y multimodal que ofrece datos sintéticos de alta fidelidad con anotaciones precisas para superar las limitaciones de los conjuntos de datos existentes y mejorar la navegación relativa y el entendimiento semántico de satélites.

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue WanWed, 11 Ma🤖 cs.AI

Reading the Mood Behind Words: Integrating Prosody-Derived Emotional Context into Socially Responsive VR Agents

Este estudio presenta un pipeline de interacción para agentes conversacionales en realidad virtual que integra la emoción vocal inferida en tiempo real como contexto explícito en un modelo de lenguaje, logrando mejoras significativas en la naturalidad, el compromiso y la preferencia de los usuarios en comparación con los sistemas basados únicamente en texto.

SangYeop Jeong, Yeongseo Na, Seung Gyu Jeong, Jin-Woo Jeong, Seong-Eun KimWed, 11 Ma🤖 cs.AI

TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control

El artículo presenta TimberAgent, un sistema de recuperación guiado por gramáticas que utiliza representaciones de textura basadas en matrices de Gram (TRR) para cerrar la brecha semántica entre la intención perceptual del usuario y los parámetros de efectos de audio editables, demostrando mediante un benchmark y estudios perceptuales que este enfoque minimiza el error de parámetros en comparación con métodos existentes.

Shihao He, Yihan Xia, Fang Liu, Taotao Wang, Shengli ZhangWed, 11 Ma🤖 cs.AI

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Este artículo presenta STAR, un nuevo marco de evaluación multiagente que demuestra que la inteligencia estratégica en entornos competitivos y dinámicos depende no solo de la profundidad del razonamiento, sino también de la capacidad de ejecutar planes de manera oportuna, revelando una brecha significativa entre el rendimiento en escenarios por turnos y en tiempo real.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao ZhuWed, 11 Ma🤖 cs.AI

TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

El artículo presenta TaSR-RAG, un marco de razonamiento estructurado guiado por taxonomía que mejora la recuperación de información en sistemas RAG al descomponer consultas complejas en subconsultas de triples relacionales, logrando así un rendimiento superior en preguntas de múltiples saltos sin necesidad de construir grafos costosos.

Jiashuo Sun, Yixuan Xie, Jimeng Shi, Shaowen Wang, Jiawei HanWed, 11 Ma🤖 cs.AI

Robust Regularized Policy Iteration under Transition Uncertainty

Este artículo presenta la Iteración de Política Regularizada Robusta (RRPI), un enfoque de aprendizaje por refuerzo fuera de línea que aborda la incertidumbre en las transiciones mediante la optimización de políticas frente a dinámicas adversas dentro de un conjunto de incertidumbre, logrando mejoras teóricas y un rendimiento superior en benchmarks como D4RL al evitar acciones fuera de distribución.

Hongqiang Lin, Zhenghui Fu, Weihao Tang, Pengfei Wang, Yiding Sun, Qixian Huang, Dongxu ZhangWed, 11 Ma🤖 cs.AI

TA-GGAD: Testing-time Adaptive Graph Model for Generalist Graph Anomaly Detection

El artículo presenta TA-GGAD, un modelo gráfico adaptativo de tiempo de prueba que aborda el problema de la disortividad de anomalías ( $\mathcal{AD}$ ) para lograr una detección generalista de anomalías con alto rendimiento en múltiples dominios tras una única fase de entrenamiento.

Xiong Zhang, Hong Peng, Changlong Fu, Xin Jin, Yun Yang, Cheng XieWed, 11 Ma🤖 cs.AI

Democratising Clinical AI through Dataset Condensation for Classical Clinical Models

Este artículo presenta un marco de optimización de orden cero con privacidad diferencial que extiende la condensación de datos a modelos clínicos no diferenciables, permitiendo compartir conjuntos de datos sintéticos compactos que preservan la utilidad predictiva sin exponer información sensible de los pacientes.

Anshul Thakur, Soheila Molaei, Pafue Christy Nganjimi, Joshua Fieggen, Andrew A. S. Soltan, Danielle Belgrave, Lei Clifton, David A. CliftonWed, 11 Ma🤖 cs.AI

M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

El artículo presenta M3GCLR, un marco de aprendizaje contrastivo basado en teoría de juegos que aborda las limitaciones de los métodos existentes mediante un modelo de juego infinito de datos esqueléticos y un optimizador de equilibrio dual, logrando un rendimiento superior en la reconocimiento de acciones basado en esqueletos.

Yanshan Li, Ke Ma, Miaomiao Wei, Linhui DaiWed, 11 Ma🤖 cs.AI

MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification

El artículo presenta MIL-PF, un marco escalable que combina codificadores de modelos fundacionales congelados con un cabezal de aprendizaje de múltiples instancias ligero para lograr un rendimiento de clasificación de mamografías de vanguardia de manera eficiente, evitando el costoso ajuste fino de modelos completos.

Nikola Jovišic, Milica Škipina, Nicola Dall'Asen, Dubravko CulibrkWed, 11 Ma🤖 cs.AI

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

SPAARS es un marco de aprendizaje curricular para el aprendizaje por refuerzo offline-a-online que mejora la seguridad y la eficiencia de las muestras al explorar inicialmente en un espacio latente de baja dimensión y luego transferir el control al espacio de acciones crudo, superando así las limitaciones de rendimiento de los métodos basados en decodificadores.

Swaminathan S K, Aritra HazraWed, 11 Ma🤖 cs.AI

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

El artículo presenta el modelo Pulse-Train-Resonator (PTR), una arquitectura de síntesis diferenciable que utiliza inductores físicos para generar sonidos de motor mediante trenes de pulsos y resonadores Karplus-Strong, logrando una reconstrucción armónica superior y parámetros interpretables en comparación con los métodos basales.

Robin Doerfler, Lonce WyseWed, 11 Ma🤖 cs.AI

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

El informe presenta el desafío ICDAR 2025 sobre traducción automática de imágenes de documentos, que reunió a 69 equipos para evaluar sistemas end-to-end en dos pistas (con y sin OCR) y concluye que los enfoques de modelos grandes establecen un nuevo paradigma prometedor para la traducción de documentos con diseños complejos.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing ZongWed, 11 Ma🤖 cs.AI

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

Este artículo presenta el modelo de difusión totalmente convolucional (FCDM), una arquitectura basada en ConvNeXt que demuestra ser una alternativa altamente eficiente y competitiva a los modelos basados en transformadores, logrando un rendimiento comparable con la mitad de las operaciones de punto flotante, menos pasos de entrenamiento y la capacidad de entrenarse en sistemas de solo 4 GPUs.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius AzevedoWed, 11 Ma🤖 cs.AI

← Anterior Siguiente →