cs.AI artículos | Gist.Science

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

El artículo "The Reasoning Trap" advierte que las mejoras en el razonamiento lógico de los modelos de lenguaje podrían desencadenar inadvertidamente una conciencia situacional peligrosa mediante mecanismos de inferencia deductiva, reconocimiento inductivo y modelado abductivo, proponiendo a su vez nuevos marcos de seguridad para mitigar este riesgo.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-11🤖 cs.AI

Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents

El artículo presenta \textsc{EvalAct}, un marco que transforma la evaluación de la calidad de la recuperación en una acción explícita y utiliza el método de optimización PCAR para mejorar el razonamiento multi-paso de los agentes aumentados por recuperación, logrando así un rendimiento superior en tareas de preguntas y respuestas de dominio abierto.

Jiangming Shu, Yuxiang Zhang, Ye Ma, Xueyuan Lin, Jitao Sang2026-03-11🤖 cs.AI

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

Este trabajo demuestra que el tono emocional es un factor latente que altera la geometría de la atención en los modelos de lenguaje, proponiendo el dataset AURA-QA y un marco de regularización emocional que mejora la comprensión lectora y el rendimiento en tareas de preguntas y respuestas bajo diversas distribuciones.

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry Heck2026-03-11🤖 cs.AI

Abundant Intelligence and Deficient Demand: A Macro-Financial Stress Test of Rapid AI Adoption

El artículo formaliza una prueba de estrés macrofinanciero que advierte que la adopción rápida de la IA podría desencadenar una crisis explosiva debido a un desajuste entre la abundancia generada y la demanda deficiente, impulsado por un espiral de desplazamiento laboral, una caída en la velocidad del dinero y el colapso de los márgenes de intermediación.

Xupeng Chen2026-03-11🤖 cs.AI

PrivPRISM: Automatically Detecting Discrepancies Between Google Play Data Safety Declarations and Developer Privacy Policies

El estudio presenta PrivPRISM, un marco automatizado que utiliza modelos de lenguaje para detectar discrepancias entre las declaraciones de seguridad de datos de Google Play y las políticas de privacidad, revelando que más de la mitad de las aplicaciones analizadas incumplen la consistencia regulatoria y subestiman significativamente el acceso a datos sensibles.

Bhanuka Silva, Dishanika Denipitiyage, Anirban Mahanti, Aruna Seneviratne, Suranga Seneviratne2026-03-11🤖 cs.AI

Embodied Human Simulation for Quantitative Design and Analysis of Interactive Robotics

Este trabajo presenta un marco de simulación escalable basado en un modelo musculoesquelético completo y controlado por aprendizaje por refuerzo que permite el análisis cuantitativo y la co-optimización simultánea del diseño mecánico y la política de control en la interacción física humano-robot, facilitando la evaluación de métricas biomecánicas internas como las fuerzas musculares.

Chenhui Zuo, Jinhao Xu, Michael Qian Vergnolle, Yanan Sui2026-03-11🤖 cs.AI

Cognitively Layered Data Synthesis for Domain Adaptation of LLMs to Space Situational Awareness

Este trabajo presenta BD-FDG, un marco de generación de datos de ajuste fino basado en la taxonomía de Bloom que, al organizar el conocimiento y modelar preguntas en niveles cognitivos, permite construir un dataset de 230.000 muestras para adaptar modelos LLM al dominio de la Conciencia Situacional Espacial, logrando mejoras significativas en rendimiento sin sacrificar capacidades generales.

Ding Linghu, Cheng Wang, Da Fan, Wei Shi, Kaifeng Yin, Xiaoliang Xue, Fan Yang, Haiyi Ren, Cong Zhang2026-03-11🤖 cs.AI

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

El artículo presenta BridgeDiff, un marco basado en difusión que supera las limitaciones de los métodos anteriores para la síntesis de prendas planas en el intento virtual de ropa al unir explícitamente las observaciones humanas con la estructura de la prenda mediante módulos de puente de condición y restricciones estructurales, logrando así un rendimiento superior en benchmarks estándar.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu Liu2026-03-11🤖 cs.AI

Social-R1: Towards Human-like Social Reasoning in LLMs

El artículo presenta Social-R1, un marco de aprendizaje por refuerzo que, junto con el nuevo benchmark adversarial ToMBench-Hard, permite a modelos de lenguaje pequeños desarrollar una inteligencia social humana mediante la alineación del proceso de razonamiento y el uso de casos de entrenamiento desafiantes, superando así a modelos mucho más grandes en diversas pruebas.

Jincenzi Wu, Yuxuan Lei, Jianxun Lian, Yitian Huang, Lexin Zhou, Haotian Li, Xing Xie, Helen Meng2026-03-11🤖 cs.AI

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Este estudio presenta un enfoque de múltiples modelos basado en redes neuronales preentrenadas y personalizadas, junto con técnicas de aumento de datos y aprendizaje por transferencia, para mejorar la detección de señales de tráfico, vehículos y carriles, así como la clonación de comportamiento, con el fin de aumentar la robustez y fiabilidad de los sistemas de conducción autónoma.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun Mukherjee2026-03-11🤖 cs.AI

Logos: An evolvable reasoning engine for rational molecular design

El artículo presenta Logos, un modelo de razonamiento molecular compacto que combina lógica multi-paso con estricta consistencia química mediante un entrenamiento escalonado, logrando alta precisión y validez en el diseño de moléculas mientras ofrece transparencia interpretable para la investigación científica.

Haibin Wen, Zhe Zhao, Fanfu Wang, Tianyi Xu, Hao Zhang, Chao Yang, Ye Wei2026-03-11🤖 cs.AI

DendroNN: Dendrocentric Neural Networks for Energy-Efficient Classification of Event-Based Data

El artículo presenta DendroNN, una red neuronal bioinspirada que utiliza mecanismos de detección de secuencias en dendritas y un proceso de reconfiguración sin gradientes para clasificar datos basados en eventos con alta eficiencia energética, superando a las arquitecturas neuromórficas actuales en tareas de series temporales.

Jann Krausse, Zhe Su, Kyrus Mama, Maryada, Klaus Knobloch, Giacomo Indiveri, Jürgen Becker2026-03-11🤖 cs.AI

DenoiseSplat: Feed-Forward Gaussian Splatting for Noisy 3D Scene Reconstruction

El artículo presenta DenoiseSplat, un método de proyección gaussiana 3D de alimentación directa que supera a enfoques existentes en la reconstrucción de escenas ruidosas mediante el uso de un nuevo conjunto de datos de referencia ruidoso-limpio y un entrenamiento supervisado únicamente con renderizados 2D limpios.

Fuzhen Jiang, Zhuoran Li, Yinlin Zhang2026-03-11🤖 cs.AI

Rescaling Confidence: What Scale Design Reveals About LLM Metacognition

El estudio demuestra que el diseño de la escala de confianza verbalizada en los modelos de lenguaje (LLM) no es neutral y que utilizar un rango de 0 a 20 mejora significativamente la eficiencia metacognitiva en comparación con el formato estándar de 0 a 100, el cual sufre de una fuerte discretización hacia números redondos.

Yuyang Dai2026-03-11🤖 cs.AI

Curveball Steering: The Right Direction To Steer Isn't Always Linear

Este artículo propone "Curveball steering", un método de dirección no lineal basado en el análisis de la geometría intrínseca de los espacios de activación de los modelos de lenguaje, que supera a las técnicas lineales tradicionales al abordar las distorsiones geométricas que limitan la consistencia de las intervenciones globales.

Shivam Raval, Hae Jin Song, Linlin Wu, Abir Harrasse, Jeff Phillips, Amirali Abdullah2026-03-11🤖 cs.AI

CLoE: Expert Consistency Learning for Missing Modality Segmentation

El artículo presenta CLoE, un marco de aprendizaje de consistencia que mejora la segmentación de imágenes médicas multimodales con modalidades faltantes al controlar la concordancia entre expertos a nivel de decisión y región, asignando pesos de fiabilidad dinámicos para lograr una fusión robusta y generalizable.

Xinyu Tong, Meihua Zhou, Bowu Fan, Haitao Li2026-03-11🤖 cs.AI

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

Este artículo presenta SpaceSense-Bench, un nuevo benchmark de percepción espacial a gran escala y multimodal que ofrece datos sintéticos de alta fidelidad con anotaciones precisas para superar las limitaciones de los conjuntos de datos existentes y mejorar la navegación relativa y el entendimiento semántico de satélites.

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue Wan2026-03-11🤖 cs.AI

Reading the Mood Behind Words: Integrating Prosody-Derived Emotional Context into Socially Responsive VR Agents

Este estudio presenta un pipeline de interacción para agentes conversacionales en realidad virtual que integra la emoción vocal inferida en tiempo real como contexto explícito en un modelo de lenguaje, logrando mejoras significativas en la naturalidad, el compromiso y la preferencia de los usuarios en comparación con los sistemas basados únicamente en texto.

SangYeop Jeong, Yeongseo Na, Seung Gyu Jeong, Jin-Woo Jeong, Seong-Eun Kim2026-03-11🤖 cs.AI

TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control

El artículo presenta TimberAgent, un sistema de recuperación guiado por gramáticas que utiliza representaciones de textura basadas en matrices de Gram (TRR) para cerrar la brecha semántica entre la intención perceptual del usuario y los parámetros de efectos de audio editables, demostrando mediante un benchmark y estudios perceptuales que este enfoque minimiza el error de parámetros en comparación con métodos existentes.

Shihao He, Yihan Xia, Fang Liu, Taotao Wang, Shengli Zhang2026-03-11🤖 cs.AI

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Este artículo presenta STAR, un nuevo marco de evaluación multiagente que demuestra que la inteligencia estratégica en entornos competitivos y dinámicos depende no solo de la profundidad del razonamiento, sino también de la capacidad de ejecutar planes de manera oportuna, revelando una brecha significativa entre el rendimiento en escenarios por turnos y en tiempo real.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao Zhu2026-03-11🤖 cs.AI

← Anterior Siguiente →