cs.AI artículos | Gist.Science

Exploring Semantic Labeling Strategies for Third-Party Cybersecurity Risk Assessment Questionnaires

Este artículo propone y evalúa una estrategia de etiquetado semántico híbrido y semi-supervisado que utiliza modelos de lenguaje grande y clustering para organizar cuestionarios de evaluación de riesgos de terceros, demostrando que este enfoque mejora la recuperación de preguntas relevantes y reduce significativamente los costos computacionales en comparación con los métodos tradicionales basados en palabras clave.

Ali Nour Eldin, Mohamed Sellami, Walid Gaaloul + 1 more2026-03-05🤖 cs.AI

Improving Medical Visual Reinforcement Fine-Tuning via Perception and Reasoning Augmentation

Este trabajo presenta VRFT-Aug, un marco de ajuste fino por refuerzo visual diseñado para el dominio médico que, mediante estrategias de inyección de conocimiento previo, refinamiento de políticas y recompensas informadas, mejora significativamente tanto la percepción visual como el razonamiento estructurado en comparación con los métodos tradicionales.

Guangjing Yang, ZhangYuan Yu, Ziyuan Qin + 7 more2026-03-05🤖 cs.AI

To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks

Este estudio demuestra que los Modelos de Razonamiento Avanzado no superan consistentemente a los modelos estándar en tareas de Teoría de la Mente debido a fallos en el pensamiento lento y a la dependencia de atajos de opción múltiple, lo que indica que se necesitan capacidades únicas más allá de los métodos de razonamiento actuales para lograr una comprensión social robusta.

Nanxu Gong, Haotian Li, Sixun Dong + 3 more2026-03-05🤖 cs.AI

Chimera: Neuro-Symbolic Attention Primitives for Trustworthy Dataplane Intelligence

El artículo presenta Chimera, un marco neuro-simbólico que integra aproximaciones de atención linealizadas y restricciones simbólicas en los primitivos de las líneas de datos programables para lograr inferencia de tráfico de alta fidelidad, predecible y a velocidad de línea bajo estrictas limitaciones de hardware.

Rong Fu, Xiaowen Ma, Kun Liu + 9 more2026-03-05🤖 cs.AI

Overcoming the Combinatorial Bottleneck in Symmetry-Driven Crystal Structure Prediction

Los autores proponen un marco generativo impulsado por la simetría que combina modelos de lenguaje grandes y una búsqueda heurística de haz de complejidad lineal para predecir estructuras cristalinas novedosas y físicamente válidas directamente a partir de la composición química, superando así los cuellos de botella combinatorios y la dependencia de bases de datos existentes.

Shi Yin, Jinming Mu, Xudong Zhu + 1 more2026-03-05🔬 cond-mat.mtrl-sci

JPmHC Dynamical Isometry via Orthogonal Hyper-Connections

El artículo presenta JPmHC, un marco de hiper-conexiones que garantiza la isometría dinámica y la estabilidad del entrenamiento mediante la restricción de mezcladores lineales en variedades ortogonales, ofreciendo un análisis espectral teórico y mejoras empíricas en convergencia y eficiencia computacional.

Biswa Sengupta, Jinhua Wang, Leo Brunswic2026-03-05🤖 cs.AI

From Agent-Only Social Networks to Autonomous Scientific Research: Lessons from OpenClaw and Moltbook, and the Architecture of ClawdLab and Beach.Science

Basándose en las lecciones de OpenClaw y Moltbook, este estudio presenta ClawdLab y Beach.science como plataformas de arquitectura de tercer nivel que habilitan la investigación científica autónoma mediante la combinación de gobernanza rigurosa, verificación de evidencia y sistemas descentralizados para superar las limitaciones actuales de los entornos de IA.

Lukas Weidener, Marko Brkić, Phillip Lee + 3 more2026-03-05🤖 cs.AI

Learning Physical Principles from Interaction: Self-Evolving Planning via Test-Time Memory

El artículo presenta PhysMem, un marco de memoria que permite a los planificadores de robots basados en modelos visuales-lingüísticos aprender principios físicos mediante la interacción en tiempo de prueba mediante la generación y verificación de hipótesis antes de su aplicación, mejorando significativamente el éxito en tareas de manipulación sin actualizar los parámetros del modelo.

Haoyang Li, Yang You, Hao Su + 1 more2026-03-05🤖 cs.AI

Maximin Share Guarantees via Limited Cost-Sensitive Sharing

Este artículo demuestra que permitir el reparto limitado y costoso de bienes indivisibles garantiza la existencia de asignaciones de maximin share exactas o aproximadas, introduce la noción de Maximin Share Compartido (SMMS) y establece sus límites teóricos y conexiones con otras nociones de equidad.

Hana Salavcova, Martin Černý, Arpita Biswas2026-03-05🤖 cs.AI

Dynamic Adversarial Reinforcement Learning for Robust Multimodal Large Language Models

El artículo presenta AOT-SFT y AOT, un marco de entrenamiento auto-jugado que utiliza un generador de ataques de edición de imágenes para crear un currículo dinámico de datos adversarios, mejorando significativamente la robustez perceptual y reduciendo las alucinaciones en los Modelos de Lenguaje Grandes Multimodales.

Yicheng Bao, Xuhong Wang, Qiaosheng Zhang + 3 more2026-03-05🤖 cs.AI

Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models

El artículo propone SCR (Redistribución de Crédito Espacial), un método de inferencia sin entrenamiento que mitiga las alucinaciones en modelos de visión y lenguaje al corregir el colapso espacial de la atención mediante la redistribución de estados ocultos entre parches vecinos, logrando una reducción significativa de errores en múltiples benchmarks sin comprometer la calidad de generación ni la latencia.

Niamul Hassan Samin, Md Arifur Rahman, Abdullah Ibne Hanif Arean + 2 more2026-03-05🤖 cs.AI

AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications

El artículo presenta AMA-Bench, un nuevo marco de evaluación para la memoria a largo plazo de agentes de IA basado en interacciones reales y sintéticas, y propone AMA-Agent, un sistema que supera a los existentes mediante un gráfico de causalidad y recuperación aumentada por herramientas.

Yujie Zhao, Boqin Yuan, Junbo Huang + 9 more2026-03-05🤖 cs.AI

Causal Identification from Counterfactual Data: Completeness and Bounding Results

Este artículo presenta el algoritmo CTFIDU+ para identificar consultas contrafactuales a partir de distribuciones de datos de nivel 3, demostrando su completitud, estableciendo los límites teóricos de la inferencia causal no paramétrica y derivando nuevos límites analíticos para cantidades no identificables que se ven reforzados mediante datos contrafactuales realizables.

Arvind Raghavan, Elias Bareinboim2026-03-05🤖 cs.AI

Test Case Prioritization: A Snowballing Literature Review and TCPFramework with Approach Combinators

Este artículo presenta una revisión bibliográfica de tipo bola de nieve sobre la priorización de casos de prueba (TCP), introduce un nuevo marco de trabajo y métodos combinadores que superan a los enfoques base y ofrecen un rendimiento comparable al estado del arte, logrando reducir el tiempo de las pruebas de regresión hasta en un 2,7%.

Tomasz Chojnacki, Lech Madeyski2026-03-05🤖 cs.AI

GENAI WORKBENCH: AI-Assisted Analysis and Synthesis of Engineering Systems from Multimodal Engineering Data

Este artículo presenta el marco conceptual del GenAI Workbench, un entorno de ingeniería de sistemas basado en modelos que integra principios de ingeniería de sistemas en el flujo de trabajo de diseño mediante una plataforma PLM de código abierto y modelos de visión-lingüística para extraer requisitos y generar arquitecturas de sistema a partir de datos multimodales.

H. Sinan Bank, Daniel R. Herber2026-03-05🤖 cs.AI

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Este artículo presenta CMI-RewardBench, un ecosistema integral que incluye un nuevo benchmark, conjuntos de datos de preferencias y modelos de recompensa eficientes para evaluar y alinear modelos de generación musical con instrucciones multimodales compuestas.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

Este estudio demuestra que, para el despliegue de IA clínica en entornos de bajos recursos, los modelos de código abierto pequeños como Llama 3.2 ofrecen el mejor equilibrio entre precisión y consistencia, advirtiendo que una alta consistencia no garantiza la corrección y que el entrenamiento específico en el dominio sin ajuste de instrucciones es insuficiente para tareas de respuesta clínica estructurada.

Shravani Hariprasad2026-03-05🤖 cs.AI

The Sentience Readiness Index: A Preliminary Framework for Measuring National Preparedness for the Possibility of Artificial Sentience

Este artículo presenta el Índice de Preparación para la Sentiencia (SRI), un marco preliminar que evalúa la preparación de 31 jurisdicciones nacionales ante la posibilidad de que la IA alcance la sentiencia, revelando que ninguna sociedad posee actualmente la infraestructura institucional, profesional o cultural adecuada para responder a este desafío, ya que el Reino Unido lidera con una puntuación de solo 49/100.

Tony Rost2026-03-05🤖 cs.AI

Extracting Training Dialogue Data from Large Language Model based Task Bots

Este trabajo presenta un estudio cuantitativo sistemático que revela cómo los modelos de lenguaje grande en sistemas de diálogo orientados a tareas pueden memorizar datos de entrenamiento privados, proponiendo y validando nuevas técnicas de ataque para extraer información sensible y ofreciendo estrategias de mitigación.

Shuo Zhang, Junzhou Zhao, Junji Hou + 3 more2026-03-05🤖 cs.AI

Agentic Code Reasoning

Este artículo presenta el "razonamiento semiformal", una metodología estructurada que permite a los agentes de IA analizar la semántica del código sin ejecutarlo, mejorando significativamente la precisión en tareas como la verificación de parches, la localización de fallos y la respuesta a preguntas sobre código.

Shubham Ugare, Satish Chandra2026-03-05🤖 cs.AI

← Anterior Siguiente →