cs.CL artículos | Gist.Science

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

El artículo presenta ACE-Brain-0, un cerebro fundacional generalista que utiliza la inteligencia espacial como andamio universal para unificar el razonamiento espacial, la conducción autónoma y la manipulación robótica en un único modelo multimodal, logrando un alto rendimiento en 24 benchmarks mediante una nueva metodología de especialización y reconciliación.

Ziyang Gong, Zehang Luo, Anke Tang + 21 more2026-03-04💬 cs.CL

Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

El paper presenta MOSAIC, un marco de post-entrenamiento que alinea modelos de lenguaje agentes para el uso seguro de herramientas mediante la toma explícita de decisiones de seguridad y el aprendizaje por refuerzo basado en preferencias, logrando reducir significativamente los comportamientos dañinos y las fugas de privacidad sin comprometer el rendimiento en tareas benignas.

Aradhye Agarwal, Gurdit Siyan, Yash Pandya + 3 more2026-03-04💬 cs.CL

Understanding and Mitigating Dataset Corruption in LLM Steering

Este estudio demuestra que, aunque la dirección de control contrastiva en modelos de lenguaje es moderadamente robusta a la corrupción de datos, puede ser manipulada maliciosamente con una fracción significativa de ejemplos alterados, pero este riesgo se mitiga eficazmente sustituyendo el cálculo de la media por un estimador de media robusto.

Cullen Anderson, Narmeen Oozeer, Foad Namjoo + 3 more2026-03-04💬 cs.CL

Density-Guided Response Optimization: Community-Grounded Alignment via Implicit Acceptance Signals

Este trabajo presenta DGRO, un método que alinea los modelos de lenguaje con las normas de comunidades diversas mediante la optimización basada en la densidad geométrica de las respuestas aceptadas, eliminando la necesidad de etiquetas de preferencia explícitas.

Patrick Gerard, Svitlana Volkova2026-03-04💬 cs.CL

Using Learning Progressions to Guide AI Feedback for Science Learning

Este estudio demuestra que un sistema de retroalimentación generado por IA basado en progresiones de aprendizaje produce una calidad de retroalimentación comparable a la obtenida con rúbricas diseñadas por expertos, ofreciendo así una solución escalable para la educación científica.

Xin Xia, Nejla Yuruk, Yun Wang + 1 more2026-03-04💬 cs.CL

Factuality Challenges in the Era of Large Language Models

Este artículo examina los riesgos de las alucinaciones y el uso malicioso en los Modelos de Lenguaje Grandes (LLM) y propone soluciones tecnológicas, regulatorias y educativas para garantizar la veracidad de la información en la era de la inteligencia artificial generativa.

Isabelle Augenstein, Timothy Baldwin, Meeyoung Cha + 15 more2026-03-03💬 cs.CL

Using ChatGPT for Data Science Analyses

Este artículo evalúa el potencial de ChatGPT, específicamente su plugin de Análisis de Datos, como copiloto cuantitativo en flujos de trabajo de ciencia de datos, destacando sus capacidades para la exploración, visualización y modelado, al tiempo que advierte sobre sus limitaciones en el análisis empírico.

Ozan Evkaya, Miguel de Carvalho2026-03-03📊 stat

Large Language Model Agent in Financial Trading: A Survey

Esta encuesta ofrece una revisión exhaustiva de la investigación actual sobre el uso de agentes de modelos de lenguaje grandes (LLM) en el trading financiero, abarcando sus arquitecturas, datos de entrada, rendimiento en pruebas retrospectivas y los desafíos futuros del campo.

Han Ding, Yinheng Li, Junhao Wang + 3 more2026-03-03💬 cs.CL

Scaling Knowledge Graph Construction through Synthetic Data Generation and Distillation

El artículo presenta SynthKG, un pipeline de síntesis de datos que permite entrenar modelos pequeños para construir gráficos de conocimiento a nivel de documento con calidad superior a la de modelos grandes, mejorando así la recuperación y la respuesta a preguntas en sistemas RAG.

Prafulla Kumar Choubey, Xin Su, Man Luo + 9 more2026-03-03💬 cs.CL

Polynomial, trigonometric, and tropical activations

Este artículo demuestra que las funciones de activación basadas en bases ortonormales, como los polinomios de Hermite, la base trigonométrica de Fourier y una base tropicalizada, permiten entrenar modelos profundos de manera estable sin mecanismos de anclaje, ofreciendo además una interpretación polinómica de las redes y una aproximación precisa a activaciones clásicas para tareas de ajuste fino.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

AStar: Boosting Multimodal Reasoning with Automated Structured Thinking

El paper presenta AStar, un método de inferencia en tiempo de prueba libre de entrenamiento que mejora el razonamiento multimodal mediante la recuperación adaptativa de "tarjetas de pensamiento" estructuradas, logrando un rendimiento superior al de GPT-4o en tareas complejas de manera eficiente y transferible.

Jinyang Wu, Mingkuan Feng, Guocheng Zhai + 7 more2026-03-03💬 cs.CL

Enhancing Hallucination Detection through Noise Injection

Este trabajo propone un método libre de entrenamiento que mejora significativamente la detección de alucinaciones en modelos de lenguaje grande mediante la inyección de ruido en parámetros o activaciones para capturar la incertidumbre bayesiana, superando así a las técnicas de muestreo estándar.

Litian Liu, Reza Pourreza, Sunny Panchal + 4 more2026-03-03💬 cs.CL

LLM-ProS: Analyzing Large Language Models' Performance in Competitive Problem Solving

Este artículo presenta LLM-ProS, una nueva técnica de evaluación que analiza el rendimiento de modelos de lenguaje avanzados en problemas de programación competitiva del ICPC, revelando diferencias significativas en sus capacidades de razonamiento y los factores que influyen en su eficacia.

Md Sifat Hossain, Anika Tabassum, Md. Fahim Arefin + 1 more2026-03-03💬 cs.CL

Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection

Este artículo propone un marco de adaptación robusto para modelos multimodales grandes que mejora la detección de memes odiosos, logrando un rendimiento superior al estado del arte, una mayor generalización entre dominios y una mejor interpretabilidad en comparación con métodos existentes.

Jingbiao Mei, Jinghong Chen, Guangyu Yang + 2 more2026-03-03💬 cs.CL

MemeIntel: Explainable Detection of Propagandistic and Hateful Memes

Este trabajo presenta MemeIntel, un enfoque que introduce el primer dataset a gran escala con explicaciones para memes propagandísticos y de odio, y propone un método de optimización multi-etapa que mejora significativamente la detección y la generación de justificaciones en comparación con el estado del arte.

Mohamed Bayan Kmainasi, Abul Hasnat, Md Arid Hasan + 2 more2026-03-03💬 cs.CL

Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

Este artículo propone un enfoque novedoso de aprendizaje por refuerzo que ajusta finamente los modelos de lenguaje grandes para generar estimaciones de confianza calibradas junto con sus respuestas, optimizando una recompensa basada en la regla de puntuación logarítmica para alinear la confianza expresada con la precisión real y generalizar a tareas no vistas.

David Bani-Harouni, Chantal Pellegrini, Paul Stangel + 4 more2026-03-03💬 cs.CL

Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

Este estudio demuestra mediante un metaanálisis de 92 modelos que incorporar decisiones de diseño, como la composición de datos y la arquitectura, mejora significativamente la predicción del rendimiento en tareas posteriores en comparación con basarse únicamente en la escala del modelo.

Emmy Liu, Amanda Bertsch, Lintang Sutawika + 9 more2026-03-03💬 cs.CL

Large Language Models in Bioinformatics: A Survey

Esta encuesta ofrece una revisión sistemática de cómo los Modelos de Lenguaje Grande están revolucionando la bioinformática mediante el análisis avanzado de datos genómicos y proteicos, abordando al mismo tiempo sus desafíos actuales y explorando futuras direcciones hacia la medicina de precisión.

Zhenyu Wang, Zikang Wang, Jiyue Jiang + 3 more2026-03-03🧬 q-bio

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

El paper presenta LLaVE, un marco de aprendizaje contrastivo ponderado por la dificultad que entrena modelos de incrustación multimodal capaces de superar el estado del arte en múltiples tareas de recuperación y agrupamiento, logrando un rendimiento superior con modelos más pequeños y demostrando una fuerte generalización cero-shot.

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

El artículo presenta Vision-R1, un modelo de lenguaje multimodal que mejora las capacidades de razonamiento mediante el aprendizaje por refuerzo, utilizando un conjunto de datos de cadena de pensamiento generado automáticamente y una estrategia de supresión progresiva del pensamiento para alcanzar un rendimiento competitivo en benchmarks matemáticos multimodales.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

← Anterior Siguiente →