cs.CL artículos | Gist.Science

Position: Vector Prompt Interfaces Should Be Exposed to Enable Customization of Large Language Models

Este artículo de posición sostiene que los proveedores de modelos de lenguaje grandes deben exponer entradas de prompts vectoriales en sus interfaces públicas para habilitar una personalización escalable y estable, respaldando esta propuesta con evidencia de que supera a los prompts de texto y no incrementa significativamente los riesgos de seguridad en escenarios de inferencia.

Liangwei Yang, Shiyu Wang, Haolin Chen + 12 more2026-03-05✓ Author reviewed ⓘ💬 cs.CL

The Company You Keep: How LLMs Respond to Dark Triad Traits

Este estudio examina cómo los Grandes Modelos de Lenguaje (LLMs) responden a rasgos de la Tríada Oscura en las interacciones de los usuarios, revelando que, aunque predominan las respuestas correctivas, algunos modelos pueden reforzar comportamientos dañinos dependiendo de la gravedad y el modelo específico, lo que subraya la necesidad de diseñar sistemas conversacionales más seguros.

Zeyi Lu, Angelica Henestrosa, Pavel Chizhov + 1 more2026-03-05💬 cs.CL

$V_1$ : Unifying Generation and Self-Verification for Parallel Reasoners

El marco $V_1$ unifica la generación y la autoverificación mediante un ranking por pares y un entrenamiento conjunto con RL, superando significativamente a los métodos de verificación puntuales y de escalado en tiempo de prueba en tareas de razonamiento matemático y generación de código.

Harman Singh, Xiuyu Li, Kusha Sareen + 14 more2026-03-05💬 cs.CL

World Properties without World Models: Recovering Spatial and Temporal Structure from Co-occurrence Statistics in Static Word Embeddings

Este estudio demuestra que la capacidad de recuperar variables geográficas y temporales mediante sondas lineales en modelos de lenguaje no prueba necesariamente la existencia de representaciones internas complejas, ya que dicha estructura espacial y temporal ya está latente en las estadísticas de co-ocurrencia de los textos estáticos.

Elan Barenholtz2026-03-05🤖 cs.AI

AILS-NTUA at SemEval-2026 Task 12: Graph-Based Retrieval and Reflective Prompting for Abductive Event Reasoning

El sistema AILS-NTUA, ganador de la SemEval-2026 Tarea 12 con una precisión del 95 %, combina recuperación basada en grafos, razonamiento abductivo con LLM optimizado mediante evolución de prompts reflexivos y verificación de consistencia, revelando además sesgos inductivos compartidos en el razonamiento causal multietiqueta.

Nikolas Karafyllis, Maria Lymperaiou, Giorgos Filandrianos + 2 more2026-03-05💬 cs.CL

Pointer-CAD: Unifying B-Rep and Command Sequences via Pointer-based Edges & Faces Selection

El artículo presenta Pointer-CAD, un marco de generación de modelos CAD basado en LLM que unifica las representaciones B-Rep y las secuencias de comandos mediante la selección de entidades geométricas mediante punteros, logrando así una mayor precisión topológica y una reducción significativa de errores de cuantización en comparación con métodos anteriores.

Dacheng Qi, Chenyu Wang, Jingwei Xu + 6 more2026-03-05💬 cs.CL

Dual-Modality Multi-Stage Adversarial Safety Training: Robustifying Multimodal Web Agents Against Cross-Modal Attacks

El artículo propone DMAST, un marco de entrenamiento de seguridad adversarial multimodal que utiliza un juego de suma cero y un proceso de tres etapas para robustecer a los agentes web frente a ataques de inyección cruzada, logrando una mayor eficiencia en tareas y una defensa superior frente a métodos existentes.

Haoyu Liu, Dingcheng Li, Lukas Rutishauser + 1 more2026-03-05🤖 cs.AI

$τ$ -Knowledge: Evaluating Conversational Agents over Unstructured Knowledge

El artículo presenta $\tau$ -Knowledge, un nuevo marco de evaluación que extiende $\tau$ -Bench para medir el rendimiento de agentes conversacionales en entornos de conocimiento no estructurado mediante el dominio $\tau$ -Banking, donde se demuestra que incluso los modelos más avanzados tienen dificultades para integrar eficazmente la recuperación de documentos con la ejecución de herramientas en flujos de trabajo complejos.

Quan Shi, Alexandra Zytek, Pedram Razavi + 2 more2026-03-05🤖 cs.AI

TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning

El artículo presenta TaxonRL, un enfoque de aprendizaje por refuerzo que utiliza recompensas intermedias para descomponer el razonamiento visual en niveles taxonómicos jerárquicos, logrando una precisión superior a la humana y trazas de decisión interpretables en tareas de discriminación visual de especies.

Maximilian von Klinski, Maximilian Schall2026-03-05💬 cs.CL

The 2020s Political Economy of Machine Translation

Este artículo explora la hipótesis de que, aunque la traducción automática reducirá significativamente las barreras lingüísticas para el comercio y la comunicación en la década de 2020, su implementación desigual creará nuevos desafíos para la distribución de ideas, la innovación y el crecimiento económico.

Steven Weber2026-03-04💬 cs.CL

Thought Flow Nets: From Single Predictions to Trains of Model Thought

Este artículo presenta las "Redes de Flujo de Pensamiento", un método inspirado en la dialéctica hegeliana que permite a los modelos iterar y corregir sus predicciones mediante un mecanismo de autocorrección, logrando así un rendimiento superior y una percepción más natural e inteligente tanto en tareas de respuesta a preguntas como en la interacción con usuarios humanos.

Hendrik Schuff, Heike Adel, Ngoc Thang Vu2026-03-04🤖 cs.LG

VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering

El artículo presenta VQA-MHUG, un nuevo conjunto de datos de mirada humana en tareas de respuesta visual a preguntas, y demuestra que, por primera vez, una mayor correlación entre la atención textual de los modelos neuronales y la humana predice significativamente un mejor rendimiento en esta tarea.

Ekta Sood, Fabian Kögel, Florian Strohm + 2 more2026-03-04💬 cs.CL

Multimodal Integration of Human-Like Attention in Visual Question Answering

El artículo presenta MULAN, el primer método que integra la atención humana multimodal (visual y textual) en modelos de Transformer para Visual Question Answering, logrando un rendimiento de vanguardia en el conjunto de datos VQAv2 con aproximadamente un 80% menos de parámetros entrenables que trabajos anteriores.

Ekta Sood, Fabian Kögel, Philipp Müller + 3 more2026-03-04💬 cs.CL

Is Attention always needed? A Case Study on Language Identification from Speech

Este estudio presenta un modelo de identificación de lenguaje basado en redes neuronales convolutivas recurrentes (CRNN) que, al utilizar coeficientes cepstrales de frecuencia mel (MFCC), logra una precisión superior al 98% en trece idiomas indios y demuestra una alta robustez ante el ruido y escalabilidad, cuestionando la necesidad de mecanismos de atención en comparación con enfoques de última generación.

Atanu Mandal, Santanu Pal, Indranil Dutta + 2 more2026-03-04⚡ eess

Reproduction and Replication of an Adversarial Stylometry Experiment

Este artículo reproduce y replica un estudio seminal sobre la estilometría adversaria, concluyendo que, aunque se confirma la dificultad de mantener el anonimato, la efectividad de las defensas estudiadas podría estar sobreestimada debido a la falta de un grupo de control en la investigación original, y destaca que el método automático de traducción de ida y vuelta merece un nuevo examen por reducir la eficacia de las técnicas de atribución de autoría.

Haining Wang, Patrick Juola, Allen Riddell2026-03-04💬 cs.CL

Statistical Machine Translation for Indic Languages

Este artículo presenta el desarrollo y evaluación de modelos de traducción automática estadística (SMT) para traducir entre el inglés y quince lenguas indias de bajos recursos, utilizando el toolkit MOSES, conjuntos de datos como Samanantar y OPUS, y métricas estándar como BLEU, METEOR y RIBES.

Sudhansu Bala Das, Divyajoti Panda, Tapas Kumar Mishra + 1 more2026-03-04💬 cs.CL

Verifying the Robustness of Automatic Credibility Assessment

Este artículo presenta BODEGA, un marco de evaluación que demuestra cómo los cambios adversarios en el texto pueden engañar a los clasificadores de credibilidad, revelando que los modelos de lenguaje modernos son incluso más vulnerables que las soluciones anteriores.

Piotr Przybyła, Alexander Shvets, Horacio Saggion2026-03-04💬 cs.CL

Predictive Authoring for Brazilian Portuguese Augmentative and Alternative Communication

Este trabajo propone el uso del modelo BERTimbau y un corpus de AAC en portugués brasileño para predecir pictogramas en sistemas de comunicación aumentativa, demostrando que la representación mediante leyendas, sinónimos o definiciones ofrece un rendimiento similar, siendo las leyendas las que logran la mayor precisión.

Jayr Pereira, Rodrigo Nogueira, Cleber Zanchettin + 1 more2026-03-04🤖 cs.AI

Focal Inferential Infusion Coupled with Tractable Density Discrimination for Implicit Hate Detection

El artículo presenta FiADD, un nuevo marco que mejora la detección de discurso de odio implícito al alinear las formas superficiales y significativas del texto mientras aumenta la distancia entre clusters de etiquetas, logrando mejoras significativas en tareas de clasificación de odio y demostrando su generalización en la detección de sarcasmo, ironía y postura.

Sarah Masud, Ashutosh Bajpai, Tanmoy Chakraborty2026-03-04💬 cs.CL

Part-of-Speech Tagger for Bodo Language using Deep Learning approach

Este estudio presenta el primer modelo de lenguaje BodoBERT y un sistema de etiquetado gramatical (POS) basado en aprendizaje profundo que combina BodoBERT con CRF y BiLSTM, logrando un puntaje F1 de 0.8041 para la lengua baja en recursos Bodo.

Dhrubajyoti Pathak, Sanjib Narzary, Sukumar Nandi + 1 more2026-03-04🤖 cs.AI

← Anterior Siguiente →

cs.CL