cs.CL artículos | Gist.Science

Emotion Collider: Dual Hyperbolic Mirror Manifolds for Sentiment Recovery via Anti Emotion Reflection

El artículo presenta EC-Net, un marco de hipergrafos hiperbólicos que utiliza incrustaciones en la bola de Poincaré y aprendizaje contrastivo para mejorar la recuperación de sentimientos y la comprensión multimodal de emociones, logrando mayor precisión y robustez ante ruido o datos faltantes.

Rong Fu, Ziming Wang, Shuo Yin, Haiyun Wei, Kun Liu, Xianda Li, Zeli Su, Simon FongTue, 10 Ma🤖 cs.LG

ModalImmune: Immunity Driven Unlearning via Self Destructive Training

El artículo presenta ModalImmune, un marco de entrenamiento que fortalece la inmunidad de los sistemas multimodales ante la pérdida o corrupción de canales de entrada mediante el colapso controlado de información modal durante el entrenamiento, logrando así representaciones conjuntas más robustas sin comprometer la estabilidad de la convergencia ni la capacidad de reconstrucción.

Rong Fu, Jia Yee Tan, Zijian Zhang, Ziming Wang, Zhaolu Kang, Muge Qi, Shuning Zhang, Simon FongTue, 10 Ma🤖 cs.LG

Condition-Gated Reasoning for Context-Dependent Biomedical Question Answering

Este artículo presenta CondMedQA, el primer benchmark para preguntas biomedicas condicionales, y propone el marco de Razonamiento con Puertas de Condición (CGR), que mejora la precisión en la respuesta a preguntas médicas al adaptar el conocimiento a factores específicos del paciente mediante grafos de conocimiento conscientes de las condiciones.

Jash Rajesh Parekh, Wonbin Kweon, Joey Chan, Rezarta Islamaj, Robert Leaman, Pengcheng Jiang, Chih-Hsuan Wei, Zhizheng Wang, Zhiyong Lu, Jiawei HanTue, 10 Ma💬 cs.CL

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

El artículo presenta MrBERT, una familia de codificadores multilingües modernos optimizados mediante adaptación de vocabulario, dominio y dimensión que logran resultados de vanguardia en tareas específicas de catalán y español, así como en dominios especializados como el biomédico y legal, al tiempo que incorporan aprendizaje de representaciones matryoshka para reducir costos de inferencia y almacenamiento.

Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta VillegasTue, 10 Ma🤖 cs.LG

CeRA: Breaking the Linear Ceiling of Low-Rank Adaptation via Manifold Expansion

El artículo presenta CeRA, un adaptador paralelo que supera las limitaciones lineales de LoRA en tareas de razonamiento complejo mediante la expansión de variedades y el uso de puertas SiLU, logrando una eficiencia espectral superior y evitando el colapso de rango.

Hung-Hsuan ChenTue, 10 Ma🤖 cs.LG

KVSlimmer: Theoretical Insights and Practical Optimizations for Asymmetric KV Merging

El artículo presenta KVSlimmer, un algoritmo eficiente y sin gradientes que, fundamentado en un marco teórico sobre la distribución espectral de los pesos, optimiza la fusión asimétrica de la caché KV para mejorar el rendimiento de los modelos de lenguaje grandes mientras reduce significativamente los costos de memoria y la latencia.

Lianjun Liu, Hongli An, Weiqi Yan, Xin Du, Shengchuan Zhang, Huazhong Liu, Yunshan ZhongTue, 10 Ma💬 cs.CL

Conformal Prediction for Risk-Controlled Medical Entity Extraction Across Clinical Domains

Este artículo presenta un marco de predicción conforme que garantiza una cobertura segura para la extracción de entidades médicas mediante modelos de lenguaje grande, demostrando que la calibración de la confianza varía según el dominio clínico y requiriendo umbrales específicos para lograr una fiabilidad del 90% en etiquetas de la FDA y reportes de radiología.

Manil Shrestha, Edward KimTue, 10 Ma💬 cs.CL

CyclicJudge: Mitigating Judge Bias Efficiently in LLM-based Evaluation

El artículo presenta CyclicJudge, una estrategia de asignación rotativa de jueces que elimina sistemáticamente los sesgos en la evaluación de modelos de lenguaje sin incrementar los costos computacionales, garantizando rankings más fiables mediante una descomposición de la varianza de las puntuaciones.

Ziyi Zhu, Olivier Tieleman, Alexey Bukhtiyarov, Jinghong ChenTue, 10 Ma💬 cs.CL

PrivMedChat: End-to-End Differentially Private RLHF for Medical Dialogue Systems

El artículo presenta PrivMedChat, un marco integral de aprendizaje por refuerzo con retroalimentación humana (RLHF) con privacidad diferencial diseñado para sistemas de diálogo médico que protege la información sensible mediante técnicas de privacidad en todas las etapas de entrenamiento y una estrategia de construcción de preferencias sin anotación clínica.

Sudip BhujelTue, 10 Ma💬 cs.CL

No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models

El estudio demuestra que el método de detección de contaminación basado en la distribución de salidas (CDD) es ineficaz en modelos de lenguaje pequeños, ya que su rendimiento es aleatorio en la mayoría de los casos y es superado consistentemente por métodos basados en probabilidad como la perplejidad y Min-k% Prob.

Omer Sela (Tel Aviv University)Tue, 10 Ma💬 cs.CL

vLLM Hook v0: A Plug-in for Programming Model Internals on vLLM

El artículo presenta vLLM Hook, un complemento de código abierto que habilita la programación de estados internos en modelos vLLM mediante modos pasivo y activo, permitiendo aplicaciones como la detección de inyección de prompts, la mejora de RAG y la orientación de activaciones.

Ching-Yun Ko, Pin-Yu ChenTue, 10 Ma🤖 cs.LG

ARC-AGI-2 Technical Report

Este informe técnico presenta un sistema basado en transformadores que mejora el rendimiento en ARC-AGI al combinar codificación eficiente de tareas, aumentos basados en simetrías, adaptación en tiempo de prueba mediante LoRA y un proceso de puntuación consciente de la simetría para lograr una generalización cercana al nivel humano.

Wallyson Lemes de Oliveira, Mekhron Bobokhonov, Matteo Caorsi, Aldo Podestà, Gabriele Beltramo, Luca Crosato, Matteo Bonotto, Federica Cecchetto, Hadrien Espic, Dan Titus Salajan, Stefan Taga, Luca Pana, Joe CarthyTue, 10 Ma💬 cs.CL

How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective

Este trabajo identifica el mecanismo "P0 Sink Circuit", que permite a los modelos de lenguaje grandes reconocer la posición cero y generar un "sumidero de atención" sin información semántica, sugiriendo además que su evolución temprana durante el entrenamiento podría servir como indicador para rastrear la convergencia del preentrenamiento.

Runyu Peng, Ruixiao Li, Mingshu Chen, Yunhua Zhou, Qipeng Guo, Xipeng QiuTue, 10 Ma🤖 cs.LG

Hierarchical Latent Structures in Data Generation Process Unify Mechanistic Phenomena across Scale

Este trabajo demuestra que las estructuras jerárquicas en el proceso de generación de datos, modeladas mediante gramáticas context-free probabilísticas, actúan como el factor unificador que explica la emergencia de fenómenos mecanísticos diversos en los modelos de lenguaje, ofreciendo además corpora sintéticos eficientes para futuras investigaciones en interpretabilidad.

Jonas Rohweder, Subhabrata Dutta, Iryna GurevychTue, 10 Ma🤖 cs.LG

Hierarchical Embedding Fusion for Retrieval-Augmented Code Generation

El artículo presenta Hierarchical Embedding Fusion (HEF), un enfoque de dos etapas que comprime representaciones de repositorios en una jerarquía de vectores densos para generar tokens pseudo-entrenados, logrando una precisión comparable a los métodos basados en fragmentos de código con una latencia significativamente reducida en la generación de código asistida por recuperación.

Nikita Sorokin, Ivan Sedykh, Valentin MalykhTue, 10 Ma🤖 cs.LG

A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness

Este artículo demuestra que los marcos de evaluación "LLM como juez" fallan en medir de forma fiable la robustez adversarial debido a cambios de distribución que degradan su rendimiento hasta niveles aleatorios, revelando que muchas supuestas vulnerabilidades son en realidad artefactos de las insuficiencias del juez, y propone nuevos benchmarks para abordar este problema.

Leo Schwinn, Moritz Ladenburger, Tim Beyer, Mehrnaz Mofakhami, Gauthier Gidel, Stephan GünnemannTue, 10 Ma💬 cs.CL

Rethinking Personalization in Large Language Models at the Token Level

El artículo presenta PerContrast y la función de pérdida PerCE, un enfoque de entrenamiento que identifica y prioriza dinámicamente los tokens más relevantes para la personalización en modelos de lenguaje grandes, logrando mejoras significativas en el rendimiento con un costo computacional mínimo.

Chenheng Zhang, Yijun Lu, Lizhe Fang, Chunyuan Zheng, Jiajun Chai, Xiaohan Wang, Guojun Yin, Wei Lin, Yisen Wang, Zhouchen LinTue, 10 Ma💬 cs.CL

Know When You're Wrong: Aligning Confidence with Correctness for LLM Error Detection

Este artículo presenta un marco de puntuación de confianza normalizada y autoevaluación que permite detectar errores en modelos de lenguaje grandes, revelando que el ajuste fino supervisado mejora la calibración de la confianza mientras que los métodos de aprendizaje por refuerzo la degradan, y propone una solución de distilación para restaurar la fiabilidad en modelos entrenados con RL.

Xie Xiaohu, Liu Xiaohu, Yao BenjaminTue, 10 Ma🤖 cs.LG

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

El artículo presenta GraphSkill, un marco de codificación guiado por agentes que mejora el razonamiento sobre grafos complejos mediante una recuperación jerárquica de documentación técnica y un agente de autodepuración que utiliza casos de prueba generados automáticamente, todo ello respaldado por un nuevo dataset de evaluación.

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang WangTue, 10 Ma🤖 cs.LG

SR-TTT: Surprisal-Aware Residual Test-Time Training

El artículo presenta SR-TTT, un enfoque que mejora los modelos de entrenamiento en tiempo de prueba (TTT) al integrar un mecanismo de memoria residual esparsa y controlada por la pérdida para almacenar tokens altamente sorprendentes, resolviendo así las fallas de recuerdo catastróficas en tareas de recuperación exacta mientras se mantiene una eficiencia de memoria O(1).

Swamynathan V PTue, 10 Ma🤖 cs.LG

← Anterior Siguiente →