Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

Este artículo propone un nuevo método basado en modelos de difusión para la segmentación de instancias camufladas de vocabulario abierto (OVCIS), que fusiona características visuales y textuales para superar los desafíos de la segmentación de objetos ocultos y permitir la detección de clases no vistas previamente, con aplicaciones en vigilancia y monitoreo de vida silvestre.

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph

Esta investigación propone un sistema innovador que integra Modelos de Lenguaje Grandes (LLM) con el Grafo de Conocimiento Académico de la ANU y un modelo de documentos profundos para procesar consultas semánticas complejas sobre la producción científica en ciencias de la computación, logrando una mayor precisión y eficiencia en la recuperación de información que los métodos tradicionales.

Runsong Jia, Bowen Zhang, Sergio J. Rodríguez Méndez + 1 more2026-03-05🤖 cs.AI

Manipulating language models' training data to study syntactic constraint learning: the case of English passivization

Este estudio demuestra que los modelos de lenguaje neuronal aprenden las restricciones de la pasivización en inglés mediante la manipulación de sus datos de entrenamiento, revelando que tanto la frecuencia (entrenchment) como la semántica (afectación) contribuyen de forma independiente a la adquisición de estas excepciones gramaticales.

Cara Su-Yi Leong, Tal Linzen2026-03-05💬 cs.CL

Preference Leakage: A Contamination Problem in LLM-as-a-judge

Este trabajo identifica y demuestra empíricamente la "fuga de preferencias", un problema de contaminación en el que los modelos de lenguaje grandes (LLMs) utilizados como jueces muestran un sesgo sistemático hacia los modelos generadores de datos sintéticos con los que comparten origen o familia, lo que compromete la integridad de la evaluación y el entrenamiento de modelos.

Dawei Li, Renliang Sun, Yue Huang + 6 more2026-03-05🤖 cs.AI

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Este artículo presenta PubHealthBench, un nuevo conjunto de datos con más de 8000 preguntas derivadas de la información de salud pública del gobierno del Reino Unido, que revela que aunque los modelos de lenguaje más avanzados superan a los humanos en pruebas de opción múltiple, su rendimiento disminuye significativamente en respuestas de texto libre, lo que subraya la necesidad de salvaguardas adicionales para su uso seguro en este ámbito.

Joshua Harris, Fan Grayson, Felix Feldman + 8 more2026-03-05🤖 cs.LG

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

El artículo presenta MoB, un nuevo método de poda de tokens visuales basado en la teoría de recubrimiento que reformula el problema como un caso de cobertura bi-objetivo para equilibrar dinámicamente la alineación con el prompt y la preservación visual, logrando así una reducción significativa de tokens con pérdidas de rendimiento mínimas en modelos multimodales avanzados.

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning

El artículo presenta R1-Code-Interpreter, un modelo de lenguaje entrenado mediante ajuste fino supervisado y aprendizaje por refuerzo multi-etapa que, al utilizar un enfoque de aprendizaje curricular para gestionar tareas heterogéneas, logra superar a modelos avanzados como GPT-4o en precisión y demostrar comportamientos emergentes de autoverificación mediante la ejecución autónoma de código.

Yongchao Chen, Yueying Liu, Junwei Zhou + 5 more2026-03-05🤖 cs.AI

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

Este artículo propone Supervised Calibration (SC), un marco unificado basado en la minimización de pérdidas que supera las limitaciones de los métodos de calibración actuales en el aprendizaje en contexto (ICL) al aprender transformaciones afines óptimas que pueden alterar la orientación de los límites de decisión de los LLM, logrando así un rendimiento superior en múltiples conjuntos de datos y modelos.

Korel Gundem, Juncheng Dong, Dennis Zhang + 2 more2026-03-05🤖 cs.AI

Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models

Este trabajo diagnostica cómo los modelos de preferencia en lenguaje desarrollan sesgos idiosincráticos al priorizar características superficiales sobre la calidad sustantiva debido a artefactos en los datos de entrenamiento, y propone una técnica de aumento de datos con contrafactuales que reduce significativamente la mala calibración y el sesgo sin comprometer el rendimiento general.

Anirudh Bharadwaj, Chaitanya Malaviya, Nitish Joshi + 1 more2026-03-05💬 cs.CL

CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering

El artículo presenta CounselBench, un marco de evaluación a gran escala desarrollado con 100 profesionales de la salud mental que utiliza evaluaciones expertas y un conjunto de datos adversarios para identificar deficiencias críticas, como riesgos de seguridad y falta de personalización, en las respuestas de los modelos de lenguaje grande a preguntas reales de pacientes.

Yahan Li, Jifan Yao, John Bosco S. Bunyi + 3 more2026-03-05💬 cs.CL

Context Biasing for Pronunciation-Orthography Mismatch in Automatic Speech Recognition

El artículo propone un método de sesgo de contexto que utiliza correcciones de sustitución realizadas por el usuario durante la inferencia para resolver discrepancias entre pronunciación y ortografía en sistemas de reconocimiento automático de voz, logrando una mejora significativa en la precisión de palabras sesgadas sin afectar el rendimiento general.

Christian Huber, Alexander Waibel2026-03-05🤖 cs.LG