Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

Este estudio demuestra que los analistas autónomos basados en modelos de lenguaje grande pueden replicar a gran escala y bajo costo la diversidad analítica humana, generando una amplia dispersión de resultados que subraya la necesidad de un nuevo estándar de transparencia que incluya informes de estilo "multiverso" y la divulgación completa de los prompts utilizados.

Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu2026-03-12🤖 cs.AI

No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection

El paper presenta LAVIDA, un marco de detección de anomalías en video de cero disparos impulsado por modelos de lenguaje multimodal grandes (MLLM) que, al entrenarse exclusivamente con pseudo-anomalías generadas mediante un muestreador de exposición a anomalías y una compresión de tokens basada en atención inversa, logra un rendimiento de vanguardia en escenarios de mundo abierto sin necesidad de datos reales de anomalías.

Zunkai Dai, Ke Li, Jiajia Liu, Jie Yang, Yuanyuan Qiao2026-03-12🤖 cs.AI

PatchDenoiser: Parameter-efficient multi-scale patch learning and fusion denoiser for Low-dose CT imaging

El artículo presenta PatchDenoiser, un marco de desruido ligero y eficiente para imágenes de TC de baja dosis que, mediante el aprendizaje y fusión de parches multiescala, supera a los métodos basados en CNN y GAN en calidad de imagen y eficiencia computacional, preservando detalles anatómicos finos sin necesidad de ajuste fino.

Jitindra Fartiyal, Pedro Freire, Sergei K. Turitsyn, Sergei G. Solovski2026-03-12🤖 cs.AI

Adversarial Hubness Detector: Detecting Hubness Poisoning in Retrieval-Augmented Generation Systems

El artículo presenta "hubscan", un escáner de seguridad de código abierto diseñado para detectar y mitigar el envenenamiento por hubness en sistemas de Generación Aumentada por Recuperación (RAG) mediante un análisis estadístico y estructural avanzado de índices vectoriales, logrando una alta tasa de recuperación de ataques adversarios en diversos entornos y bases de datos.

Idan Habler, Vineeth Sai Narajala, Stav Koren, Amy Chang, Tiffany Saade2026-03-12🤖 cs.AI

AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation

El artículo presenta AMLRIS, una estrategia de entrenamiento simple y efectiva que mejora la segmentación de imágenes referenciadas al enmascarar dinámicamente los píxeles con baja alineación entre visión y lenguaje, logrando así resultados de vanguardia sin modificar la arquitectura ni añadir sobrecarga en la inferencia.

Tongfei Chen, Shuo Yang, Yuguang Yang, Linlin Yang, Runtang Guo, Changbai Li, He Long, Chunyu Xie, Dawei Leng, Baochang Zhang2026-03-12🤖 cs.AI

Defensive Refusal Bias: How Safety Alignment Fails Cyber Defenders

El estudio revela que la alineación de seguridad en los modelos de lenguaje grandes genera un "sesgo de rechazo defensivo", negando asistencia a tareas cibernéticas legítimas y críticas cuando contienen palabras sensibles, incluso con autorización explícita, debido a que priorizan la similitud semántica con contenido dañino sobre el análisis de la intención del usuario.

David Campbell, Neil Kale, Udari Madhushani Sehwag, Bert Herring, Nick Price, Dan Borges, Alex Levinson, Christina Q Knight2026-03-12🤖 cs.AI

CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework

Este artículo presenta CARE, un marco de agentes basado en evidencia que mejora la responsabilidad clínica y la precisión en el razonamiento médico multimodal al descomponer la tarea en módulos especializados coordinados que generan y verifican evidencia visual explícita, superando significativamente a los modelos de vanguardia en benchmarks médicos.

Yuexi Du, Jinglu Wang, Shujie Liu, Nicha C. Dvornek, Yan Lu2026-03-12🤖 cs.AI

SEED-SET: Scalable Evolving Experimental Design for System-level Ethical Testing

El artículo presenta SEED-SET, un marco de diseño experimental bayesiano que integra evaluaciones objetivas y juicios subjetivos de las partes interesadas mediante procesos gaussianos jerárquicos para realizar una prueba ética escalable y eficiente de sistemas autónomos, logrando una mayor cobertura de espacios de búsqueda y una generación superior de candidatos de prueba en comparación con los métodos existentes.

Anjali Parashar, Yingke Li, Eric Yang Yu, Fei Chen, James Neidhoefer, Devesh Upadhyay, Chuchu Fan2026-03-12📊 stat

BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation

El artículo presenta BrandFusion, un marco de trabajo multiagente que integra de forma fluida marcas en videos generados por texto, superando los desafíos de fidelidad semántica, reconocibilidad e integración contextual mediante una base de conocimientos y un proceso de refinamiento iterativo para potenciar la monetización del contenido.

Zihao Zhu, Ruotong Wang, Siwei Lyu, Min Zhang, Baoyuan Wu2026-03-12🤖 cs.AI

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Este artículo presenta la primera evaluación exhaustiva del ajuste fino eficiente en parámetros (PEFT) para el análisis de código multitarea, demostrando que un único módulo PEFT compartido puede igualar o superar al ajuste completo con una reducción drástica de costos computacionales y de almacenamiento, aunque su éxito depende críticamente de factores como la estabilidad de las tareas, la arquitectura del modelo y la calidad de los datos.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

AraModernBERT: Transtokenized Initialization and Long-Context Encoder Modeling for Arabic

Este trabajo presenta AraModernBERT, una adaptación del modelo ModernBERT al árabe que demuestra que la inicialización transtokenizada y el modelado nativo de contextos largos (hasta 8,192 tokens) son esenciales para lograr un rendimiento superior en tareas de comprensión del lenguaje natural y discriminativas.

Omar Elshehy, Omer Nacar, Abdelbasset Djamai, Muhammed Ragab, Khloud Al Jallad, Mona Abdelazim2026-03-12💬 cs.CL

Quantifying Hallucinations in Language Language Models on Medical Textbooks

Este estudio cuantifica la prevalencia de alucinaciones en modelos de lenguaje grande al responder preguntas médicas basadas en libros de texto, revelando que LLaMA-70B-Instruct alucina en casi el 20% de las respuestas a pesar de su alta plausibilidad, y que una menor tasa de alucinaciones tiende a correlacionarse con una mayor utilidad según la evaluación de clínicos.

Brandon C. Colelough, Davis Bartels, Dina Demner-Fushman2026-03-12💬 cs.CL

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

Este artículo presenta un marco que optimiza la transformación de características impulsada por modelos de lenguaje grande mediante la evolución de demostraciones en bucle cerrado y la selección de contextos diversos, superando así las limitaciones de eficiencia y diversidad de los métodos existentes para mejorar el rendimiento en tareas predictivas tabulares.

Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu2026-03-12💬 cs.CL

Causally Grounded Mechanistic Interpretability for LLMs with Faithful Natural-Language Explanations

Este artículo presenta un pipeline que vincula el análisis de circuitos causales en modelos de lenguaje con explicaciones en lenguaje natural, demostrando mediante una evaluación en la tarea de identificación de objetos indirectos que las explicaciones generadas por LLM superan a las plantillas y revelan que, aunque son suficientes, la baja comprehensividad indica la existencia de mecanismos de respaldo distribuidos.

Ajay Pravin Mahale2026-03-12💬 cs.CL

The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

El artículo presenta la Escala de Alucinación del Sistema (SHS), una herramienta ligera y centrada en el usuario inspirada en métricas psicométricas establecidas, diseñada para evaluar de forma rápida y válida la fiabilidad factual y la coherencia de los grandes modelos de lenguaje desde la perspectiva del usuario, tal como se demuestra mediante una evaluación empírica con 210 participantes.

Heimo Müller, Dominik Steiger, Markus Plass, Andreas Holzinger2026-03-12💬 cs.CL