cs.AI artículos | Gist.Science

PoultryLeX-Net: Domain-Adaptive Dual-Stream Transformer Architecture for Large-Scale Poultry Stakeholder Modeling

El estudio presenta PoultryLeX-Net, una arquitectura de transformador dual con adaptación de dominio y enriquecimiento léxico que supera a los modelos existentes al lograr una precisión del 97,35% en el análisis de sentimientos y la identificación de temas en discursos sobre la industria avícola en redes sociales.

Stephen Afrifa, Biswash Khatiwada, Kapalik Khanal, Sanjay Shah, Lingjuan Wang-Li, Ramesh Bahadur Bist2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

Este artículo presenta TAMUSA-Chat, un marco de investigación para desarrollar sistemas conversacionales de modelos de lenguaje grandes adaptados a contextos institucionales mediante técnicas de ajuste fino y generación aumentada por recuperación, priorizando la transparencia, el cumplimiento normativo y las prácticas de IA responsable.

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models

Este artículo presenta CEI, un nuevo conjunto de datos de 300 escenarios validados por humanos diseñado para evaluar la capacidad de los modelos de lenguaje para realizar inferencias pragmáticas complejas en diversos contextos sociales y relaciones de poder.

Jon Chun, Hannah Sussman, Adrian Mangine, Murathan Kocaman, Kirill Sidorko, Abhigya Koirala, Andre McCloud, Gwen Eisenbeis, Wisdom Akanwe, Moustapha Gassama, Eliezer Gonzalez Chirinos, Anne-Duncan Enright, Peter Dunson, Tiffanie Ng, Anna von Rosenstiel, Godwin Idowu2026-03-12💬 cs.CL

Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

El estudio revela que, aunque los grandes modelos de lenguaje desarrollan representaciones internas compuestas de adjetivos y sustantivos, existe una divergencia notable entre estas representaciones y su capacidad para traducirlas consistentemente en éxito funcional en tareas, lo que subraya la necesidad de evaluaciones contrastivas para comprender mejor sus capacidades.

Ruchira Dhar, Qiwei Peng, Anders Søgaard2026-03-12💬 cs.CL

Context Over Compute Human-in-the-Loop Outperforms Iterative Chain-of-Thought Prompting in Interview Answer Quality

Este estudio demuestra que, en la evaluación y mejora de respuestas para entrevistas conductuales, el enfoque de "humano en el bucle" supera a la optimización iterativa mediante cadenas de pensamiento automatizadas al lograr mejoras significativas en autenticidad y confianza con menos iteraciones, revelando que la limitación principal reside en la disponibilidad de contexto y no en los recursos computacionales.

Kewen Zhu, Zixi Liu, Yanjing Li2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Este estudio evalúa la robustez y seguridad pedagógica de modelos de lenguaje offline en la educación del idioma turco, demostrando mediante una suite de anomalías que los modelos de 8B a 14B parámetros ofrecen el mejor equilibrio entre costo y seguridad, ya que la resistencia a anomalías no depende únicamente de la escala del modelo.

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

Este estudio clínico demuestra que la percepción de pérdida de empatía en las nuevas generaciones de modelos de OpenAI no se debe a un cambio en la empatía real, que permanece estadísticamente invariable, sino a una mayor detección de crisis y una postura de seguridad más estricta que altera la dinámica conversacional, especialmente en situaciones de riesgo.

Michael Keeman, Anastasia Keeman2026-03-12💬 cs.CL

Automated evaluation of LLMs for effective machine translation of Mandarin Chinese to English

Este artículo presenta un marco de aprendizaje automático para evaluar la traducción del chino mandarín al inglés mediante LLMs como GPT-4o y DeepSeek, revelando que, aunque estos modelos superan en noticias, aún enfrentan desafíos significativos al preservar matices culturales y referencias literarias en textos complejos.

Yue Zhang, Rodney Beard, John Hawkins, Rohitash Chandra2026-03-12💬 cs.CL

A Retrieval-Augmented Language Assistant for Unmanned Aircraft Safety Assessment and Regulatory Compliance

Este artículo presenta y valida un asistente basado en recuperación de información que utiliza exclusivamente fuentes regulatorias autorizadas para apoyar la evaluación de seguridad, la certificación y el cumplimiento normativo de los sistemas de aeronaves no tripuladas, garantizando la trazabilidad y la responsabilidad humana mediante la generación de respuestas fundamentadas en citas y evitando inferencias no verificadas.

Gabriele Immordino, Andrea Vaiuso, Marcello Righi2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Este trabajo presenta la creación de LatamQA, un conjunto de datos de más de 26.000 preguntas y respuestas en español y portugués derivadas de Wikipedia y Wikidata, para evaluar y revelar sesgos socioculturales y geográficos en los modelos de lenguaje grande hacia las diversas culturas de América Latina.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

El artículo presenta SpreadsheetArena, una plataforma de evaluación mediante comparaciones ciegas que revela que, aunque los modelos de lenguaje avanzados generan hojas de cálculo, a menudo no se alinean consistentemente con las mejores prácticas específicas de dominios como las finanzas debido a la variabilidad de criterios de preferencia.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition

El artículo presenta SENS-ASR, un enfoque que mejora la calidad de la transcripción en sistemas de reconocimiento automático de voz en streaming mediante la inyección de información semántica extraída de embeddings pasados y refinada mediante destilación de conocimiento, logrando así una reducción significativa de la tasa de error de palabras en escenarios de baja latencia.

Youness Dkhissi (LIUM), Valentin Vielzeuf (LIUM), Elys Allesiardo (LIUM), Anthony Larcher (LIUM)2026-03-12💬 cs.CL

GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification

Este artículo demuestra que los codificadores bidireccionales especializados, como AraBERTv2 con estrategias de agrupación híbridas, superan significativamente a los decodificadores causales en la clasificación de texto médico árabe de 82 clases, debido a su capacidad para capturar mejor los límites semánticos globales necesarios para esta tarea.

Ahmed Khaled Khamis2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

Este artículo presenta P-GRPO, un marco de alineación novedoso que supera las limitaciones de los métodos estándar al decouplar la estimación de ventajas de las estadísticas del lote inmediato y normalizarlas según historiales específicos de grupos de preferencia, logrando así una convergencia más rápida y una alineación efectiva con señales de preferencias heterogéneas en modelos de lenguaje grandes.

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

FERRET: Framework for Expansion Reliant Red Teaming

El documento presenta FERRET, un marco automatizado de red teaming que utiliza expansiones horizontales, verticales y meta para generar conversaciones adversarias multimodales más efectivas y superar a los enfoques existentes.

Ninareh Mehrabi, Vitor Albiero, Maya Pavlova, Joanna Bitton2026-03-12💬 cs.CL

Measuring and Eliminating Refusals in Military Large Language Models

Este artículo presenta un nuevo conjunto de datos de referencia creado por militares para medir las tasas de rechazo en modelos de lenguaje grandes aplicados al ámbito bélico, demuestra que los modelos actuales rechazan injustificadamente hasta el 98,2% de las consultas legítimas y evalúa técnicas de eliminación de estas restricciones que, aunque aumentan drásticamente la tasa de respuestas, conllevan una ligera disminución en el rendimiento general de tareas militares.

Jack FitzGerald, Dylan Bates, Aristotelis Lazaridis, Aman Sharma, Vincent Lu, Brian King, Yousif Azami, Sean Bailey, Jeremy Cao, Peter Damianov, Kevin de Haan, Joseph Madigan, Jeremy McLaurin, Luke Kerbs, Jonathan Tainer, Dave Anderson, Jonathan Beck, Jamie Cuticello, Colton Malkerson, Tyler Saltsman2026-03-12💬 cs.CL

Assessing Cognitive Biases in LLMs for Judicial Decision Support: Virtuous Victim and Halo Effects

Este estudio evalúa si cinco modelos de lenguaje grandes (LLMs) exhiben sesgos cognitivos humanos, como el efecto de víctima virtuosa y el efecto halo, al asistir en sentencias judiciales, encontrando que aunque muestran variaciones y limitaciones para su uso inmediato, presentan mejoras modestas respecto a los benchmarks humanos en la reducción de ciertos prejuicios.

Sierra S. Liu2026-03-12💻 cs

DeliberationBench: A Normative Benchmark for the Influence of Large Language Models on Users' Views

El artículo presenta DeliberationBench, una nueva métrica normativa que evalúa la influencia de los modelos de lenguaje grandes (LLM) en las opiniones de los usuarios comparándola con encuestas deliberativas democráticas, y demuestra mediante un experimento que estos modelos generan cambios de opinión sustanciales y epistémicamente deseables.

Luke Hewitt, Maximilian Kroner Dale, Paul de Font-Reaulx2026-03-12💻 cs

Prompts and Prayers: the Rise of GPTheology

Este artículo examina el surgimiento de la "GPTheología" como una forma de tecnorreligión en la que la inteligencia artificial es tratada como un oráculo divino, analizando cómo las narrativas comunitarias y las interacciones rituales con modelos de lenguaje reflejan conceptos religiosos tradicionales y plantean desafíos éticos y sociotécnicos sobre la relación entre la humanidad y sus creaciones.

Ioana Cheres, Adrian Groza, Ioana Moldovan, Mick O'Hara, Connell Vaughan2026-03-12💻 cs

Defining AI Models and AI Systems: A Framework to Resolve the Boundary Problem

Este artículo propone definiciones conceptuales y operativas claras para distinguir entre "modelos de IA" y "sistemas de IA", con el objetivo de resolver las ambigüedades actuales que dificultan la asignación de responsabilidades y obligaciones en la cadena de valor de la inteligencia artificial bajo marcos regulatorios como la Ley de IA de la UE.

Yuanyuan Sun, Timothy Parker, Lara Gierschmann, Sana Shams, Teo Canmetin, Mathieu Duteil, Rokas Gipiškis, Ze Shen Chin2026-03-12🤖 cs.AI

← Anterior Siguiente →