The Malicious Technical Ecosystem: Exposing Limitations in Technical Governance of AI-Generated Non-Consensual Intimate Images of Adults

Este artículo adopta un enfoque centrado en las supervivientes para exponer cómo un "ecosistema técnico malicioso" de herramientas de código abierto y software de desnudamiento, junto con las limitaciones de los marcos de gobernanza actuales como el informe NIST AI 100-4, impiden eficazmente regular la creación de imágenes íntimas generadas por IA sin consentimiento.

Michelle L. Ding, Harini SureshMon, 09 Ma🤖 cs.AI

AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference

El artículo presenta AdAEM, un algoritmo de evaluación autoextensible que genera y adapta dinámicamente preguntas de prueba para medir con mayor precisión y diferenciación las diferencias de valores entre los grandes modelos de lenguaje, superando las limitaciones de las métricas estáticas actuales.

Jing Yao, Shitong Duan, Xiaoyuan Yi, Dongkuan Xu, Peng Zhang, Tun Lu, Ning Gu, Zhicheng Dou, Xing XieMon, 09 Ma🤖 cs.AI

Towards Autonomous Mathematics Research

El artículo presenta a Aletheia, un agente de investigación matemática autónomo que, potenciado por modelos avanzados de razonamiento y herramientas especializadas, demuestra capacidades que van desde la resolución de problemas olímpicos hasta la generación de artículos de investigación y la solución de problemas abiertos, marcando hitos significativos en la colaboración humano-IA en matemáticas.

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang LuongMon, 09 Ma🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

Este artículo examina cómo la búsqueda de un "ground truth" en la anotación de datos ignora la subjetividad humana y la diversidad cultural, proponiendo en su lugar infraestructuras pluralistas que valoren el desacuerdo como una señal esencial para construir modelos más competentes.

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque AhmedMon, 09 Ma🤖 cs.AI

Operational Agency: A Permeable Legal Fiction for Tracing Culpability in AI Systems

Este artículo propone el marco de "Agencia Operacional" y el "Gráfico de Agencia Operacional" como ficciones legales permeables que permiten rastrear y asignar la culpabilidad entre los actores humanos y las organizaciones en sistemas de IA autónomos, evaluando características operativas observables sin necesidad de otorgar personalidad jurídica a la inteligencia artificial.

Anirban Mukherjee, Hannah Hanwen ChangMon, 09 Ma💻 cs

AI Researchers' Views on Automating AI R&D and Intelligence Explosions

Un estudio de 2025 con 25 investigadores líderes revela que, aunque existe un consenso sobre el riesgo grave de automatizar la I+D en IA y la transición hacia desarrolladores autónomos, persisten profundas divisiones sobre los plazos, la viabilidad de escenarios de crecimiento explosivo y las mejores estrategias de gobernanza, con una tendencia hacia el uso interno restringido de estas capacidades avanzadas.

Severin Field, Raymond Douglas, David KruegerMon, 09 Ma💻 cs

Exploring Human-in-the-Loop Themes in AI Application Development: An Empirical Thematic Analysis

Este estudio empírico identifica cuatro temas clave sobre la gobernanza, la iteración, las restricciones operativas y la colaboración en el desarrollo de aplicaciones de IA con intervención humana, derivados del análisis de un diario retrospectivo y entrevistas con expertos, para orientar el diseño de marcos de trabajo efectivos.

Parm Suksakul, Nathan Kittichaikoonkij, Nakhin Polthai, Aung PyaeMon, 09 Ma🤖 cs.AI

Biometric-enabled Personalized Augmentative and Alternative Communications

Este estudio presenta una hoja de ruta para integrar tecnologías biométricas en sistemas de comunicación aumentativa y alternativa (AAC) personalizados, identificando mediante casos de estudio que la precisión actual de la IA en el reconocimiento de gestos y lengua de señas es insuficiente para satisfacer las demandas prácticas y sociales, y proponiendo recomendaciones para cerrar esta brecha.

S. Yanushkevich, E. Berepiki, P. Ciunkiewicz, V. Shmerko, G. Wolbring, R. GuestMon, 09 Ma💻 cs

From Risk Avoidance to User Empowerment: Reframing Safety in Generative AI for Mental Health Crises

El artículo propone un cambio de paradigma en el diseño de la IA generativa para crisis de salud mental, pasando de la evitación de riesgos a la empoderamiento del usuario, para que los chatbots actúen como puentes de apoyo que desescalen situaciones críticas y conecten a las personas con servicios de atención fiables.

Benjamin Kaveladze, Arka Ghosh, Leah Ajmani, Denae Ford, Peter M Gutierrez, Jetta E Hanson, Eugenia Kim, Keertana Namuduri, Theresa Nguyen, Ebele Okoli, Teresa Rexin, Jessica L Schleider, Hongyi Shen, Jina SuhMon, 09 Ma💻 cs

The DSA's Blind Spot: Algorithmic Audit of Advertising and Minor Profiling on TikTok

Este estudio revela que, aunque TikTok cumple formalmente con la prohibición de la Ley de Servicios Digitales de mostrar publicidad basada en perfiles a menores, el algoritmo sigue exponiéndolos a una publicidad encubierta e influidora altamente personalizada que evade la regulación debido a una definición legal demasiado estrecha de "anuncio".

Sara Solarova, Matej Mosnar, Matus Tibensky, Jan Jakubcik, Adrian Bindas, Simon Liska, Filip Hossner, Matúš Mesarčík, Ivan SrbaMon, 09 Ma🤖 cs.AI

SemFuzz: A Semantics-Aware Fuzzing Framework for Network Protocol Implementations

El artículo presenta SemFuzz, un marco de fuzzing que utiliza modelos de lenguaje grandes para extraer reglas semánticas de documentos RFC y generar casos de prueba que violan intencionalmente estas reglas, logrando así identificar vulnerabilidades semánticas profundas en implementaciones de protocolos de red que los métodos tradicionales no detectan.

Yanbang Sun, Quan Luo, Yuelin Wang, Qian Chen, Benjin Liu, Ruiqi Chen, Qing Huang, Xiaohong Li, Junjie WangMon, 09 Ma💻 cs

What are AI researchers worried about?

Un estudio de más de 4.000 investigadores de IA revela que, a diferencia de la narrativa pública dominada por riesgos existenciales, la comunidad científica prioriza preocupaciones sociotécnicas inmediatas y muestra una convergencia con la opinión pública en la evaluación de riesgos, lo que sugiere la necesidad de un diálogo colaborativo centrado en mitigar daños actuales en lugar de especular sobre amenazas futuras.

Cian O'Donovan, Sarp Gurakan, Ananya Karanam, Xiaomeng Wu, Jack StilgoeMon, 09 Ma💻 cs

Mind the Gap: Pitfalls of LLM Alignment with Asian Public Opinion

Este estudio revela que, aunque los modelos de lenguaje grandes actuales se alinean generalmente con la opinión pública en temas sociales amplios, fallan sistemáticamente en representar con precisión las perspectivas religiosas, especialmente las de grupos minoritarios en Asia, perpetuando estereotipos negativos que no se resuelven completamente con intervenciones ligeras.

Hari Shankar, Vedanta S P, Sriharini Margapuri, Debjani Mazumder, Ponnurangam Kumaraguru, Abhijnan ChakrabortyMon, 09 Ma💬 cs.CL