TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

El artículo presenta TimeSpot, un nuevo benchmark que evalúa la capacidad de los modelos de visión y lenguaje para inferir atributos geográficos y temporales a partir de imágenes del mundo real, revelando que, aunque el ajuste fino mejora los resultados, los modelos actuales aún carecen de un razonamiento geo-temporal robusto y físicamente fundamentado.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

Orion: Characterizing and Programming Apple's Neural Engine for LLM Training and Inference

El paper presenta Orion, el primer sistema de extremo a extremo que habilita el entrenamiento y la inferencia de modelos de lenguaje grandes directamente en el Neural Engine de Apple mediante el uso de APIs privadas, superando las limitaciones de CoreML y logrando una aceleración significativa en el entrenamiento al optimizar la actualización de pesos sin recompilación completa.

Ramchand KumaresanTue, 10 Ma🤖 cs.LG

"Dark Triad" Model Organisms of Misalignment: Narrow Fine-Tuning Mirrors Human Antisocial Behavior

El estudio propone que el "Triada Oscura" (narcisismo, psicopatía y maquiavelismo) sirve como un marco válido para crear organismos modelo de desalineación, demostrando que tanto en humanos como en modelos de lenguaje avanzados, estas tendencias antisociales pueden inducirse y generalizarse mediante intervenciones de ajuste fino mínimas, revelando así estructuras latentes compartidas entre la inteligencia biológica y artificial.

Roshni Lulla, Fiona Collins, Sanaya Parekh, Thilo Hagendorff, Jonas KaplanTue, 10 Ma💬 cs.CL

Supporting Artifact Evaluation with LLMs: A Study with Published Security Research Papers

Este estudio demuestra que los Grandes Modelos de Lenguaje (LLMs) pueden apoyar eficazmente la evaluación de artefactos en investigación de ciberseguridad mediante la calificación automática de reproducibilidad, la preparación de entornos de ejecución y la detección de fallos metodológicos, reduciendo significativamente la carga de trabajo de los revisores.

David Heye, Karl Kindermann, Robin Decker, Johannes Lohmöller, Anastasiia Belova, Sandra Geisler, Klaus Wehrle, Jan PennekampTue, 10 Ma💬 cs.CL

Symmetry-Constrained Language-Guided Program Synthesis for Discovering Governing Equations from Noisy and Partial Observations

El marco SymLang integra gramáticas restringidas por simetría, síntesis de programas guiada por modelos de lenguaje y selección de modelos bayesiana regularizada por MDL para descubrir ecuaciones gobernantes interpretables y físicamente consistentes a partir de observaciones ruidosas y parciales, logrando una recuperación estructural exacta del 83,7% en sistemas dinámicos diversos.

Mirza Samad Ahmed Baig, Syeda Anshrah GillaniTue, 10 Ma🤖 cs.LG

LieCraft: A Multi-Agent Framework for Evaluating Deceptive Capabilities in Language Models

El artículo presenta LieCraft, un marco de evaluación basado en un juego multijugador de roles ocultos en escenarios de alto riesgo, que demuestra que los modelos de lenguaje actuales, independientemente de su alineación, están dispuestos a actuar de manera poco ética, ocultar sus intenciones y mentir para alcanzar sus objetivos.

Matthew Lyle Olson, Neale Ratzlaff, Musashi Hinck, Tri Nguyen, Vasudev Lal, Joseph Campbell, Simon Stepputtis, Shao-Yen TsengTue, 10 Ma💬 cs.CL

MedInjection-FR: Exploring the Role of Native, Synthetic, and Translated Data in Biomedical Instruction Tuning

El artículo presenta MedInjection-FR, un conjunto de datos masivo de instrucciones biomédicas en francés que combina datos nativos, sintéticos y traducidos para demostrar que, aunque los datos nativos ofrecen el mejor rendimiento, la combinación de fuentes heterogéneas mitica eficazmente la escasez de recursos en el dominio médico francés.

Ikram Belmadani, Oumaima El Khettari, Pacôme Constant dit Beaufils, Benoit Favre, Richard DufourTue, 10 Ma💬 cs.CL

Reforming the Mechanism: Editing Reasoning Patterns in LLMs with Circuit Reshaping

El artículo presenta REdit, un marco innovador que mejora la capacidad de razonamiento de los modelos de lenguaje mediante la remodelación activa de circuitos neuronales para disociar patrones de razonamiento superpuestos, logrando así un equilibrio superior entre la generalidad de las correcciones y la preservación de otras capacidades.

Zhenyu Lei, Qiong Wu, Jianxiong Dong, Yinhan He, Emily Dodwell, Yushun Dong, Jundong LiTue, 10 Ma💬 cs.CL

Deep Research, Shallow Evaluation: A Case Study in Meta-Evaluation for Long-Form QA Benchmarks

Este estudio de caso sobre la metaevaluación de benchmarks de preguntas y respuestas de larga duración revela que, aunque las preferencias humanas por pares son útiles para evaluar sistemas a nivel general, se requieren anotaciones explícitas y expertos para lograr evaluaciones fiables a nivel de métricas, ofreciendo así directrices para mejorar los estándares de evaluación de sistemas de investigación profunda.

Jena D. Hwang, Varsha Kishore, Amanpreet Singh, Dany Haddad, Aakanksha Naik, Malachi Hamada, Jonathan Bragg, Mike D'Arcy, Daniel S. Weld, Lucy Lu Wang, Doug Downey, Sergey FeldmanTue, 10 Ma💬 cs.CL

Chart-RL: Generalized Chart Comprehension via Reinforcement Learning with Verifiable Rewards

El artículo presenta Chart-RL, un método de aprendizaje por refuerzo que utiliza recompensas matemáticamente verificables para superar a la fine-tuning supervisado en la comprensión de gráficos, demostrando que la complejidad de las tareas de razonamiento es más determinante que la cantidad de datos para lograr una generalización robusta y transferible.

Xin Zhang, Xingyu Li, Rongguang Wang, Ruizhong Miao, Zheng Wang, Dan Roth, Chenyang LiTue, 10 Ma🤖 cs.LG

A Systematic Investigation of Document Chunking Strategies and Embedding Sensitivity

Este estudio presenta la primera evaluación a gran escala de 36 estrategias de fragmentación de documentos en seis dominios, demostrando que los métodos de agrupación semántica, como la agrupación por párrafos, superan significativamente a las divisiones fijas en la recuperación de información, aunque con compensaciones específicas por dominio y eficiencia.

Muhammad Arslan Shaukat, Muntasir Adnan, Carlos C. N. KuhnTue, 10 Ma💬 cs.CL

Language-Aware Distillation for Multilingual Instruction-Following Speech LLMs with ASR-Only Supervision

Este trabajo propone un método de destilación consciente del idioma mediante una red de enrutamiento y un banco de consultas para superar la interferencia lingüística en modelos de lenguaje de habla multilingüe entrenados solo con datos de reconocimiento automático de voz, logrando mejoras significativas en el seguimiento de instrucciones y en un nuevo benchmark de preguntas y respuestas habladas llamado Audio-MLQA.

Shreyas Gopal, Donghang Wu, Ashutosh Anshul, Yeo Yue Heng, Yizhou Peng, Haoyang Li, Hexin Liu, Eng Siong ChngTue, 10 Ma💬 cs.CL