cs.AI artículos | Gist.Science

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

El artículo presenta ConLID, un enfoque novedoso de aprendizaje contrastivo supervisado que mejora significativamente la identificación de idiomas para lenguas de recursos escasos en datos fuera del dominio, manteniendo al mismo tiempo el rendimiento en lenguas de recursos abundantes.

Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine BosselutWed, 11 Ma🤖 cs.AI

OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

El artículo presenta OPENXRD, un marco de referencia integral que evalúa la capacidad de modelos de lenguaje grandes y multimodales para integrar información contextual en preguntas de difracción de rayos X, revelando que los modelos de tamaño medio se benefician más de este contexto y que la calidad experta del material supera a la generada por IA.

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz AbdolrahimWed, 11 Ma🤖 cs.AI

On the mechanical creation of mathematical concepts

El paper propone un modelo de resolución de problemas matemáticos como un ciclo de actualización de creencias donde la creación de conceptos explícitos, distinta de la formación implícita que dominan las IA actuales, constituye el paso fundamental del descubrimiento matemático al introducir nuevos movimientos inexpressibles en el lenguaje existente.

Asvin GWed, 11 Ma🤖 cs.AI

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

El artículo presenta "Latent Policy Steering" (LPS), un enfoque que mejora las políticas visuomotoras en regímenes de pocos datos mediante el preentrenamiento de un modelo de mundo con representaciones de acción agnósticas al cuerpo (como el flujo óptico) y su posterior ajuste fino para guiar la selección de acciones, logrando mejoras significativas tanto en simulación como en robots reales.

Yiqi Wang, Mrinal Verghese, Jeff SchneiderWed, 11 Ma🤖 cs.AI

MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs

El artículo presenta MMGraphRAG, un enfoque innovador que integra gráficos de escena visuales con grafos de conocimiento textuales mediante la técnica SpecLink y el nuevo conjunto de datos CMEL para superar las alucinaciones de los modelos de lenguaje y lograr un razonamiento multimodal interpretable y de vanguardia.

Xueyao Wan, Hang YuWed, 11 Ma🤖 cs.AI

Debiasing International Attitudes: LLM Agents for Simulating US-China Perception Changes

Este estudio presenta un marco de agentes LLM para simular la evolución de las actitudes de los ciudadanos estadounidenses hacia China entre 2005 y 2025, demostrando que un agente "abogado del diablo" es la estrategia más efectiva para mitigar los sesgos derivados del encuadre mediático y generar opiniones más objetivas y similares a las humanas.

Nicholas Sukiennik, Yichuan Xu, Yuqing Kan, Jinghua Piao, Yuwei Yan, Chen Gao, Yong LiWed, 11 Ma🤖 cs.AI

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

Este artículo presenta SFDA-PFT, un método eficiente de adaptación de dominio sin fuente que utiliza una traducción de características en el espacio latente para personalizar modelos de reconocimiento de expresiones faciales utilizando únicamente datos de expresiones neutras del objetivo, evitando así la generación de imágenes y preservando la privacidad.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric GrangerWed, 11 Ma🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

El artículo presenta EgoCross, un nuevo benchmark diseñado para evaluar la generalización de modelos de lenguaje grandes multimodales en preguntas y respuestas sobre videos egocéntricos a través de dominios diversos y desafiantes más allá de las actividades cotidianas, revelando las limitaciones actuales de estos modelos y explorando estrategias para mejorar su adaptabilidad.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling WangWed, 11 Ma🤖 cs.AI

Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment

Este artículo propone y evalúa un enfoque innovador que utiliza avatares virtuales y música generada por IA para transformar los sílabos tradicionales en presentaciones cantadas, logrando así mejorar significativamente la atención, la retención y el recuerdo de la información clave por parte de los estudiantes.

Xinxing WuWed, 11 Ma🤖 cs.AI

TaoSR1: The Thinking Model for E-commerce Relevance Search

El paper presenta TaoSR1, un marco innovador que despliega directamente modelos de lenguaje grandes con razonamiento paso a paso para la búsqueda en comercio electrónico, superando las limitaciones de los modelos tradicionales mediante un entrenamiento en tres etapas que combina ajuste fino, optimización de preferencias y muestreo dinámico para lograr un rendimiento superior tanto en pruebas offline como en evaluaciones humanas en línea.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo ZhengWed, 11 Ma🤖 cs.AI

Computational Multi-Agents Society Experiments: Social Modeling Framework Based on Generative Agents

Este artículo presenta CMASE, un marco de experimentación computacional que integra agentes generativos y métodos etnográficos virtuales para permitir que los investigadores se inserten como participantes activos en entornos sociales simulados, logrando así una modelización intervencionista que combina rigor estadístico con profundidad interpretativa y poder explicativo causal.

Hanzhong Zhang, Muhua Huang, Jindong WangWed, 11 Ma🤖 cs.AI

VistaWise: Building Cost-Effective Agent with Cross-Modal Knowledge Graph for Minecraft

El artículo presenta VistaWise, un agente de Minecraft rentable que integra un grafo de conocimiento multimodal y un modelo de detección de objetos especializado para reducir drásticamente la necesidad de datos de entrenamiento y lograr un rendimiento superior en tareas de mundo abierto.

Honghao Fu, Junlong Ren, Qi Chai, Deheng Ye, Yujun Cai, Hao WangWed, 11 Ma🤖 cs.AI

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

El artículo presenta SEER, un marco auto-optimizador que comprime adaptativamente el razonamiento de cadena de pensamiento en modelos de lenguaje grandes para reducir costos computacionales y truncamientos sin sacrificar la precisión, demostrando su eficacia en tareas de ingeniería de software y matemáticas.

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin XiaWed, 11 Ma🤖 cs.AI

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

El artículo presenta VSSFlow, un marco unificado basado en flujo-matching que integra la generación de sonido y habla condicionada por video mediante un mecanismo de agregación de condiciones disociado, demostrando que el aprendizaje conjunto supera a los modelos especializados sin degradar el rendimiento.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

El artículo presenta VoiceBridge, un modelo de puente latente de un solo paso que utiliza un autoencoder variacional que preserva la energía y un prior neuronal conjunto para restaurar de manera eficiente y general el habla de alta calidad a partir de diversas distorsiones sin necesidad de destilación.

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

El artículo presenta v-HUB, un nuevo benchmark de comprensión del humor en videos que utiliza clips no verbales y anotaciones ricas para evaluar modelos de lenguaje multimodal, demostrando que la integración de pistas auditivas mejora significativamente la capacidad de los modelos para entender el humor visual.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong ZhengWed, 11 Ma🤖 cs.AI

Latent Speech-Text Transformer

El artículo presenta el Transformer de Voz-Texto Latente (LST), un modelo que agrupa los tokens de voz en parches latentes para equilibrar la granularidad con el texto y mejorar la eficiencia computacional, logrando así un rendimiento superior tanto en tareas de voz como de texto en comparación con los modelos autoregresivos tradicionales.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

El artículo presenta AlphaApollo, un sistema de razonamiento agéntico que aborda las limitaciones en la resolución de problemas complejos y la evolución durante la inferencia mediante la orquestación de interacciones multi-turno, aprendizaje por refuerzo y un ciclo de evolución con verificación asistida por herramientas, logrando mejoras significativas en diversos benchmarks matemáticos.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

El artículo presenta NavSpace, un nuevo benchmark diseñado para evaluar sistemáticamente la inteligencia espacial de los agentes de navegación, y propone SNav, un modelo que supera a los existentes tanto en este benchmark como en pruebas con robots reales.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI

RECODE: Reasoning Through Code Generation for Visual Question Answering

El artículo presenta RECODE, un marco agéntico que mejora el razonamiento visual en modelos multimodales al transformar la percepción de imágenes estructuradas en código ejecutable verificable mediante un proceso de generación, selección y refinamiento iterativo, logrando así un rendimiento superior en benchmarks como CharXiv y ChartQA.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza FathiWed, 11 Ma🤖 cs.AI

← Anterior Siguiente →