Artículos fundamentales

Observation of a new particle in the search for the Standard Model Higgs boson with the ATLAS detector at the LHC

El experimento ATLAS en el LHC presentó evidencia clara de la producción de una nueva partícula compatible con el bosón de Higgs del Modelo Estándar, con una masa de 126.0 GeV y una significancia estadística de 5.9 desviaciones estándar, basada en datos de colisiones protón-protón a 7 y 8 TeV.

The ATLAS Collaboration2012-07-31⚛️ hep-ex

Observation of a new boson at a mass of 125 GeV with the CMS experiment at the LHC

El experimento CMS en el LHC anunció el descubrimiento de una nueva partícula bosónica con una masa de aproximadamente 125 GeV, observada a través de un exceso significativo de eventos en varios modos de desintegración que coincide con las predicciones del bosón de Higgs del Modelo Estándar.

The CMS Collaboration2012-07-31⚛️ hep-ex

Observation of Gravitational Waves from a Binary Black Hole Merger

El 14 de septiembre de 2015, el observatorio LIGO realizó la primera detección directa de ondas gravitacionales provenientes de la fusión de un sistema binario de agujeros negros estelares, confirmando así las predicciones de la relatividad general y la existencia de tales sistemas.

The LIGO Scientific Collaboration, the Virgo Collaboration2016-02-11⚛️ gr-qc

First M87 Event Horizon Telescope Results. I. The Shadow of the Supermassive Black Hole

El Telescopio del Horizonte de Sucesos obtuvo la primera imagen directa de la sombra del agujero negro supermasivo en el centro de M87, confirmando las predicciones de la relatividad general y permitiendo calcular su masa en aproximadamente 6.500 millones de masas solares.

The Event Horizon Telescope Collaboration2019-06-26🔭 astro-ph.GA

Attention Is All You Need

El paper presenta el Transformer, una nueva arquitectura de red basada exclusivamente en mecanismos de atención que elimina las recurrencias y convoluciones, logrando resultados superiores en tareas de traducción automática y parsing con un entrenamiento más rápido y paralelizable.

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin2017-06-12💬 cs.CL

Deep Residual Learning for Image Recognition

Este paper presenta un marco de aprendizaje residual que facilita el entrenamiento de redes neuronales extremadamente profundas, logrando récords de precisión en la clasificación de imágenes de ImageNet y mejoras significativas en tareas de detección y segmentación de objetos.

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun2015-12-10👁️ cs.CV

Generative Adversarial Networks

Los autores proponen un nuevo marco para estimar modelos generativos mediante un proceso adversarial que entrena simultáneamente una red generadora y una discriminadora en un juego minimax, permitiendo la generación de muestras sin necesidad de cadenas de Markov o inferencia aproximada.

Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio2014-06-10📊 stat.ML

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

El artículo presenta BERT, un nuevo modelo de representación lingüística bidireccional pre-entrenado en texto no etiquetado que, mediante un simple ajuste fino, logra resultados de vanguardia en once tareas de procesamiento de lenguaje natural sin necesidad de modificaciones arquitectónicas específicas.

Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova2018-10-11💬 cs.CL

Denoising Diffusion Probabilistic Models

Este artículo presenta resultados de alta calidad en la síntesis de imágenes utilizando modelos de difusión probabilística, logrando puntuaciones de estado del arte en CIFAR10 y calidad comparable a ProgressiveGAN en LSUN mediante un límite variacional ponderado que conecta estos modelos con el aprendizaje de puntuación y la dinámica de Langevin.

Jonathan Ho, Ajay Jain, Pieter Abbeel2020-06-19🤖 cs.LG

Adam: A Method for Stochastic Optimization

El artículo presenta Adam, un algoritmo eficiente y fácil de implementar para la optimización estocástica basado en estimaciones adaptativas de momentos, que demuestra un rendimiento superior en problemas a gran escala y con gradientes ruidosos o dispersos, junto con un análisis teórico de su convergencia y una variante llamada AdaMax.

Diederik P. Kingma, Jimmy Ba2014-12-22🤖 cs.LG

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

El artículo presenta la Normalización por Lotes (Batch Normalization), una técnica que acelera el entrenamiento de redes neuronales profundas al normalizar las entradas de cada capa para reducir el desplazamiento de covarianza interno, lo que permite utilizar tasas de aprendizaje más altas, una inicialización menos crítica y actúa como regularizador, logrando así un rendimiento superior en la clasificación de imágenes.

Sergey Ioffe, Christian Szegedy2015-02-11🤖 cs.LG

Auto-Encoding Variational Bayes

Este artículo presenta un algoritmo de inferencia variacional estocástica que, mediante una reparametrización del límite inferior y el uso de un modelo de reconocimiento, permite realizar un aprendizaje eficiente y escalable en modelos probabilísticos dirigidos con variables latentes continuas y conjuntos de datos grandes.

Diederik P Kingma, Max Welling2013-12-20📊 stat.ML

Scaling Laws for Neural Language Models

El artículo establece leyes empíricas de escalado que demuestran que el rendimiento de los modelos de lenguaje sigue una ley de potencias en función del tamaño del modelo, el conjunto de datos y la capacidad de cómputo, revelando que la asignación óptima de recursos implica entrenar modelos muy grandes en conjuntos de datos relativamente pequeños y detener el entrenamiento antes de la convergencia completa.

Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei2020-01-23🤖 cs.LG

Improving neural networks by preventing co-adaptation of feature detectors

El artículo presenta el método de "dropout", que mejora el rendimiento de las redes neuronales en tareas de reconocimiento al prevenir el sobreajuste mediante la omisión aleatoria de detectores de características durante el entrenamiento, lo que fomenta la robustez y establece nuevos récords en benchmarks.

Geoffrey E. Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever, Ruslan R. Salakhutdinov2012-07-03💻 cs.NE

Efficient Estimation of Word Representations in Vector Space

Este artículo presenta dos nuevas arquitecturas de modelos para generar representaciones vectoriales continuas de palabras a partir de grandes conjuntos de datos, logrando mejoras significativas en precisión y eficiencia computacional en comparación con técnicas anteriores.

Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean2013-01-16💬 cs.CL