Artigos marcantes | Gist.Science

Observation of a new particle in the search for the Standard Model Higgs boson with the ATLAS detector at the LHC

O artigo relata a observação de uma nova partícula com massa de 126,0 GeV, compatível com o bóson de Higgs do Modelo Padrão, com base na análise combinada de dados de colisões próton-próton coletados pelo detector ATLAS no LHC em 2011 e 2012, apresentando uma significância estatística de 5,9 desvios padrão.

The ATLAS Collaboration2012-07-31⚛️ hep-ex

Observation of a new boson at a mass of 125 GeV with the CMS experiment at the LHC

O experimento CMS no LHC relatou a observação de uma nova partícula bosônica com massa de aproximadamente 125 GeV, com significância estatística de 5 desvios padrão, consistente com o bóson de Higgs do Modelo Padrão.

The CMS Collaboration2012-07-31⚛️ hep-ex

Observation of Gravitational Waves from a Binary Black Hole Merger

Este artigo relata a primeira detecção direta de ondas gravitacionais, observadas em 14 de setembro de 2015 pelo LIGO, provenientes da fusão de um par de buracos negros estelares a uma distância de aproximadamente 410 Mpc, confirmando a existência de sistemas binários de buracos negros e validando as previsões da relatividade geral.

The LIGO Scientific Collaboration, the Virgo Collaboration2016-02-11⚛️ gr-qc

First M87 Event Horizon Telescope Results. I. The Shadow of the Supermassive Black Hole

Este estudo apresenta as primeiras imagens do Event Horizon Telescope do buraco negro supermassivo no centro da galáxia M87, revelando uma sombra consistente com as previsões da relatividade geral e permitindo a medição direta de sua massa, o que fornece evidências poderosas da existência desses objetos e abre novas fronteiras para o estudo da gravidade extrema.

The Event Horizon Telescope Collaboration2019-06-26🔭 astro-ph.GA

Attention Is All You Need

O artigo apresenta o Transformer, uma nova arquitetura de rede neural baseada exclusivamente em mecanismos de atenção que dispensa recorrência e convoluções, alcançando resultados superiores em tarefas de tradução automática e demonstrando alta eficiência no treinamento e generalização para outras tarefas.

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin2017-06-12💬 cs.CL

Deep Residual Learning for Image Recognition

Este artigo apresenta uma estrutura de aprendizado residual que facilita o treinamento de redes neurais extremamente profundas, permitindo ganhos significativos de precisão e estabelecendo novos recordes em competições de visão computacional como ILSVRC e COCO de 2015.

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun2015-12-10👁️ cs.CV

Generative Adversarial Networks

Este artigo propõe um novo framework para estimar modelos generativos por meio de um processo adversarial que treina simultaneamente um modelo gerador e um discriminador em um jogo minimax, permitindo o treinamento eficiente via retropropagação sem a necessidade de cadeias de Markov ou redes de inferência aproximada.

Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio2014-06-10📊 stat.ML

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

O artigo apresenta o BERT, um novo modelo de representação linguística baseado em Transformers bidirecionais pré-treinados em texto não rotulado, que pode ser ajustado para diversas tarefas de processamento de linguagem natural com apenas uma camada adicional, alcançando resultados state-of-the-art em onze benchmarks.

Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova2018-10-11💬 cs.CL

Denoising Diffusion Probabilistic Models

Este artigo apresenta resultados de alta qualidade na síntese de imagens utilizando Modelos Probabilísticos de Difusão com Desembarulhamento, alcançando desempenho de ponta no conjunto de dados CIFAR10 e qualidade comparável ao ProgressiveGAN no LSUN, graças a uma nova conexão teórica entre esses modelos e a correspondência de pontuação com dinâmica de Langevin.

Jonathan Ho, Ajay Jain, Pieter Abbeel2020-06-19🤖 cs.LG

Adam: A Method for Stochastic Optimization

O artigo apresenta o Adam, um algoritmo de otimização estocástica eficiente e adaptativo baseado em estimativas de momentos de primeira ordem, que se destaca por sua facilidade de implementação, baixo uso de memória e robustez em problemas com grandes volumes de dados, gradientes ruidosos ou esparsos, além de discutir suas propriedades teóricas e uma variante chamada AdaMax.

Diederik P. Kingma, Jimmy Ba2014-12-22🤖 cs.LG

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

O artigo apresenta a Normalização de Lotes (Batch Normalization), uma técnica que acelera o treinamento de redes neurais profundas ao normalizar as entradas de cada camada para reduzir a mudança de covariância interna, permitindo o uso de taxas de aprendizado mais altas, inicializações menos rigorosas e atuando como regularizador, o que resulta em desempenho superior na classificação de imagens no ImageNet.

Sergey Ioffe, Christian Szegedy2015-02-11🤖 cs.LG

Auto-Encoding Variational Bayes

Este artigo apresenta o algoritmo Auto-Encoding Variational Bayes (VAE), que combina reparametrização e redes neurais para permitir inferência e aprendizado escaláveis e eficientes em modelos probabilísticos direcionados com variáveis latentes contínuas e grandes conjuntos de dados.

Diederik P Kingma, Max Welling2013-12-20📊 stat.ML

Scaling Laws for Neural Language Models

O artigo estabelece leis empíricas de escala que demonstram como o desempenho de modelos de linguagem segue uma relação de lei de potência com o tamanho do modelo, do conjunto de dados e do poder computacional, revelando que o uso mais eficiente de recursos envolve treinar modelos muito grandes em conjuntos de dados menores e interromper o treinamento antes da convergência.

Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei2020-01-23🤖 cs.LG

Improving neural networks by preventing co-adaptation of feature detectors

O artigo demonstra que a técnica de "dropout", que consiste na omissão aleatória de metade dos detectores de características durante o treinamento, reduz significativamente o sobreajuste em redes neurais ao prevenir co-adaptações complexas, resultando em melhorias substanciais e novos recordes em tarefas de reconhecimento de fala e objetos.

Geoffrey E. Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever, Ruslan R. Salakhutdinov2012-07-03💻 cs.NE

Efficient Estimation of Word Representations in Vector Space

Os autores propõem duas novas arquiteturas de modelo que permitem o aprendizado eficiente de representações vetoriais de palavras de alta qualidade em grandes conjuntos de dados, alcançando desempenho superior em tarefas de similaridade semântica e sintática com custo computacional significativamente reduzido.

Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean2013-01-16💬 cs.CL