A bioinformática une biologia e computação para desvendar os mistérios da vida através de dados. Nesta área, pesquisadores transformam sequências genéticas complexas em informações compreensíveis, permitindo descobertas rápidas sobre doenças, evolução e tratamentos personalizados sem depender apenas de laboratórios físicos.

No Gist.Science, processamos diariamente cada novo pré-publicação na categoria de bioinformática enviada pelo bioRxiv. Nosso compromisso é tornar esse conhecimento acessível, oferecendo tanto resumos em linguagem simples para o público geral quanto análises técnicas detalhadas para especialistas, garantindo que ninguém fique de fora das últimas inovações científicas.

Abaixo, você encontrará as últimas pesquisas publicadas nesta área, organizadas para facilitar sua leitura e compreensão dos avanços recentes.

Neurotox: Deep learning decodes conserved hallmarks of neurotoxicity across venomous species

O estudo apresenta o Neurotox, um framework de aprendizado profundo baseado em sequências que decodifica as características conservadas da neurotoxicidade em diversas espécies venenosas, demonstrando que essa propriedade emerge de características sequenciais distribuídas que moldam a organização estrutural e a interação com receptores, e não apenas de resíduos de contato isolados.

Bedraoui, A., El Mejjad, S., Enezari, S., El Hajji, F. Z., Galan, J., El Fatimy, R., Daouda, T.2026-03-10💻 bioinformatics

Counting strands in outer membrane beta-barrels

Este trabalho apresenta uma versão aprimorada da ferramenta PolarBearal, que alcança 97% de precisão na contagem automática de fitas em barris beta da membrana externa bacteriana, permitindo a caracterização em larga escala de mais de 571.000 estruturas preditas pelo AlphaFold2 e fornecendo um recurso valioso para estudos de biologia estrutural e design de proteínas.

Lim, S., Nimmagadda, T., Khamis, A., Montezano, D., Feehan, R., Copeland, M., Slusky, J.2026-03-10💻 bioinformatics

PhosSight: a Unified Deep Learning Framework Boosting and Accelerating Phosphoproteome Identification to Enable Biological Discoveries

O artigo apresenta o PhosSight, uma estrutura unificada de aprendizado profundo que aprimora a identificação e acelera a análise de fosfoproteomas em abordagens DDA e DIA, permitindo a descoberta de novos alvos de quinase associados ao prognóstico no câncer de endométrio.

Wang, B., Cheng, Z., She, C., Zhang, J., Lv, L., Zhu, H., Liu, L., Fu, Y., Yi, X.2026-03-10💻 bioinformatics

Improving Causal Gene Identification Using Large Language Models

Este estudo demonstra que a integração de informações de distância genômica e recuperação aumentada por geração (RAG) em modelos de linguagem como o Qwen2.5 melhora a identificação de genes causais em estudos de associação genômica, embora a combinação simultânea de ambas as abordagens apresente retornos decrescentes devido a interações específicas entre os métodos.

Ofer, D., Kaufman, H.2026-03-10💻 bioinformatics

Inferring large networks with matrix factorisation to capture non-linear dependencies among genes using sparse single-cell profiles

O artigo apresenta o método NIRD, que utiliza fatoração de matrizes e regressão não linear baseada em ensemble de árvores para inferir redes de dependências não lineares entre genes a partir de perfis de transcriptoma de célula única esparsos, superando desafios de ruído e efeitos de lote e demonstrando maior precisão na predição de alvos de fatores de transcrição validada por dados experimentais.

Jha, I. P., Meshran, A. G., Kumar, V., Natarajan, K. N., KUMAR, V.2026-03-10💻 bioinformatics

Exploring per-base quality scores as a surrogate marker of cell-free DNA fragmentome

Este estudo demonstra que as pontuações de qualidade por base, tradicionalmente tratadas como metadados técnicos, podem servir como um biomarcador de baixo custo e sem alinhamento para a detecção de câncer, ao revelar sinais fragmentômicos no DNA livre de células que permitem distinguir amostras de pacientes com câncer de controles com alta precisão.

Volkov, H. H. V., Raitses-Gurevich, M., Grad, M., Shlayem, R., Leibowitz, D., Rubinek, T., Golan, T., Shomron, N.2026-03-10💻 bioinformatics

Developing SCL2205 : A Protein Sequence-based Spatial Modelling Dataset for the Protein Language Model Frontier

Este estudo apresenta o SCL2205, um conjunto de dados de alta qualidade e de acesso aberto derivado do UniProtKB, projetado para superar desafios de qualidade e vazamento de dados na previsão de localização subcelular de proteínas, demonstrando melhorias significativas de desempenho em modelos de linguagem de proteínas em comparação com o estado da arte.

Ouso, D., Pollastri, G.2026-03-10💻 bioinformatics

Intrinsic dataset features drive mutational effect prediction by protein language models

Este estudo demonstra que o desempenho dos modelos de linguagem proteica na previsão de efeitos mutacionais é impulsionado principalmente por características intrínsecas dos conjuntos de dados, como a variabilidade de aptidão entre sítios, e não pela arquitetura do modelo, revelando que benchmarks atuais frequentemente superestimam a capacidade desses modelos ao permitir vazamento de dados e ao ignorar que preditores simples baseados na média de aptidão dos sítios muitas vezes superam abordagens supervisionadas.

Vieira, L. C., Lin, S., Wilke, C. O.2026-03-10💻 bioinformatics

Phosphorylation of a tumor-derived ASXL2 epitope remodels 1 peptide-HLA binding affinity and interaction dynamics

Este estudo demonstra que a fosforilação de um epítopo derivado de ASXL2 em tumores remodela as interações e a dinâmica conformacional do complexo peptídeo-HLA, resultando em maior afinidade de ligação e fornecendo uma base estrutural para o direcionamento racional de alvos imunoterapêuticos específicos do câncer.

Zhang, J., Lv, L., Chen, B., Yi, X.2026-03-10💻 bioinformatics