BLOSUM - Blocks of Amino Acid Substitution Matrix

... by Raquel Minardi in Glossário 06 de setembro de 2019

BLOSUM (do inglês Blocks of Amino Acid Substitution Matrix) é uma matriz de substituição baseada em blocos de sequências de aminoácidos, criada por Steven Henikoff e sua esposa Jorja Henikoff em 1992 [1].

BLOSUM62 Uma matriz de substituição consiste em uma matriz bidimensional (i, j), que contém valores que representam a probabilidade dos aminoácidos das linhas i serem substituídos pelos aminoácidos das colunas j [2].

Considerando a importância dos dados obtidos através da utilização de alinhamentos para o entendimento da função de proteínas e genes, bem como a utilização de matrizes de substituição para a identificação de similaridade, Henikoff e Henikoff propuseram o modelo BLOSUM [1]. Tendo como objetivo sanar a necessidade de encontrar padrões de relacionamento distantes que até então eram inferidos apenas nas taxas de substituição do modelo de Dayhoff (matriz PAM).

Embora vários esquemas de pontuação tenham sido propostos, a família de matrizes PAM propostas por Margaret Dayhoff eram considerados, até a década de 90, o padrão para os alinhamentos de sequências. Nas matrizes, PAM, as probabilidades de substituições eram provenientes de alinhamentos de sequências de proteína com, no mínimo, 85% de identidade[1].

Já na proposta da matriz BLOSUM, Henikoff e Henikoff partiram do princípio de que alinhamentos locais podem ser representados em blocos, onde cada linha representa um trecho de uma proteína diferente e cada coluna, uma posição de resíduo alinhada. Considerando que um único bloco representa uma região conservada de uma família de proteínas, para cada novo membro é procurada uma pontuação de correspondências (matches) e mutações (mismatches) que favoreça um alinhamento correto com cada um dos outros blocos. Para cada uma das colunas do bloco, é calculado o número de correspondências e mutações.

Por exemplo, se um resíduo da nova sequência que se alinha com a primeira coluna tem 9 resíduos Alanina (A) e 1 resíduo Serina (S), então há 9 casamentos e 1 mutação de aminoácidos (Figura 1). Essa contagem é repetida para todas as colunas de todos os blocos e os resultados são somados e armazenados em uma tabela única.

Exemplo de blocos para a computação de uma matriz BLOSUM.

Conforme as sequências são adicionadas ao bloco alinhado, essa tabela composta pelo acúmulo da contagem de todos os possíveis pares de aminoácidos em cada coluna é formada. No exemplo, que trouxemos do artigo original de Henikoff e Henikoff, para a coluna destacada na Figura 1 que consiste em 9 resíduos de A e 1 resíduo de S, existem
8 + 7 + ... + 1 = 36
pares de possíveis casamentos "AA" (linhas 1 com 2, 1 com 3, e assim por diante). Há ainda 9 pares de casamentos "AS" ou "SA" e nenhum par "SS". A contagem de todas as possibilidades de pares é somada para cada coluna e cada bloco.

Logo, se um bloco tem uma largura w de aminoácidos e uma profundidade de s sequências, ele contribui com ws(s-1)/2 pares de aminoácidos para a contagem. No exemplo da Figura 1, para a coluna em destaque (w = 1), teríamos [(1x10x9)/2]= 45 pares possíveis.

Como resultado da contagem realizada, obtemos uma tabela de frequências, listando o número de vezes que todos os diferentes pares de aminoácidos (20 + 19 + 18 + ... + 1 = 210) ocorrem nos blocos. Essa tabela é utilizada para construção da matriz de razões das chances (odds ratio) das frequências observadas e as esperadas ao acaso.

Computando as matrizes BLOSUM

A matriz BLOSUM é um logaritmo da matriz da razão da chance, assim como a matriz PAM. Para entender esse conceito, pense na chance ou probabilidade de um evento ocorrer ou não. A chance de sucesso é definida como a probabilidade de sucesso dividida pela probabilidade de falha.

No caso cálculo da BLOSUM, o sucesso corresponde à chance do par de aminoácidos ser substituído pelo esperado (i por j, por exemplo), logo o valor correspondente da matriz representa o logaritmo da chance de o aminoácido i ser trocado pelo j sobre a probabilidade de isso não acontecer (falha) ou ser trocado por qualquer um dois outros ou se manter.

Então, para construir a matriz, calculamos a matriz q de probabilidades observadas de ocorrências de cada par (i,j) (1 ≤ i ≤ j ≤ 20) para cada entrada da tabela de frequências fij :

qij = fij / ∑i=1...20j=1...i fij

Essa probabilidade corresponde à divisão do número de ocorrências possíveis para um par específico pela quantidade total de pares. Para a nossa coluna exemplo da Figura 1, na qual temos 9 resíduos A e 1 resíduo S:

qAA = 36/45 = 0,8

e

qAS = 9/45 = 0,2.

Em seguida, estimamos a probabilidade esperada de ocorrência de cada par (i,j) na população em geral. Por exemplo, 36 pares têm A em ambas as posições do par ("AA") e 9 pares têm A em apenas uma das duas posições ("AS" ou "SA"), de modo que a probabilidade de A em um par é [36 + (9/2)] / 45 = 0,9 e de S é (9/2) / 45 = 0,1. Assim, a probabilidade de ocorrência para cada par (i, j) é:

pi = qij + ∑j≠i qij / 2

Dessa forma, a probabilidade esperada de ocorrência e para cada par (i,j) é então pij para i = j e pij + pij = 2pij para i ≠ j.

No exemplo da Figura 1, a probabilidade esperada de "AA" é:
pAA = 0,9 x 0,9 = 0,81,

a de AS + SA é:
pAS = 2 x (0,9 x 0,1) = 0,18,

e a de SS é:
pSS = 0,1 x 0,1 = 0,01.

Por fim, realizamos o cálculo das razões das chances correspondente a:

qij / eij

Então, o logarítmo na base 2 dessa razão é computado dando origem à matriz sij:

sij = log2qij / eij

que é denominada em inglês de lod ratio e tem unidade de medida em unidades de bits.

Essa métrica tem as seguintes interessantes implicações:
  • s = 0, se as frequências forem correspondentes às frequências esperadas
  • s < 0, se as frequências forem menores que as esperadas
  • s > 0, se as frequências forem para maiores que as esperadas.

Reduzindo os viéses de múltiplas sequências muito similares

Com o objetivo de reduzir múltiplas contribuições para frequências de pares de aminoácidos intimamente relacionados de uma família, as sequências são agrupadas dentro de blocos. Cada grupo formado é ponderado como uma única sequência na contagem de pares. Para isso, é preciso definir um percentual de agrupamento em que segmentos das sequências são agrupados.

Por exemplo, se o percentual definido corresponde a 80%, o segmento de A é idêntico a B em 80% das posições alinhadas.

É esse percentual que diferencia as diferentes matrizes da família BLOSUM. Uma das matrizes BLOSUM mais comumente usadas é a BLOSUM 62.

Diferenças entre BLOSUM e PAM

Existem diferenças fundamentais entre a abordagem de Dayhoff (família de matrizes PAM) e o modelo BLOSUM. Dayhoff e colaboradores estimaram dados de mutações pontuais em proteínas proximamente relacionadas e utilizando a extrapolação dessas taxas através da multiplicação da matriz sucessivas vezes para modelar relacionamentos distantes entre sequências.

Na abordagem BLOSUM, as frequências são obtidas diretamente das relações representadas nos blocos, independentemente da distância evolutiva. Logo, o modelo PAM é efetivo em evidenciar relacionamentos evolutivos entre as sequências de proteínas, enquanto o BLOSUM seria mais eficaz para evidenciar domínios conservados.

Referências

[1] Henikoff, S. e Henikoff, J.G.. "Amino acid substitution matrices from protein blocks." Proceedings of the National Academy of Sciences 89.22 (1992): 10915-10919.
[2] Zomaya, A.Y.. "Handbook of Nature-Inspired And Innovative Computing" New York: Springer. (2006):673.

Online Bioinfo

Redes Sociais