PAM - Point Accepted Mutation

... by Raquel Minardi in Glossário 30 de agosto de 2019

PAM (do inglês Point Accepted Mutation) é uma matriz de pontuação criada por Margaret Dayhoff em 1978.

Margaret Dayhoff Trata-se de uma família de matrizes que têm sido utilizadas para pontuação do alinhamento de sequências de proteínas em diferentes graus de divergência. A divergência é medida em termos de mutações pontuais aceitas (Point Accepted Mutations).

Uma mutação pontual é uma mutação em um resíduo ou a substituição de um resíduo por outro que foi aceita pela seleção natural. Para ser aceito, o novo aminoácido geralmente deve funcionar de forma semelhante ao anterior: semelhanças nas propriedades fisico-químicas são encontradas entre os aminoácidos que são observados nas mutações.

Uma PAM é uma mutação que não altera a função da proteína. Duas sequências S1 e S2 são ditas serem 1 PAM divergentes se S1 pode ser convertida em S2 com uma média de 1 mutação pontual aceita a cada 100 resíduos.

Dayhoff computou, com base em sequências de proteínas conhecidas e proximamente relacionadas, a família de matrizes PAM em diversos níveis de divergência. Para cada valor de i, ela computou uma matriz PAM-i que é útil para comparar sequências que são PAM-i divergentes. Em geral, para alinhar sequências de proteínas relacionadas, podemos usar uma matriz PAM-i com um pequeno i. Para alinhar sequências de proteínas distantes, deveríamos usar valores maiores de i. Normalmente, utiliza-se as matrizes PAM 30 e PAM 70, embora Dayhoff tenha chegado a derivar matrizes tão divergentes quanto PAM 250 para sequências muito divergentes.

Um erro comum é pensar que duas sequências de proteínas distanciadas de 1 PAM apresentam uma diferença de 1% entre os aminoácidos que as constituem. Uma única posição da sequência poder sofrer mais do que uma mutação. Por exemplo, duas sequências que estão distanciadas de 100 PAMs não são diferentes em todas as suas posições. Na realidade, espera-se que sequências que tenham divergido de 200 PAMs ainda sejam idênticas em 25% das suas posições e que duas sequências distanciadas de 250 PAMs possam ainda ser distinguíveis de um par de sequências geradas aleatoriamente. Ver tabela do artigo original de Dayhoff (onde a PAM é proposta) [1] que reproduzimos abaixo:

Correspondência entre as diferenças observadas e a distância evolucionária

Note que uma diferença percentual de 85% é observada em sequências que sofreram em torno de 328 PAMs.

Como as matrizes PAM são calculadas?

Vamos entrar agora um pouco mais em detalhes sobre como essas matrizes são calculadas. Segundo Margaret Dayhoff e coautores, qualquer discussão completa sobre o comportamento observado de aminoácidos no processo evolutivo deve considerar a frequência de mutação de cada aminoácido por outro e a propensão de cada um em permanecer inalterada.

Dessa forma, são 20 x 20 = 400 possíveis análises. Para coletar uma quantidade significativa de informações sobre todas essas possibilidades, são necessárias muitas observações. O corpo de dados usado no estudo original de Dayhoff incluia 1.572 mutações em 71 agrupamentos de proteínas relacionadas. Os dados das mutações foram acumulados a partir de árvores filogenéticas e de alguns pares de sequências notadamente relacionadas.

A Figura 1 é um exemplo bem simplificado em que temos 4 sequências: ACGH, DBGH, ADJ, CDJ. A árvore ilustra as mutações pontuais entre ACGH e DBGH que são B-C e A-D e entre ADJ e CBJ que são B-D e A-C. Note que são geradas as sequências ancestrais ABGH e ABJ.

Árvore filogenética simplificada. Quatro proteínas observadas são mostrados no topo. Os antepassados inferidos são mostrados nos nós. Trocas de aminoácidos são indicadas ao longo dos ramos.

A Figura 2 apresenta a respectiva matriz de mutações pontuais aceitas. Note que os autores consideram que a chance de mutar X por Y é a mesma de Y por X de forma que a matriz é simétrica.

Matriz de mutações pontuais aceitas derivadas do árvore da Figura 1.

Os números totais de mutações pontuais aceitas observadas entre sequências proximamente relacionadas considerando 34 superfamílias, agrupadas em 71 árvores evolutivas, são mostrados na Figura 3.

Número de mutações pontuais aceitas acumuladas a partir de sequências proximamente relacionadas.

Das 180 (20x20 / 2 - 20) possíveis substituições, 35 nunca foram observadas. Estas geralmente envolvem os aminoácidos que ocorrem com pouca frequência ou não são prováveis, por demandarem mais de uma troca no códon. A mutação mais frequente é entre o Glutamato e o Aspartato, dois aminoácidos quimicamente similares que diferem apenas um nucleotídeo no códon. Ao contrário do que se poderia pensar, 20% das mutações que ocorreram em termos de aminoácido requerem duas trocas em um códon. A explicação que os autores deram é que essas mutações são governadas pela seleção natural. Por exemplo, não se observaram mutações entre Glicina e Triptofano, dois aminoácidos de volumes e propriedades muito diferentes.

Mutabilidade relativa

Dayhoff e seus colaboradores perceberam que, para terem uma visão completa das mutações, precisariam considerar diferentemente os aminoácidos que mutavam dos que não mutavam, ou melhor, considerar a probabilidade de mutação de cada aminoácido em um pequeno intervalo evolucionário. Ela chamou esse número de mutabilidade relativa do aminoácido e essa métrica consiste em contar o número de vezes que cada aminoácido mudou em um intervalo e o número de vezes que ocorreu nas seqüências. A mutabilidade relativa de cada aminoácido é proporcional à proporção de mudanças às ocorrências. A Figura 4 ilustra, através de um exemplo bem simples, essa idéia.

Exemplo do cálculo da mutabilidade relativa.

Na primeira linha temos as sequências ADA e ADB alinhadas. Na segunda linha, a lista dos aminoácidos que aparece no pequeno conjunto de sequências avaliadas: A, B e D. A terceira linha apresenta a contagem da ocorrência de mudanças (trocas) de cada um dos aminoácidos no pequeno conjunto de sequências: A (1), B(1) e D(0). A quarta linha apresenta a frequência de ocorrência dos aminoácidos nas sequências: A(3), B(1) e D(2). Por fim, a mutabilidasde relativa é a terceira linha dividida pela quarta: A foi trocado 1 vez e ocorreu 3 vezes, logo sua mutabilidade relativa será 0,33.

Ao calcular as mutabilidades relativas de muitas árvores, as informações de seqüências de diferentes comprimentos e distâncias evolutivas são combinadas. Cada mutabilidade relativa é uma razão: o numerador é o número total de trocas deste aminoácido em todos os ramos de todas as proteínas consideradas e o denominador é a exposição total do aminoácido a mutação, isto é, a soma de todos os ramos da sua frequência local de ocorrência multiplicada pelo número total de mutações por 100 ligações para esse ramo.

As mutabilidades relativas dos aminoácidos são mostradas na Tabela 2.

Mutabilidades relativas dos aminoácidos.

Em média, Asparagina, Serina, Aspartato e Glutamato são mais mutáveis e Triptofano e Cisteína são menos mutáveis. A imutabilidade da cisteína é compreensível. A cisteína é conhecida por ter várias funções. É o local de ligação dos grupos heme em citocromo e de clusters de FeS na ferredoxina. Forma ligações covalentes em outras proteínas, como a quimotripsina ou ribonuclease. Raramente ocorre sem ter uma função importante. A substituição de um dos maiores aminoácidos é bastante incomum. No outro extremo, a baixa mutabilidade da Glicina deve ser devido a sua pequenez única que é vantajosa em muitos lugares. Apesar de Serina ter comumente função em sítios ativos ativos devido a ser muito reativa, é frequentemente substituída por outros aminoácidos que imitam sua função por terem propriedades fisico-químicas semelhantes.

Frequência relativa

As frequências relativas de exposição à mutação do aminoácidos são mostradas na Tabela 3 abaixo.

Tabela 3 - Freqüências normalizadas dos aminoácidos nos dados de mutação pontuais aceitas.

Estas freqüências, que chamaremos de fi, são aproximadamente proporcionais à composição média de cada grupo multiplicada pelo número de mutações na árvore. A soma das frequências é 1.

Matriz de mutações dependentes da distância

Os autores combinaram então informações sobre cada tipo de mutação com a mutabilidade relativa dos aminoácidos em uma matriz de mutações dependentes da distância mostrada na Tabela 4.

Matriz de probabilidade de mutação para a distância evolutiva de 1 PAM.

Um elemento Mij nos dá a probabilidade de que o aminoácido na coluna j será substituído pelo aminoácido na linha i após um determinado intervalo evolutivo, neste caso 1 PAM.

Os elementos que não são diagonais são calculados pela equação Mij = (λmjAij) / ΣiAij, onde Aij, é um elemento na matriz de mutações pontuais aceitas da Figura 3, λ é uma constante de proporcionalidade e mj é a mutabilidade do aminoácido j da Tabela 2. Os elementos da diagonal são Mjj = 1 - λ mi. Assim, para uma coluna típica, por exemplo da Alanina, o total das probabilidades ou a soma de todos os elementos, deve ser 1.

O valor 100 x Σ fiMii onde fi é a frequência normalizada do aminoácido (Tabela 3) e Mii é o valor da matriz de probabilidade de mutações (Tabela 4), dá o número de aminoácidos que permanecerão inalterados quando uma proteína exposta à mudanças evolutivas representadas pela matriz PAM-100.

A família de matrizes PAM

A matriz 1 PAM pode ser multiplicada por ela mesma N vezes para produzir uma matriz que prevê que as substituições de aminoácidos sejam encontradas após as N PAMs de mudança evolutivas. Na média, os resultados das simulações que os autores realizaram correspondem às previsões das matrizes correspondentes. Foram computadas matrizes até a PAM-250.

Para cada matriz PAM, podemos calcular a porcentagem de aminoácidos que serão mutados em média no intervalo por: 1OO (1 - ΣfiMii). Esse cálculo gera os valores apresentados previamente na Tabela 1.

Por fim, a matriz PAM costuma ser apresentada na forma de log odds ao invés do formato de probabilidade tradicional. Está fora do escopo desse texto abordar em detalhes as vantagens dessa representação. Ela consiste simplesmente em tirar o logaritmo (ln) dos odds (chances). Por exemplo, suponha que a probabilidade de uma mutação de Alanina por Arginina seja 0,06. O odds será 0,06/0,94=0,0638 (probabilidade de sucesso / probabilidade de falha) e o log odds será -2,75.

Lembre-se que a função logaritmo que resulta em um valor negativo para os valores menores que 1 e positivo para maiores. Dessa forma, o valor da matriz será negativo se a mutação for pouco provável, positiva se for muito provável e 0 se a probabilidade original for 0.5. Já percebeu como a coluna do Triptofano tem valores grandes e negativos?

A matriz da Figura 5 é a PAM-250 e a mesma em log odds é apresentada na Figura 6.

Matriz PAM 250 e sua respectiva log odds.

Por fim, a matriz log odds para 250 PAMs foi descrita por Dayhoff e colaboradores como muito eficaz para detectar relações distantes entre sequências de proteínas.

Atualmente, as matrizes mais comumente usadas são PAM 30 e PAM 70 que representam bem sequências com aproximadamente 25% e 50% de dissimilaridade respectivamente.

Referências

[1] Dayhoff, M. O. "A model of evolutionary change in proteins. matrices for detecting distance relationships." Atlas of Protein sequence an Structure 5.suppl 3: 354-352, 1978. Pode ser visualizado aqui.

Online Bioinfo

Redes Sociais