Consanguinidade e heterose — identidade por descendência

Identidade por descendência

Quando a partir de um único heterozigótico se forma um homozigoto, os dois genes deste último são idênticos por descendência: são duas réplicas de um só cromossoma presente no heterozigoto:

		Aa

gâmetas:	... A A A A		a a a a ...
		selfing
	AA		aa

A probabilidade de ter genótipos idênticos por descendência (AA ou aa) através de selfing é, pela 1ª lei de Mendel, ¼ + ¼ = ½; mas como será noutros modelos de cruzamento? Suponhamos um locus A/a, em ligação muito próxima (r_AB ≈ 0) com um locus B/b. O esquema ao lado representa a sucessão de quatro gerações em que se faz sistematicamente o cruzamento entre irmãos (T × U, V × W, X × Y), e não há selfing:

Cada seta indica a passagem de um gâmeta. Como é que T e U poderiam ser idênticos geneticamente? Se ambos fossem BB, ou ambos bb. No entanto isto não é ainda identidade por descendência, porque tanto nos BB como nos bb cada gene do locus B/b está ligado a um diferente gene do locus A/a, atestando a sua diferente origem.

Já no indivíduo V existe a possibilidade de exactamente o mesmo cromossoma (um dos quatro presentes nos progenitores iniciais) aparecer duas vezes, para o que se concebem quatro possibilidades:

A cada seta, segundo a 1ª lei de Mendel, corresponde uma probabilidade de ½ de o cromossoma em causa ser transmitido à geração seguinte. Daí se conclui que cada uma destas quatro alternativas de identidade por descendência tem uma probabilidade de (½)⁴ = ¹/₁₆; mas como são independentes, a probabilidade de obter identidade por descendência (sem precisar que cromossoma aparece duplicado nesse indivíduo) é globalmente 4×(½)⁴ = ¼.

Se foram utilizados 4 indivíduos em cada geração (cruzamentos entre primos-direitos), adiando a possibilidade de identidade por descendência para o terceiro cruzamento, tem-se

Os progenitores directos do indivíduo XIII (ou de qualquer um dos da quarta geração) contêm em proporção aproximadamente igual a herança dos indivíduos I, II, III e IV. No entanto, pode acontecer identidade por descendência a partir de qualquer dos progenitores, tanto de I via V e IX e via VI e X, como de IV via VII e IX e via VIII e X, etc.. Se os quatro indivíduos iniciais não tivessem parentesco entre si, então existiam à partida 8 cromossomas diferentes por grupo de ligação e a probabilidade de obter-se identidade por descendência na 4ª geração ficava 8×(½)⁶ = 1/8.

Estes modelos podem ser utilizados na prática em diversos contextos de melhoramento, especialmente para a obtenção de linhas puras mais ou menos aceleradamente: o aumento da percentagem de homozigóticos idênticos por descendência será tanto maior quanto menor o número de indivíduos envolvidos à partida (4, 2 ou 1), isto é, quanto menor a diversidade genética presente de início.

Já com animais de criação, ou no estudo de árvores genealógicas na espécie humana, é mais provável que os esquemas de cruzamento adoptados (ou aparentes) sejam muito irregulares, pelo que se requer o cálculo exacto da identidade por descendência em qualquer situação. Sendo que o parentesco entre os dois progenitores de um indivíduo determina a identidade por descendência que vai recair sobre ele, define-se um coeficiente de parentesco entre progenitores cujo cálculo generalizado tem as seguintes regras:

Regra principal: o coeficiente de parentesco f_PQ, entre dois indivíduos P e Q, é a média dos coeficientes de parentesco entre as duas famílias, mais precisamente entre cada um dos progenitores de P e cada um dos progenitores de Q. Assim, na genealogia

A B

C D

f_PQ = (f_AC + f_AD + f_BC + f_BD)/4

Note-se que em certas circunstâncias não se envolvem 4 progenitores diferentes (mais abaixo dão-se alguns exemplos).

Regra auxiliar: o coeficiente de parentesco entre dois indivíduos é igual à média dos coeficientes de parentesco entre um desses indivíduos e cada um dos progenitores do outro. A aplicação desta regra, no caso desta genealogia, mostra que f_PQ = (f_QA + f_QB)/2, f_QA = (f_AC + f_AD)/2, f_QB = (f_BC + f_BD)/2, donde f_PQ = (f_AC + f_AD + f_BC + f_BD)/4.

Identidade entre gâmetas do mesmo indivíduo: no caso em que P e Q são meios-irmãos, ou seja pondo por exemplo D = A, obtém-se f_PQ = (f_AC + f_AA + f_BC + f_BD)/4; já se P e Q são irmãos por selfing, é quando A = B = C = D, dando f_PQ = 4f_AA/4 = f_AA. Note-se que aparece um coeficiente de parentesco do indivíduo consigo mesmo (as instâncias de f_AA nestes exemplos), e como ele é igual ao coeficiente de parentesco entre irmãos por selfing, tenderíamos a pensar que vale ½ (cf. cálculo feito acima). Mais em rigor, porém, verifica-se que varia entre ½ e 1, em função do coeficiente de parentesco entre os progenitores de A. Para determinar a fórmula geral de f_QQ ponha-se A = C, B = D, e P = Q (como se se tratasse do cálculo do parentesco entre dois gémeos monozigóticos); então f_QQ = (f_CC + 2f_CD + f_DD)/4, com valores de f_CC e f_DD exactamente 1, visto que se trata do mesmo par de gâmetas para os dois Qs. Daqui resulta que f_QQ = ½ (1 + f_CD) isto é, f_QQ varia entre ½ e 1 consoante o parentesco entre C e D varia entre 0 e 1.

É comum representar-se f_AA = ½(1 + F_A), em que F_A é o coeficiente de consanguinidade (genealógico) do indivíduo A, definido como a probabilidade dessa identidade por descendência já se encontrar nesse indivíduo, sem especificar os respectivos progenitores. Por outras palavras, F_A é numericamente igual ao coeficiente de parentesco entre os progenitores de A.

Estas regras também se aplicam a genealogias regulares como a de Z apresentada acima, onde vigora uma analogia com o modelo A = C e B = D em cada geração. Assim, f_TU = ¼, ou seja a identidade por descendência já calculada para qualquer um dos seus descendentes (V e W). Quanto ao valor da identidade por descendência de Z: f_VW = (f_TT + 2f_TU + f_UU)/4, e dado que T e U não são consanguíneos, f_VW = 3/8 (o coeficiente de consanguinidade de X e também de Y); continuando, f_XY = (f_VV + 2f_VW + f_WW)/4 = (½(1 + F_V) + 6/8 + ½(1 + F_W))/4 = (0,625 + 0,75 + 0,625)/4 = ½ = F_Z. De igual modo, para a genealogia dos primos-direitos XIII – XVI, verifica-se que na segunda geração são irmãos dois a dois (V com VI e VII com VIII), dando um f_IX,X = f_XI,XII = 1/8 = F_XIII = F_XIV = F_XV = F_XVI.

Comparando esses dois exemplos com o modelo de selfing, constata-se que, ao fim de 3 gerações, se atingem valores de identidade por descendência de 0,875 no selfing, 0,375 entre irmãos, e 0,125 entre primos direitos. Trata-se de famílias isoladas reprodutivamente, isto é, sem intervenção de indivíduos de outras proveniências, e que em cada geração têm um número fixo de indivíduos utilizados na reprodução, respectivamente 1, 2 e 4. O material de partida, sejam 2, 4 ou 8 cromossomas, é pois o único que pode continuar a considerar-se nas sucessivas gerações. Donde se conclui que quanto menor é o efectivo populacional N (1, 2 ou 4 indivíduos utilizados por geração), mais rapidamente aumenta a proporção de loci idênticos por descendência.

FECHAR

Tendência para a homozigose nas populações finitas

Quando se estudam populações, sem conhecimento dos cruzamentos que contribuem para a geração seguinte, não se pode saber a contribuição em gâmetas de cada progenitor, e é sempre de supor uma desigualdade entre os diferentes indivíduos nesse contributo, mesmo que isso se deva apenas ao acaso. Por isso, o número de indivíduos que participam na reprodução não é representativo da diversidade genética disponível em cada ciclo reprodutor; em lugar do N "demográfico" define-se o tamanho efectivo N_e, que é o número de indivíduos numa população panmíctica, ideal, que produz após a reprodução o mesmo grau de identidade por descendência que a população em estudo. Em geral, o valor de N_e a utilizar é inferior ao N demográfico dessa população.

Numa população com tamanho N_e, a probabilidade dos genes nos gâmetas que se conjugam terem identidade por descendência depende da sua proveniência: no caso ideal (progenitores com F = 0), a identidade por descendência entre os gâmetas é 1/2 se provêm do mesmo indivíduo, e 0 se de indivíduos diferentes. Designando como I a probabilidade de provirem do mesmo indivíduo, obtém-se F = ½I.

Contudo, se os progenitores tiverem F ≠ 0, então a identidade por descendência entre os gâmetas será ½(1 + F_n–1) se provêm do mesmo progenitor, em que n–1 designa a geração dos progenitores, e F_n–1 se provêm de progenitores diferentes. Neste caso, F_n = I_n[½(1 + F_n–1)] + (1 – I_n)F_n–1, n designando a geração dos descendentes. Pela definição de N_e, numa população panmíctica I_n = 1/N_e, donde resulta

Neste contexto, tem-se um coeficiente de consanguinidade populacional, para distinguir do F genealógico visto anteriormente. Complementarmente a F_n, define-se o índice panmíctico P_n = 1 – F_n donde se extrai

e, com N_e constante de geração para geração,

A geração 0 define-se arbitrariamente, como situação de referência para a análise da consanguinidade.

Os valores do F genealógico ao fim de 3 gerações, nos pedigrees com cruzamentos entre irmãos (N_e = 2) ou entre primos direitos (N_e = 4), são inferiores aos do F populacional com N_e igual; em parte isto deve-se ao facto de nunca se considerar a possibilidade dos gâmetas provirem do mesmo indivíduo. Há uma fórmula de F_n mais geral, embora pouco conhecida, que leva em conta o F_n-2 e a proporção h de autofertilização: .

Note-se que com a passagem das gerações P irá tendendo para 0. A tabela seguinte mostra, a partir da fórmula de P_n, o número de gerações necessárias a que o valor de P_n fique inferior a 5, 1 ou 0,1%, mesmo partindo de um P₀ = 1 (F₀ = 0):

P_n	1	5	10	50	100	500	1000
P₀ = 1	N_e
= 0,05	5	29	59	299	598	2995	5990
= 0,01	7	44	90	459	919	4603	9209
= 0,001	10	66	135	688	1379	6905	13813

Por conseguinte, as populações têm N_e finito e a identidade por descendência é uma fatalidade dos mecanismos combinatórios da reprodução sexuada. Haverá populações com uma N_e constante durante longos períodos de tempo? Se bem que as condições ambientais possam variar marcadamente entre ciclos de reprodução sucessivos, com incidências por exemplo no número de indivíduos que se desenvolvem de cada vez em espécies anuais, ou na intensidade de floração feminina em cada ano em espécies perenes, pode assumir-se que essas variações se compensam entre si, resultando um N_e representativo para a população num período de tempo alargado.

Na prática, a variação do valor de F entre duas gerações sucessivas permite, pela própria definição dada acima para F_n, calcular o N_e: 2N_e = (1 – F_n)/(F_n – F_n–1). Para determinar os valores do F populacional em cada geração, recorre-se ao desvio das frequências genotípicas (relativas) em relação os valores esperados segundo o modelo de Hardy-Weinberg. Por exemplo, para um locus A/a, e sem a interferência de outros factores senão o facto da população ser finita, espera-se

f(AA)/N = p² + pqF
f(Aa)/N = 2pq – 2pqF = 2pq(1 – F)
f(aa)/N = q² + pqF

Neste caso, se na geração n–1 se observassem 250 indivíduos AA, 100 Aa e 50 aa, p_(A) = 0,75, q_(a) = 0,25, e F = 0,3(3); supondo que na geração n se observavam 255 AA, 90 Aa e 55 aa, o resultado seria um F = 0,4, donde N_e = 5. Note-se que a análise da geração seguinte deve fazer-se de preferência o mais cedo possível no desenvolvimento do esporófito, para minimizar a interferência de mecanismos selectivos que tendam a alterar a distribuição dos genótipos (que geralmente favorecem os heterozigóticos, assim reduzindo a identidade por descendência aparente em fases mais adiantadas desse desenvolvimento).

Como o valor teórico dum genótipo homozigótico é o quadrado da respectiva frequência alélica, a proporção total de homozigóticos é o somatório dos valores (p_i)², i = 1, 2, ..., n (número de alelos no locus). Define-se H = 1 – Σ_i (p_i)² como a proporção téorica de todos os heterozigóticos, e da formulação acima pode deduzir-se que a frequência de heterozigóticos observados é H_o = H(1 – F), donde se calcula o F para qualquer número de alelos.

Outras medidas do N_e, que dizem respeito a modelos de reprodução em grupos (nomeadamente de animais submetidos a melhoramento), foram achadas. Por exemplo, acasalando ao acaso N_f fêmeas com N_m machos (estes em número inferior), obtém-se N_e = 4N_fN_m/(N_f + N_m), ou seja a média harmónica dos valores de N_f e N_m.

A mutação é um dos mecanismos que contribui, se bem que subtilmente, para impor um limite inferior a 1 ao valor de F. Segundo a Teoria Neutral da variação molecular (cf. "deriva genética"), F tem um valor de equilíbrio F = 1/(1 + θ), em que θ = 4N_eu (θ é o chamado parâmetro neutral; u é a taxa de mutação, a partir de qualquer dos alelos, no locus). Este valor indica que, por exemplo para uma população com N_e = 1000, o valor de equilíbrio de F é superior a 0,95 caso a taxa de mutação ronde os 10^–5.

Assim supõe-se que as populações com muitas gerações de isolamento num determinado local teriam mais tarde ou mais cedo atingido valores de equilíbrio com a mutação, isto é: só por mutação poderia haver loci em heterozigose. Isto passa-se de facto em espécies que se reproduzem preferencialmente por auto-polinização (N_e ≈ 1, donde em equilíbrio F é quase 1), mas há muitos casos que mostram uma tendência oposta, em que o F se mantém baixo ou é até negativo; isto implica mecanismos de selecção, que nas plantas têm lugar através de mecanismos de auto-incompatibilidade de muitas espécies alogâmicas, ou pela selecção negativa sobre os indivíduos mais homozigóticos.

FECHAR

Correlação entre gâmetas

O valor do F populacional (a partir dos desvios 2pqF em relação às frequências genotípicas dos heterozigotos no equilíbrio de Hardy-Weinberg) pode em alguns loci, por excesso de heterozigóticos na população, ser negativo: isto parece indicar que os gâmetas provenientes da geração anterior tendiam a ser preferencialmente diferentes entre si, nesses loci, e o valor de F descreverá a semelhança estatística entre os gâmetas participantes em cada ciclo reprodutivo em cada locus, e se considerarmos a média dos F em todos os loci analisados como representativa de todo o genoma na população em estudo, definirá uma correlação entre gâmetas:

Exemplo

Considerem-se 4 loci (A–D) com alelos 1 e 0; os seguintes genótipos haplóides ilustram o conceito de correlação entre gâmetas:

locus	A	B	C	D
gâmeta 1	1	1	0	0
gâmeta 2	1	1	0	0
			F = 1 (gâmetas iguais em todos os loci)
gâmeta 1	1	1	0	0
gâmeta 2	0	0	1	1
			F = –1 (gâmetas diferentes " " " loci)
gâmeta 1	0	0	1	1
gâmeta 2	1	0	1	0
			F = 0

Sendo F uma medida de correlação, o que significa o valor de referência 0 para populações com N_e finitos? Dado que a conjugação ao acaso tende sempre para um aumento do F em populações finitas, o valor de F = 0 implica por isso que há mecanismos compensatórios desse aumento; então o valor de referência F = 0 não é de facto o do modelo de Hardy-Weinberg, embora coincida com o desse modelo. A existência de tais mecanismos, entre os quais a selecção pré-zigótica (como nos mecanismos de auto-incompatibilidade), a selecção pós-zigótica (por depressão de consanguinidade, cf. secção seguinte) limita-se a produzir uma correlação entre gâmetas numericamente igual, isto é, 0.

Quando se comparam as estimativas de F em diferentes loci para uma mesma amostragem de indivíduos, é muito comum que divirjam marcadamente entre si quando a expectativa seria de serem concordantes (o N_e deveria afectar todos os loci de igual maneira). Além da mutação (ver a seguir), o único mecanismo que pode originar estas diferenças entre loci é a selecção.

Outro factor a levar em conta, especialmente em populações grandes, é a existência de mutações. Em cada locus homozigótico com identidade por descendência, logo que ocorra uma mutação nesse locus num dos homólogos, não só passa a heterozigótico como pode transmitir dois gâmetas diferentes para esse locus se a mutação ocorrer em células percursoras dos gâmetas (recorde-se que nas plantas superiores não há uma separação precoce entre soma e gérmen). Considerando uma população muito grande, com N_e = 10⁴, o acréscimo de 5 × 10^–5 no valor de F por geração está na ordem de grandeza de muitas taxas de mutação, que cancelam o aumento do F de tal modo que a correlação entre gâmetas deixa de tender a aumentar nessa população. Este valor de N_e = 10⁴ é assim utilizável como referência para as populações naturais, delimitando duas situações opostas:

a) inbreeding (tendência para a consanguinidade) correspondendo a valores de N_e < 10⁴, sendo que abaixo de 100 já se falaria de inbreeding extremo;

b) outbreeding (tendência para excesso de heterozigóticos), situação com N_e > 10⁴ que é exemplificada não tanto por populações excepcionalmente grandes mas antes pelo cruzamento entre populações muito diferenciadas entre si, designadamente entre subespécies ou mesmo entre espécies.

A correlação negativa entre os gâmetas, em outbreeding, simula um "excedente" de mutação, e de facto a possibilidade de mutações independentes entre duas populações de origem comum enquanto isoladas, ou ainda (talvez mais marcadamente) a de terem estado sujeitas a pressões selectivas diferentes ou aos efeitos da deriva genética, estariam na base da divergência genética entre elas, o que em termos de correlação entre gâmetas iria dar um F < 0 quando de novo reunidas em tais cruzamentos. Neste contexto, o conceito de F como correlação entre gâmetas pode levar, quando se faz outbreeding, ao aparente absurdo de N_e > N.

FECHAR

Estratificação populacional

Quanto maior é uma população, ou mais complexas as interacções entre os indivíduos que a constituem, mais fácil é que haja uma preferência de cruzamento entre indivíduos, não por um factor selectivo em particular mas por outros constrangimentos, por exemplo uma maior probabilidade de cruzamento entre indivíduos geograficamente próximos (isolamento em função da distância), com floração sincronizada (isolamento em função da fenologia da floração) ou (nos humanos) pertencentes a um mesmo clã ou classe social. São populações estratificadas, pois no seu todo não são panmícticas, embora possam sê-lo dentro de cada uma das suas subdivisões (definidas geográfica, fenológica, socialmente, etc.). Essas unidades panmícticas são chamadas demes.

Assim, os valores de N_e são os de cada subdivisão, eventualmente aumentados pela migração entre as subdivisões (fluxo genético intrapopulacional). Em resultado disso aumenta o valor de F, mas não só: associada aos valores baixos de N_e, a deriva genética é um factor importante e resulta numa progressiva diferenciação entre as subdivisões. Uma consequência desta diferenciação é o aumento do F que é medido no conjunto da população, a que se chama o efeito de Wahlund. Esse aumento é proporcional à variância das frequências genéticas dos diferentes estratos.

Designando o F de cada subdivisão j como f_j, definem-se dois valores de F para uma população estratificada: F_IT para o conjunto da população, e um F_IS representativo de todas as subdivisões (a média dos f_j, o que em rigor só se aplica se todas as subdivisões tiverem o mesmo N_e). O efeito de Wahlund é dado pelo valor F_ST = (F_IT – F_IS)/(1 – F_IS), derivado da fórmula expressando a relação entre os três, fácil de interpretar em termos de índices panmícticos: P_IT = P_ISP_ST.

Embora a estatística F_ST seja historicamente importante, e muito utilizada para medir a estratificação intrapopulacional, é preferível recorrer a outra de significado análogo, G_ST, que não depende da relação entre F e N_e e parte simplesmente das frequências alélicas das subdivisões, ou mesmo outros níveis de comparação, como diferentes populações, diferentes espécies, etc.. Baseia-se na definição H_T = H_S + D_ST, em que H_S é a média dos valores de heterozigóticos teóricos de cada uma das subdivisões, e D_ST a grau de diferenciação entre elas. Para todos os pares de subdivisões {X, Y} calcula-se D_xy = (j_xx + j_yy)/2 – j_xy, em que j_xx e j_yy são os somatórios de homozigóticos teóricos (p_i)², e j_xy o somatório dos produtos entre as frequências de cada alelo em X e em Y. D_ST é a soma de todos os D_xy a dividir pelo quadrado do número de subdivisões.

Exemplificando:

	alelos
i	1	2	3
X	0,4	0,3	0,3	0,4² + 0,3² + 0,3² = 0,34 = j_xx
Y	0,8	0,2	0	0,8² + 0,2² + 0² = 0,68 = j_yy
				0,4×0,8 + 0,3×0,2 + 0,3×0 = 0,38 = j_xy

D_xy = D_yx = (0,34 + 0,68)/2 – 0,38 = 0,13
D_ST = (0,13 + 0,13)/2² = 0,065

J_S = (0,34 + 0,68)/2 = 0,51, H_S = 1 – J_S = 0,49
H_T = 0,49 + 0,065 = 0,555
G_ST = 0,065/0,555 = 0,117

FECHAR

Precedente Continuação