Embora se possa dizer que um determinado gene pode ser isolado pela identificação dos homozigóticos seus portadores, em Biologia Molecular isso passa pelo isolamento e análise bioquímica de segmentos cromossómicos ou seus derivados. Isso tornou-se possível graças ao desenvolvimento de três importantes pilares metodológicos da Biologia Molecular: os enzimas de restrição, as técnicas de hibridação, e a sequenciação.
Os sistemas de restrição são um importante factor de sobrevivência dos procariotas, constituindo de certo modo a versão de sistema imunitário destes organismos. A presença de DNA extra-cromossómico no interior dessas células pode, por recombinação com o cromossoma, provocar rearranjos ou até mesmo quebrar a continuidade circular desta estrutura, tornando as células inviáveis ou pelo menos acarretando um potencial decréscimo da viabilidade. Daí que a generalidade das eubactérias (sub-grupo de procariotas aonde pertence, nomeadamente, a espécie-modelo Escherichia coli) disponha destes sistemas de restrição, que as protegem destruindo todo o DNA que entre nas suas células com outras proveniências que não seja a mesma estirpe. Tais sistemas consistem de um par (ou mais) de endonucleases com metiltransferases, que reconhecem sequências curtas (em geral de 4 a 10 pares de nucleótidos) nas moléculas de DNA, mas com diferentes resultados: as endonucleases hidrolisam o DNA em pontos mais ou menos precisos, enquanto as metiltransferases adicionam um grupo metilo a um ou mais nucleótidos em condições tais que impedem o reconhecimento da sequência-alvo da correspondente endonuclease. O facto de serem sequências de reconhecimento curtas faz com que ocorram em frequência conveniente em qualquer segmento de DNA suficientemente longo: numa molécula de 20 kb (20 milhares de pares nucleotídicos) onde há 45% de pares G::C, o reconhecimento da sequência 5'····GAATTC····3' dá-se em média cada [(0,275)4×(0,225)2]1 = 3454 pares; tal molécula de DNA seria provavelmente hidrolisada por uma endonuclease reconhecendo esta sequência de tal modo que resultariam 6 ou 7 fragmentos — mas só caso não estivesse devidamente metilada, isto é, caso fosse "estranha" à estirpe com essa endonuclease: os grupos metilo colocados pela correspondente metiltransferase impediriam a hidrólise do próprio DNA, e é assim que a bactéria pode discriminar o que lhe pertence do que é "DNA invasor", isto é, restringir a intrusão de DNA de outras estirpes.
O isolamento de mutantes de E. coli totalmente deficientes em sistemas de restrição (RE), e a purificação de variadas endonucleases de restrição, permitiu realizar a seguinte experiência:
Digerir (sinónimo, neste contexto, de hidrolisar) in vitro o DNA de um bacteriófago λ (que infecta essa bactéria) com uma dessas endonucleases, e digerir com a mesma endonuclease, separadamente, DNA purificado (por exemplo) de células humanas; misturar as duas amostras e deixar que se forme aleatoriamente DNA recombinante, isto é, contendo sequências do bacteriófago e sequências humanas; dado que os extremos de cada fragmento da digestão são em geral coesivos, formam-se concatenados desse DNA recombinante a que só falta acrescentar uma ligase (cf. "replicação") para que se reconstitua a continuidade das cadeias. Transformando um lisogénio λ RE com estes concatenados e induzindo o profago, os concatenados são "empacotados" dentro das partículas virais em formação, que irão produzir lisogénios recombinantes. Através de sistemas de selecção apropriados podem detectar-se estes lisogénios e testar-se se são de facto recombinantes. Se o forem, temos então bactérias contendo no seu cromossoma, ladeado pelo DNA do profago λ, DNA humano.
Que segmento do DNA humano? Esse é todo o restante trabalho a fazer, que há-de variar com a questão científica a colocar. Mas estas bactérias, ao dividirem-se, formam clones donde se pode isolar elevado número de cópias de fagos recombinantes, cada clone produzindo um único tipo de fago do qual se pode extrair (digerindo novamente com a mesma endonuclease), uma sequência de DNA humano purificado e homogéneo, separado de todo o restante genoma humano. Por basear-se na obtenção de clones recombinantes, ao processo de isolamento dá-se o nome (consagrado pelo uso mas pouco correcto) de cloning, em inglês.
Recapitulando, os passos essenciais deste tipo de experiência são:
i) digestão do genoma donde se pretende fazer o isolamento de genes;
ii) inserção dos fragmentos de DNA num vector (um fago ou um plasmídeo, geralmente);
iii) introdução do DNA recombinante numa bactéria RE;
iv) isolamento dos clones.
Numa só experiência podem, em teoria, isolar-se segmentos representativos de todo o genoma, ou seja, desta experiência resulta não só um mas inúmeros clones recombinantes independentes, contendo cada um a sua sequência (humana, de macieira, etc.) inserida: resultam bancos genómicos, que podem ser preservados a 80 ºC quase indefinidamente.
O mesmo esquema pode ter variantes de acordo com os fins em vista: a complexidade dos genomas é tão grande que ninguém está individualmente interessado em isolar e estudar todos os clones que pode isolar. Por isso uma das variantes fundamentais consiste em isolar apenas os genes expressos num determinado tecido ou órgão na altura ou na circunstância que tiver maior interesse: por exemplo os genes de uma leguminosa nas diferentes fases de nodulação das raízes com Rhizobium; ou os genes do trigo nas fases sucessivas do desenvolvimento do endosperma da semente — isto é, da formação do glúten; ou os genes do sobreiro induzidos a seguir à tiragem da cortiça... O ponto de partida neste caso não deverá ser o DNA genómico, mas as moléculas de mRNA presentes nas células envolvidas nesses processos, mRNA que é extraído do material recolhido e retrotranscritas com uma retrotranscriptase, produzindo moléculas de DNA de cadeia dupla designadas por DNA complementar (cDNA). Estes cDNAs podem ser inseridos num vector, sendo o processo a partir daí o mesmo que o DNA genómico. Assim, em vez de bancos genómicos, produzem-se bancos de cDNA específicos para os tecidos ou órgãos em causa. Note-se que nos cDNAs toda a informação sobre promotores e intrões é perdida, portanto esta segunda estratégia não substitui a de produção de bancos genómicos.
Finalmente, existe uma terceira estratégia de isolamento que entronca na anterior mas é ainda mais restritiva: isolamento de genes por RT-PCR. Entre a retrotranscrição (RT) e a inserção no vector há um passo de amplificação enzimática de cDNAs contendo uma determinada sequência de nucleótidos. Esse passo tem o nome de reacção em cadeia catalisada por polimerase ("polymerase chain reaction", PCR) e permite que mesmo os mRNAs de expressão mais diluída num tecido sejam representados com elevada probabilidade num banco de cDNA. Supondo que se pretendem isolar genes de resistência a nemátodes parasitas das raízes da batateira e que já se conhece a sequência nucleotídica de genes envolvidos nessa resistência em Arabidopsis thaliana: então podem sintetizar-se quimicamente oligonucleótidos (cadeias simples de DNA relativamente curtas) complementares a cada uma das cadeias dos cDNAs específicos, uma num exão, outra noutro, e misturá-los com os bancos de cDNA derivados de mRNAs expressos nas raízes de batateira, na presença e na ausência de parasita. Após desnaturação das cadeias duplas pelo calor permite-se o re-emparelhamento, sendo provável que haja, a par da normal renaturação dos cDNAs, uma hibridação entre cadeias simples de cDNA e os oligonucleótidos. Este emparelhamento é o passo inicial de toda a amplificação enzimática: a partir das extremidades 3'-OH dos oligonucleótidos sintetizam-se cadeias complementares aos cDNAs hibridados, num processo de replicação que, ao fim de n ciclos de desnaturação-hibridação-polimerização, produz para cada um destes cDNAs, em teoria, 2n moléculas em cadeia dupla (figura 13). No final deste passo de amplificação, mesmo que os cDNAs de interesse sejam extremamente raros podem selectivamente atingir concentrações apreciáveis e assim permitir-se uma eficiente detecção nos bancos de cDNA obtidos.
Figura 13 — Retrotranscrição seguida de reacção em cadeia catalizada por polimerase (RT-PCR). Os exões são representados por números romanos (I V). As sequências (fictícias) destacadas nos exões I e V são aquelas que, no cDNA, se conta emparelharem com os oligonucleótidos utilizados na reacção de amplificação (traços mais espessos na fase de polimerização).
Se um determinado segmento duma sequência transcrita for único no genoma, é um alvo adequado para a estratégia RT-PCR, e corresponde a um EST ("expressed sequence tag", ou etiqueta de sequência expressa). Para cada tipo celular, tecido, passo do desenvolvimento ou evento metabólico, pode definir-se uma colecção única de ESTs.
Em resumo, há 3 estratégias de isolamento de genes, aplicáveis segundo o material e os objectivos de estudo:
Pode esperar-se algum sucesso na hibridação entre sequências de oligonucleótidos características duma espécie e os cDNAs doutra espécie que se pretende amplificar: por exemplo, muitos genes das mais diversas plantas são homólogos dos da Arabidopsis thaliana, porque descendem filogeneticamente de um mesmo locus que existiu em ancestrais comuns àquelas espécies e à A. thaliana; nos genes em que a divergência nucleotídica (por mutação) não tenha sido demasiado grande em relação ao homólogo da A. thaliana, as sequências dos oligonucleótidos conhecidas nesta planta-modelo estão suficientemente conservadas na outra espécie e por isso haverá emparelhamento. Daí a importância que é reconhecida à sequenciação sistemática de genomas-modelo, não só de Arabidopsis thaliana como também do arroz, este mais especificamente para o trabalho com cereais. A disponibilidade destas sequências na Internet e o desenvolvimento de estratégias computacionais para os investigadores procurarem e analisarem as sequências de seu interesse (Bioinformática) tem trazido interessantes frutos do conhecimento dos genomas-modelo.