Genômica sintética: a meio passo do “elemento da vida”. De populações celulares a células individuais

Genômica - o estudo de todo o genoma

Últimos avanços em sequenciamento e desenvolvimento meios técnicos Para processamento um grande número clones na biblioteca de genes permitiram aos cientistas estudar todo o genoma de um organismo de uma só vez. As sequências completas de muitas espécies já foram determinadas, incluindo a maioria dos chamados organismos genéticos modelo, como E. coli;lombriga Caenorhabditis elegans; e, claro, o objeto clássico da genética, a mosca da fruta Drosophila melanogaster. Na década de 1990, apesar de uma série de problemas e divergências, foi lançado um projeto para estudar o genoma humano (“Genoma Humano”), para o qual foram alocados recursos Instituto Nacional saúde. Em fevereiro de 2001 grupo grande pesquisadores liderados por J. Craig Venter, do laboratório privado Celera Genomics, fizeram uma declaração sobre a decodificação preliminar do genoma humano. O resultado de seu trabalho foi publicado em 16 de fevereiro de 2001 na revista Science.

Outra versão, apresentada por um grupo do International Human Genome Sequencing Consortium, foi publicada em 13 de fevereiro de 2001 na revista Nature.

O nascimento da genômica pode ser considerado em meados do século 20, quando os geneticistas mapearam todos os cromossomos de organismos modelo com base na frequência de recombinações (ver Capítulo 8). No entanto, esses mapas mostraram apenas os genes para os quais os alelos mutantes eram conhecidos e, portanto, esses mapas não podem ser chamados de completos. O sequenciamento completo de DNA permite localizar todos os genes de um organismo, bem como estabelecer a sequência de bases entre eles.

A genômica é dividida em estrutural e funcional. A genômica estrutural visa descobrir exatamente onde certos genes estão localizados no DNA cromossômico. Os programas de computador reconhecem o início e o fim típicos dos genes, selecionando as sequências que provavelmente são genes. Essas sequências são chamadas quadro de leitura aberto (OFR). O mesmo programas de computador também pode reconhecer íntrons típicos em sequências OFR. Depois que os íntrons são isolados do gene potencial, o computador usa o código restante para determinar a sequência de aminoácidos na proteína. Em seguida, essas proteínas potenciais são comparadas com aquelas proteínas cujas funções já são conhecidas e cujas sequências já estão inseridas no banco de dados. Graças a este tipo de programas, os chamados conservadorismo evolutivo: que para a maioria dos genes em organismos diferentes existem genes semelhantes. Do ponto de vista do desenvolvimento evolutivo, essa semelhança é compreensível: se uma proteína de uma espécie biológica está bem adaptada para suas funções, seu gene é transmitido da mesma forma ou com pequenas mudanças para espécies derivadas da inicial. O conservadorismo evolutivo permite a identificação de genes relacionados a um determinado gene em outros organismos. Comparando o gene resultante com os já conhecidos, muitas vezes é possível determinar sua função, necessariamente verificando-a em experimentos subsequentes.

Uma vez que todos os genes potenciais tenham sido identificados, o mapeamento genético começa. O mapa genético humano é um diagrama bastante confuso e heterogêneo, pois cada gene é marcado com uma determinada cor dependendo de sua função, que é estabelecida em comparação com outros genes conhecidos. A maioria dos genes humanos, como os genes de todos os eucariotos em geral, tem íntrons grandes. De acordo com estimativas aproximadas, entre as sequências publicadas, cerca de um terço ou um quarto são íntrons. Curiosamente, apenas cerca de 1,5% de todo o genoma humano (cerca de 2,9 x 10 9 pares de bases) contém sequências (exons) que codificam proteínas. Além disso, esse DNA parece conter apenas 35.000-45.000 genes, o que é menos do que o previsto. Ainda temos que entender como um número relativamente pequeno de genes codifica um organismo tão complexo.

Número de cópias de DNA repetitivo pessoas diferentes não é o mesmo, então eles podem ser usados ​​para estabelecer a identidade, inclusive na medicina forense.

genômica funcionalé o estudo da função do gene ao nível de todo o genoma. Embora os genes potenciais possam ser identificados por sua semelhança com genes que desempenham funções conhecidas em outros organismos, todas as suposições devem ser testadas contra o organismo em estudo. Em alguns organismos modelo, como a levedura nutricional, é possível desligar sistematicamente a função dos genes um por um. Desligando o gene ocorre substituindo sua forma funcional por uma forma apagada em um vetor especial. Em seguida, obtenha uma cepa com um gene desativado e avalie seu fenótipo. Em um programa em andamento para analisar o genoma nutricional da levedura, vários milhares de genes foram desativados um por um.

Outro método de genômica funcional é que eles estudam o mecanismo de transcrição no nível de todo o genoma. Este método com base no pressuposto de que a maioria fenômenos biológicos representar processos complexos envolvendo muitos genes. De particular interesse para os pesquisadores são os processos associados ao desenvolvimento do organismo, que mencionamos no Cap. 11. Se a transcrição do gene for estudada em condições diferentes crescimento, então você pode ter uma ideia das vias genéticas completas do desenvolvimento do organismo.

Mas como a transcrição pode ser estudada no nível do genoma? Mais uma vez, as novas tecnologias ajudam os cientistas nisso. O DNA de cada gene do genoma ou de alguma parte do genoma é colocado na superfície de pequenas placas de vidro dispostas em ordem. Em seguida, eles são expostos a todos os tipos de mRNA encontrados na célula determinado organismo. O DNA em placas é obtido de duas maneiras. De certa forma, todos os mRNAs são submetidos a Transcrição reversa para obter moléculas curtas de DNA complementares correspondentes a um gene. De outra forma, os genes (ou partes dos genes) são sintetizados uma base de cada vez em certas áreas das placas. A síntese é realizada por robôs que abrem e fecham a superfície do vidro em uma determinada ordem. Registros com o genoma de muitos organismos podem ser adquiridos em empresas químicas.

A genômica é geralmente chamada de um dos ramos biologia molecular. Sua principal tarefa está no chamado sequenciamento do genoma - o estudo das sequências de nucleotídeos de DNA e RNA. Não confunda as palavras genética e genômica. A genética lida com o estudo dos mecanismos de hereditariedade e variabilidade, e a genômica é projetada para colocar em prática o conhecimento adquirido.

Da história da ciência

Como área especial, a genômica foi formada em 1980-1990 juntamente com o surgimento dos primeiros projetos de sequenciamento (análise molecular) de genomas certos tipos organismos vivos.

Estrutura da genômica

Na genômica moderna, existem muitas subseções:

  • genômica comparativa ou evolutiva, é baseada na comparação da organização e conteúdo dos genomas de vários organismos vivos;
  • genômica funcional - estuda detalhadamente as funções dos genes, seu impacto na atividade gênica;
  • A genômica estrutural lida com o sequenciamento, a análise molecular do DNA, com base na qual os mapas genômicos são criados e podem ser comparados.

Por que precisamos de genômica

Um grande número de genomas de vários microrganismos (principalmente patogênicos) foi decifrado. Isso possibilita a busca de genes alvo de drogas aqui e a produção de novas drogas.

A genômica é percebida como parte integrante e necessária biologia geral. É capaz de dar uma contribuição significativa para o desenvolvimento da biotecnologia, Agricultura, assistência médica.

Em um hospital em Wisconsin, uma criança de três anos deixou os médicos perplexos por muito tempo. Nesta criança, os intestinos estavam edemaciados e quase completamente cheios de abscessos. Esta criança tinha sobrevivido a mais de cem cirurgias aos três anos de idade. O bebê recebeu uma sequência completa das regiões codificadoras de seu DNA, o culpado da doença foi identificado - a proteína XIAP, que está envolvida nas cadeias de sinal da morte celular programada, desempenha um papel muito papel importante no sistema imunológico. Devido ao diagnóstico, os fisiologistas recomendaram um transplante de medula óssea. O bebê foi salvo.

Outro caso envolveu um câncer atípico em uma mulher de 39 anos que sofria de uma forma aguda de leucemia promielocítica. Ao usar métodos de diagnóstico padrão, a doença não pôde ser detectada. Mas ao decifrar e analisar o genoma células cancerosas foi possível descobrir que uma grande parte do décimo quinto cromossomo mudou para o décimo sétimo, o que provocou certa interação gênica. O paciente foi prescrito tratamento adequado.

Primeira minuta, 2003 - conclusão do projeto). Seu desenvolvimento tornou-se possível não apenas pelo aprimoramento dos métodos bioquímicos, mas também pelo surgimento de um Ciência da Computação o que tornou possível trabalhar com grandes quantidades de dados. O comprimento dos genomas em organismos vivos às vezes é medido em bilhões de pares de bases. Por exemplo, o genoma humano tem cerca de 3 bilhões de pares de bases. O maior genoma conhecido (no início de 2010) pertence a uma das espécies de peixes pulmonados (aproximadamente 110 bilhões de pares).

Seções de genômica

Genômica estrutural

Genômica estrutural - o conteúdo e organização da informação genômica. Tem como objetivo estudar genes com estrutura conhecida para entender sua função, bem como determinar estrutura espacial o número máximo de moléculas de proteína "chave" e sua influência nas interações.

genômica funcional

A genômica funcional é a implementação da informação registrada no genoma do gene para o traço.

Genômica comparativa

Genômica comparativa (evolutiva) - estudos comparativos do conteúdo e organização dos genomas organismos diferentes.

A obtenção de sequências genômicas completas esclareceu o grau de diferenças entre os genomas de diferentes organismos vivos. A tabela abaixo apresenta dados preliminares sobre a semelhança dos genomas de diferentes organismos com o genoma humano. A similaridade é dada em porcentagem (refletindo a proporção de pares de bases que são idênticos nas duas espécies comparadas).

Visão semelhança Notas e fontes
Humano 99,9 % Projeto Genoma Humano
100 % gêmeos idênticos
Chimpanzé 98,4 % Americanos para o Progresso Médico;
98,7 % Richard Mural da Celera Genomics, citado na MSNBC
Bonobo, ou chimpanzé pigmeu O mesmo que para os chimpanzés.
Gorila 98,38 % Com base no estudo de DNA não repetitivo intergênico (American Journal of Human Genetics, fevereiro de 2001, 682, pp. 444-456)
Rato 98 %
85 % ao comparar todas as sequências que codificam proteínas, NHGRI
Cão 95 % Jon Entine no San Francisco Examiner
C.elegans 74 % Jon Entine no San Francisco Examiner
Banana 50 % Americanos para o progresso médico
Narciso 35 % Steven Rose no The Guardian 22 de janeiro

Exemplos da aplicação da genômica na medicina

Em um hospital de Wisconsin, uma criança de três anos confundiu os médicos por muito tempo, seus intestinos estavam inchados e completamente cheios de abscessos. Aos três anos, essa criança já havia passado por mais de cem cirurgias separadas. Para ele, uma sequência completa das regiões codificadoras de seu DNA foi ordenada, de acordo com os resultados, com a ajuda de meios improvisados, foi identificado o culpado da doença - a proteína XIAP envolvida nas cadeias sinalizadoras de morte celular programada. No operação normal desempenha um papel muito importante no sistema imunológico. Com base nesse diagnóstico, os fisiologistas recomendaram o transplante de medula óssea em junho de 2010. Em meados de junho, a criança já conseguia comer pela primeira vez na vida.

Outro caso foi associado a um quadro atípico Câncer em uma mulher de 39 anos que sofre de forma aguda leucemia promielocítica. No métodos padrão diagnóstico, porém, a doença não foi identificada. Mas ao decifrar e analisar o genoma das células cancerígenas, descobriu-se que uma grande parte do 15º cromossomo mudou para o 17º, o que causou uma certa interação gênica. Como resultado, a mulher recebeu o tratamento de que precisava.

Notas

Veja também

Links

  • Tishchenko P.D. Genomics: um novo tipo de ciência em uma nova situação cultural.
  • Genomas microbianos completos (genomas completamente decodificados de bactérias e archaea).

Fundação Wikimedia. 2010.

Sinônimos:

Veja o que é "Genomics" em outros dicionários:

    genômica- * genômica * genômica é uma nova direção da genética, a ciência dos genomas, incluindo o estudo de sua estrutura, funcionamento e evolução nos aspectos molecular, cromossômico, bioquímico, níveis fisiológicos. Uma das tarefas do G estrutural é ... ... Genética. dicionário enciclopédico

    Existe., número de sinônimos: 1 genética (11) dicionário de sinônimos ASIS. V.N. Trishin. 2013... Dicionário de sinônimos

    genômica- A ciência que estuda todos os genes e seu papel na estrutura do corpo, como em condição normal, e em caso de doença Assuntos de biotecnologia EN genômica … Manual do Tradutor Técnico

    Genômica- ler o genoma, em particular, de uma pessoa, e atividades científicas e técnicas relacionadas: ஐ É óbvio que era mais fácil chegar à impunidade para diferenciar direções em tecnobiologia, já que clamando por plágio e até aprimoramento ... .. . O mundo de Lem - dicionário e guia

    genômica- Genômica Genômica O estudo de todo o conjunto de genes que compõem um organismo ... Dicionário explicativo inglês-russo de nanotecnologia. - M

    genômica- genomika statusas T sritis augalininkystė apibrėžtis Nauja genetikos kryptis, kuri apima genomo individualių genų molekulių lygyje, geno sandaros, jo raiškos, aktyvumo reguliavimo mechanizmo ir genų panaudojimo genų inžinerijos tikslams… … Žemės ūkio augalų selekcijos ir sėklininkystės terminų žodynas

    Ramo da genética que estuda a estrutura e o funcionamento da decomposição do genoma. organismos com a ajuda de biol., físico. química e métodos de computadorCiência natural. dicionário enciclopédico

    genômica- genética ômica, e... dicionário de ortografia russo

    Genômica- uma seção de genética, cujo assunto é o estudo dos princípios de construção de genomas e sua estrutura organização funcionalDicionário de Psicogenética

    Procura descrever a estrutura tridimensional de cada proteína codificada por um determinado genoma. Uma combinação de abordagens experimentais e de modelagem é usada. A diferença fundamental entre genômica estrutural e estrutural tradicional ... ... Wikipedia

Livros

  • Genética clínica. Genômica e proteômica da patologia hereditária. Tutorial. Abutre UMO na educação universitária clássica, Mutovin Gennady Romanovich. O livro discute as principais disposições e conceitos da genética clínica, levando em conta os resultados do programa científico internacional `Genoma Humano` (1988-2005). História, disposições,…

No final do século 20, as tecnologias moleculares se desenvolveram tão intensamente que os pré-requisitos foram criados para o estudo sistemático da estrutura dos genomas. tipos diferentes seres vivos, incluindo humanos. Um dos objetivos mais significativos desses projetos é determinar a sequência completa de nucleotídeos do DNA genômico. Assim, uma nova ciência nasceu - genômica.

O início do novo milênio foi marcado pela maior descoberta no campo da genômica - a estrutura do genoma humano foi decifrada. A notícia acabou sendo tão significativa que virou assunto de discussão entre os presidentes dos principais países do mundo. No entanto, muitas pessoas não ficaram impressionadas com esta mensagem. Em primeiro lugar, isso se deve à falta de compreensão do que é um genoma, qual é sua estrutura e o que significa sua decodificação? Esta notícia tem alguma coisa a ver com medicina e pode afetar cada um de nós? O que é medicina molecular e seu desenvolvimento está relacionado à decifração da estrutura do genoma? Além disso, algumas pessoas têm medo de que novamente uma nova descoberta de cientistas para a humanidade? Esses dados serão usados ​​para fins militares? Será seguido por um exame genético geral obrigatório - uma espécie de passaporte genético da população? Nosso genoma será objeto de análise e quão confidencial será a informação obtida? Todas essas questões estão sendo discutidas ativamente na comunidade científica.

É claro que a genômica não começou com os humanos, mas com seres vivos muito mais simples e organizados. Atualmente, a sequência de nucleotídeos do DNA genômico de muitas centenas de espécies de microrganismos foi decifrada, a maioria dos quais são patogênicos. Para os procariontes, a completude da análise acabou sendo absoluta, ou seja, nem um único nucleotídeo permanece indecifrado! Como resultado, não apenas todos os genes desses microrganismos são identificados, mas também são determinadas as sequências de aminoácidos das proteínas por eles codificadas. Temos observado repetidamente que o conhecimento da sequência de aminoácidos de uma proteína torna possível prever com bastante precisão sua estrutura e funções. Abre a possibilidade de obter anticorpos para esta proteína preditiva, seu isolamento do microrganismo e análise bioquímica direta. Vamos pensar no que isso significa para o desenvolvimento de métodos fundamentalmente novos de combate às infecções, se o médico não apenas souber como os genes do microrganismo infectante estão organizados, mas também qual é a estrutura e a função de todas as suas proteínas? A microbiologia está passando por enormes mudanças devido ao surgimento de uma enorme quantidade de novos conhecimentos, cuja importância atualmente não compreendemos completamente. Provavelmente levará décadas para ajustar isso nova informaçãoàs necessidades da humanidade, principalmente no campo da medicina e da agricultura.

A transição de procariotos para eucariotos em termos de decifração da estrutura do genoma é acompanhada por grandes dificuldades, e não apenas porque o comprimento do DNA superior é milhares, e às vezes centenas de milhares de vezes maior, mas sua estrutura se torna mais complexa. Lembre-se de que um grande número de DNA não codificante aparece no genoma de animais superiores, uma parte significativa dos quais são sequências repetitivas. Eles introduzem uma confusão significativa no encaixe correto de fragmentos de DNA já decifrados. E, além disso, as próprias repetições em tandem são difíceis de decifrar. Na área de localização de tais repetições, o DNA pode ter uma configuração incomum, o que dificulta sua análise. Portanto, no genoma de um dos tipos de lombriga microscópica (nematóide) - o primeiro organismo multicelular para o qual foi possível determinar a sequência de nucleotídeos do DNA - já existem vários lugares obscuros. Verdade, seus Gravidade Específicaé inferior a um centésimo por cento do comprimento total do DNA, e essas ambiguidades não dizem respeito a genes ou elementos reguladores. A sequência de nucleotídeos de todos os 19.099 genes desse verme, distribuídos em uma área de 97 milhões de pares de bases, foi completamente determinada. Portanto, o trabalho de decifração do genoma do nematoide deve ser reconhecido como muito bem-sucedido.

Um sucesso ainda maior está associado à decifração do genoma da Drosophila, que é apenas 2 vezes menor que o DNA humano e 20 vezes maior que o DNA do nematoide. Apesar do alto grau de conhecimento genético da Drosophila, cerca de 10% de seus genes eram desconhecidos até aquele momento. Mas o mais paradoxal é o fato de que a Drosophila, muito mais organizada do que o nematóide, acabou tendo menos genes do que a lombriga microscópica! É difícil explicar a partir de posições biológicas modernas. Mais genes do que em Drosophila também estão presentes no genoma decodificado de uma planta da família das crucíferas - Arabidopsis, amplamente utilizada pelos geneticistas como objeto experimental clássico.

O desenvolvimento de projetos genômicos foi acompanhado pelo desenvolvimento intensivo de muitas áreas da ciência e tecnologia. Assim, um poderoso impulso para o seu desenvolvimento recebeu bioinformática. Um novo aparato matemático foi criado para armazenar e processar grandes quantidades de informação; sistemas de supercomputadores com poder sem precedentes foram projetados; Milhares de programas foram escritos que permitem em questão de minutos realizar uma análise comparativa de vários blocos de informação, inserir diariamente em bancos de dados de computadores novos dados obtidos em vários laboratórios ao redor do mundo e adaptar novas informações àquelas que foram acumuladas. mais cedo. Ao mesmo tempo, foram desenvolvidos sistemas para o isolamento eficiente de vários elementos do genoma e sequenciamento automático, ou seja, a determinação de sequências de nucleotídeos de DNA. Com base nisso, robôs poderosos foram projetados para acelerar significativamente o sequenciamento e torná-lo mais barato.

O desenvolvimento da genômica, por sua vez, levou à descoberta de um grande número de novos fatos. O significado de muitos deles ainda precisa ser avaliado no futuro. Mas mesmo agora é óbvio que essas descobertas levarão a repensar muitas posições teóricas sobre a origem e evolução de várias formas de vida na Terra. Eles vão te ajudar a entender melhor mecanismos moleculares subjacente ao trabalho de células individuais e suas interações; decifração detalhada de muitos ciclos bioquímicos até então desconhecidos; análise de sua conexão com os fundamentos processos fisiológicos. Assim, há uma transição da genômica estrutural para a funcional, que por sua vez cria os pré-requisitos para a pesquisa bases moleculares o funcionamento da célula e do organismo como um todo. As informações já acumuladas serão objeto de análise nas próximas décadas. Mas cada próximo passo para decifrar a estrutura dos genomas de diferentes espécies dá origem a novas tecnologias que facilitam o processo de obtenção de informações. Assim, o uso de dados sobre a estrutura e função dos genes de espécies de seres vivos menos organizados pode acelerar significativamente a busca por genes específicos de seres superiores. E mesmo agora, os métodos de análise de computador usados ​​para identificar novos genes geralmente substituem métodos moleculares procurar genes.

A consequência mais importante de decifrar a estrutura do genoma um certo tipoé a possibilidade de identificar todos os seus genes e, consequentemente, identificar e determinar a natureza molecular das moléculas de RNA transcritas e de todas as suas proteínas. Por analogia com o genoma, os conceitos nasceram transcriptoma, que une o pool de moléculas de RNA formado como resultado da transcrição, e proteoma, que inclui muitas proteínas codificadas por genes. Assim, a genômica cria a base para o desenvolvimento intensivo de novas ciências - proteômica e transcriptômica. A proteômica trata do estudo da estrutura e função de cada proteína; análise composição de proteínas células; determinação da base molecular do funcionamento de uma única célula, que é o resultado do trabalho coordenado de muitas centenas de proteínas, e o estudo da formação do traço fenotípico de um organismo, que é o resultado do trabalho coordenado de bilhões de células. Processos biológicos muito importantes também ocorrem no nível do RNA. Sua análise é o assunto da transcriptômica.

Os maiores esforços de cientistas em muitos países do mundo que trabalham no campo da genômica têm sido direcionados para resolver projeto internacional"Genoma humano". Um progresso significativo nesta área está associado à implementação da ideia proposta por J.S. Venter, de pesquisar e analisar sequências de DNA expressas, que podem ser posteriormente utilizadas como uma espécie de "rótulos" ou marcadores para determinadas partes do genoma. Outra abordagem independente e não menos frutífera foi tomada pelo trabalho do grupo liderado pelo Pe. Collins. Baseia-se na identificação primária de genes para doenças hereditárias humanas.

Decifrar a estrutura do genoma humano levou a uma descoberta sensacional. Descobriu-se que o genoma humano contém apenas 32.000 genes, o que é várias vezes menor que o número de proteínas. Ao mesmo tempo, existem apenas 24.000 genes codificadores de proteínas; os produtos dos genes restantes são moléculas de RNA. A porcentagem de semelhança nas sequências de nucleotídeos de DNA entre diferentes indivíduos, grupos étnicos e raças é de 99,9%. Essa semelhança é o que nos torna humanos - Homo sapiens! Toda a nossa variabilidade no nível de nucleotídeos se encaixa em uma figura muito modesta - 0,1%. Assim, a genética não deixa espaço para ideias de superioridade nacional ou racial.

Mas, olhe um para o outro - somos todos diferentes. As diferenças nacionais e, mais ainda, raciais são ainda mais perceptíveis. Então, quantas mutações determinam a variabilidade de uma pessoa não em termos percentuais, mas em termos absolutos? Para obter essa estimativa, você precisa lembrar qual é o tamanho do genoma. O comprimento de uma molécula de DNA humano é 3,2 x 10 9 pares de bases. 0,1% disso é 3,2 milhões de nucleotídeos. Mas lembre-se de que a parte codificadora do genoma ocupa menos de 3% do comprimento total da molécula de DNA, e as mutações fora dessa região, na maioria das vezes, não têm efeito sobre a variabilidade fenotípica. Assim, para obter uma estimativa integral do número de mutações que afetam o fenótipo, é preciso tirar 3% de 3,2 milhões de nucleotídeos, o que nos dará um valor da ordem de 100.000. Ou seja, cerca de 100 mil mutações formam nosso fenótipo variabilidade. Se compararmos esta figura com número total genes, verifica-se que, em média, existem 3-4 mutações por gene.

Quais são essas mutações? Sua grande maioria (pelo menos 70%) determina nossa variabilidade individual não patológica, o que nos distingue, mas não nos torna piores em relação uns aos outros. Isso inclui características como cor dos olhos, cabelo, pele, tipo de corpo, altura, peso, tipo de comportamento, que também é amplamente determinado geneticamente e muito mais. Cerca de 5% das mutações estão associadas a doenças monogênicas. Cerca de um quarto das mutações restantes pertencem à classe de polimorfismos funcionais. Eles estão envolvidos na formação de predisposição hereditária para patologia multifatorial generalizada. É claro que essas estimativas são bastante grosseiras, mas tornam possível julgar a estrutura da variabilidade hereditária humana.



Esta é a parte 1 da história da genômica, chamada de "Projetos Genômicos". Nesta parte, tentarei falar popularmente sobre como surgiram os primeiros métodos de leitura de sequências genéticas, em que consistiam e como a genômica passou da leitura de genes individuais para a leitura de genomas completos, incluindo genomas completos. pessoas especificas.

Logo após a descoberta de Watson e Crick (Fig. 1), nasceu a ciência da genômica. A genômica é a ciência que estuda os genomas dos organismos, que envolve a leitura intensiva de sequências completas de DNA (sequenciamento) e seu mapeamento em mapas genéticos. Esta ciência também considera as interações entre genes e alelos de genes e sua diversidade, padrões de evolução e a estrutura dos genomas. O desenvolvimento desta área tem sido tão rápido que, muito recentemente, editores de texto como Microsoft Word não conhecia a palavra "genoma" e tentou corrigi-la para a palavra "anão".

Arroz. 1James Watson (esquerda) e Francis Crick (direita) - cientistas que descobriram a dupla hélice do DNA

O primeiro gene lido foi o gene shell do bacteriófago MS2, estudado no laboratório de Walter Fyers em 1972. Em 1976, outros genes de bacteriófagos também eram conhecidos - sua replicase, o gene responsável pela reprodução das partículas virais. Moléculas curtas de RNA já eram lidas com relativa facilidade, mas moléculas grandes de DNA ainda não eram capazes de ler corretamente. Por exemplo, a sequência de 24 letras da sequência do gene do operon da lactose obtida em 1973 por Walter Gilbert e Allen Maxam foi considerada um avanço significativo na ciência. Aqui está a sequência:

5"—TGGAATTGTGAGCGGATAACAATT 3"
3"—ACCTTAACACTCGCCTATTGTTAA 5"

As primeiras técnicas de leitura de DNA eram muito ineficientes e usavam marcadores radioativos para DNA e métodos químicos distinguir nucleotídeos. Por exemplo, pode-se tomar enzimas que cortam a sequência de nucleotídeos com diferentes probabilidades após letras diferentes. A molécula de DNA é composta por 4 letras (nucleotídeos) A, T, G e C, que fazem parte de uma dupla antiparalela (duas fitas são direcionadas em lados opostos) espirais. Dentro dessa hélice, os nucleotídeos se opõem de acordo com a regra da complementaridade: o oposto de A na outra cadeia é T, o oposto de G é C e vice-versa.

Gilbert e Maxam usaram 4 tipos de enzimas. Um corte após A ou G, mas melhor após A (A>G), o segundo corte melhor após G (G>A), o terceiro após C e o quarto após C ou T (C+T). A reação foi realizada em 4 tubos de ensaio com cada tipo de enzima e, em seguida, os produtos foram colocados em gel. O DNA é uma molécula carregada e quando a corrente é ligada, ela vai de menos a mais. Moléculas menores correm mais rápido, então as moléculas de DNA cortadas se alinham em comprimento. Olhando para as 4 pistas do gel, pode-se dizer em qual sequência os nucleotídeos estão localizados.

Um avanço no campo do sequenciamento de DNA veio quando o bioquímico inglês Frederick Sanger, em 1975, propôs o chamado “método de terminação de fita” para a leitura de sequências de DNA. Mas antes de falar sobre esse método, é necessário apresentar os processos que ocorrem durante a síntese de novas moléculas de DNA. Para a síntese de DNA, é necessária uma enzima - DNA polimerase dependente de DNA, que é capaz de completar a construção de uma molécula de DNA de fita simples para uma de fita dupla. Para fazer isso, a enzima precisa de uma "semente" - um primer, uma sequência curta de DNA que pode se ligar a uma molécula longa de fita simples, que queremos construir em uma fita dupla. Os próprios nucleotídeos também são necessários na forma de trifosfatos de nucleotídeos e certas condições, como um certo teor de íons de magnésio no meio e uma certa temperatura. A síntese sempre vai em uma direção da extremidade chamada 5' até a extremidade chamada 3'. Claro, para ler o DNA, você precisa de uma grande quantidade de matriz - isto é, cópias do DNA que serão lidas.

Em 1975, Sanger surgiu com o seguinte. Ele pegou nucleotídeos especiais (terminadores), que, tendo se juntado à cadeia crescente da molécula de DNA, interferiram na fixação de nucleotídeos subsequentes, ou seja, eles “quebraram” a cadeia. Em seguida, ele pegou 4 tubos de ensaio, a cada um dos quais adicionou todos os 4 tipos de nucleotídeos e um tipo de nucleotídeos terminais em pequena quantidade. Assim, no tubo de ensaio onde estava localizado o nucleotídeo de terminação “A”, a síntese de cada nova molécula de DNA poderia se romper em qualquer lugar onde “A” deveria estar, no tubo de ensaio com o “G” de terminação - em qualquer lugar onde G deve ficar, e assim por diante. 4 pistas de 4 tubos foram aplicadas ao gel (Fig. 2) e novamente as moléculas mais curtas “correram” para a frente, e as mais longas permaneceram no início, e pelas diferenças nas bandas foi possível dizer qual nucleotídeo segue qual. Para ver as bandas, um dos quatro nucleotídeos (A, T, G ou C) foi marcado, sem alterar as propriedades químicas, usando isótopos radioativos.

Arroz. 2Método Sanger. Três séries de 4 faixas são mostradas.

Usando este método, o primeiro genoma baseado em DNA foi lido, o genoma do bacteriófago ϕX174, com 5,386 nucleotídeos de comprimento (o genoma do fago MS2 lido anteriormente era baseado em RNA e tinha um genoma de 3,569 nucleotídeos de comprimento).

O método de Sanger foi significativamente melhorado no laboratório de Leroy Hood, onde em 1985 o rótulo radioativo foi substituído por um rótulo luminoso e fluorescente. Isso possibilitou a criação do primeiro sequenciador automático: cada molécula de DNA foi agora colorida cor diferente dependendo de qual foi a última letra (nucleotídeo marcado com cores terminando a cadeia). Os fragmentos foram separados por tamanho no gel e a máquina leu automaticamente o espectro de luminescência das bandas de entrada, enviando os resultados para um computador. Como resultado deste procedimento, obtém-se um cromatograma (Fig. 2), segundo o qual é fácil estabelecer uma sequência de DNA de até 1000 letras, com um número muito pequeno de erros.



Arroz. 3 Um exemplo de cromatograma, em um sequenciador moderno, usando o método de terminação da cadeia Sanger e um rótulo brilhante.

Por muitos anos, o método aprimorado de Sanger se tornará o principal método de sequenciamento de genoma em massa e será usado para muitos projetos de genoma completo, e Sanger em 1980 receberá um segundo premio Nobel em química (ele recebeu o primeiro em 1958 para ler a sequência de aminoácidos da proteína insulina - a primeira proteína lida). O primeiro genoma completo organismo celular tornou-se o genoma de uma bactéria que causa algumas formas de pneumonia e meningite - haemophilus influenzae em 1995. O genoma desta bactéria tinha 1.830.137 nucleotídeos de comprimento. Em 1998, o primeiro genoma de um animal multicelular, uma lombriga, aparece Caenorhabditis elegans(Fig. 4 à direita), com 98 milhões de nucleotídeos, e então no ano 2000 aparece o primeiro genoma da planta - Arabidopsis thaliana(Fig. 4 à esquerda), parentes de rábano e mostarda. O genoma desta planta tem 157 milhões de nucleotídeos. A velocidade e a escala do sequenciamento cresceram a uma taxa surpreendente, e os bancos de dados emergentes de sequências de nucleotídeos foram reabastecidos cada vez mais rápido.


Arroz. quatro Arabidopsis thaliana(esquerda) e Caenorhabditis elegans(na direita).

Finalmente, foi a vez do genoma dos mamíferos: os genomas do camundongo e do humano. Quando, em 1990, James Watson liderou o projeto completo de leitura do genoma humano nos Institutos Nacionais de Saúde (NIH) nos EUA, muitos cientistas estavam céticos em relação à ideia. Tal projeto exigiu um investimento colossal de dinheiro e tempo e, oportunidades limitadas máquinas existentes para ler genomas, parecia a muitos simplesmente inviável. Por outro lado, o projeto prometia mudanças revolucionárias na medicina e na compreensão do dispositivo. corpo humano mas havia problemas aqui também. O fato é que naquele momento não havia uma estimativa exata do número de genes em uma pessoa. Muitos acreditavam que a complexidade da estrutura do corpo humano indica a presença de centenas de milhares de genes, e talvez vários milhões, e, portanto, separar tal número de genes, mesmo que sua sequência pudesse ser lida, seria uma tarefa difícil. tarefa impossível. Foi na presença de um grande número de genes que muitos assumiram a diferença fundamental entre o homem e os outros animais - uma visão posteriormente refutada pelo projeto genoma humano.

A própria ideia de ler o genoma humano nasceu em 1986 por iniciativa do Departamento de Energia dos EUA, que posteriormente financiou o projeto em conjunto com o NIH. O custo do projeto foi estimado em 3 bilhões de dólares, e o projeto em si foi concebido por 15 anos com a participação de vários países no projeto: China, Alemanha, França, Grã-Bretanha e Japão. Para a leitura do genoma humano, foram utilizados os chamados “cromossomos bacterianos artificiais” (BAC - bacteria artificial cromossoma). Nessa abordagem, o genoma é cortado em vários pedaços, com cerca de 150.000 mil nucleotídeos de comprimento. Esses fragmentos são inseridos em cromossomos artificiais em anel que são inseridos em bactérias. Com a ajuda de bactérias, esses cromossomos se multiplicam e os cientistas obtêm muitas cópias do mesmo fragmento da molécula de DNA. Cada um desses fragmentos é então lido separadamente, e os pedaços lidos de 150.000 nucleotídeos são plotados em um mapa cromossômico. Este método permite um sequenciamento bastante preciso do genoma, mas é muito demorado.

Mas o projeto genoma humano estava se movendo extremamente devagar. O cientista Craig Venter e sua empresa Celera Genomics, fundada em 1998, tiveram na história da genômica o mesmo papel que União Soviética influenciou o vôo dos americanos para a lua. Venter disse que sua empresa concluiria o projeto do genoma humano antes que o projeto do governo fosse concluído. O projeto exigirá apenas US$ 300 milhões, uma fração do custo do projeto do governo, usando nova tecnologia sequenciamento "espingarda do genoma inteiro" - lendo fragmentos curtos aleatórios do genoma. Quando Francis Collins, que substituiu James Watson como chefe do Projeto de Leitura do Genoma Humano em 1993, soube das intenções de Venter, ficou chocado. “ Faremos o genoma humano, e você pode fazer um camundongo sugeriu Venter. Comunidade científica Eu estava animado, e havia uma série de razões para isso. Em primeiro lugar, Venter prometeu terminar seu projeto em 2001, por 4 anos antes do previsto planejado para o projeto estadual. Em segundo lugar, a Celera Genomics iria capitalizar o projeto criando um banco de dados absoluto que seria pago por empresas farmacêuticas comerciais.

Em 2000, a Celera comprovou a eficácia de seu método de sequenciamento publicando o genoma da mosca-das-frutas Drosophila, em conjunto com o laboratório do geneticista Gerald Rubin (antes, a espingarda de genoma inteiro era usada para ler o primeiro genoma de uma bactéria, mas poucos acreditavam que este método era adequado para genomas grandes). Foi este pontapé de uma empresa comercial que estimulou o desenvolvimento de melhorias e a utilização de mais métodos modernos lendo genomas no Projeto Genoma Humano. Em 2001, uma versão preliminar do genoma foi publicada pelo State Genomic Project e pela Celera. Então foi feito estimativa preliminar o número de genes no genoma humano, 30-40 mil. Em 2004, saiu a versão final do genoma, quase dois anos antes do previsto. No último artigo, foi dito que o número de genes em uma pessoa é supostamente de apenas 20 a 25 mil. Este número é comparável com outros animais, em particular com um verme C.elegans.

Quase ninguém adivinhou que o número de genes que garantem o trabalho do nosso corpo pode ser tão pequeno. Mais tarde, outros detalhes ficaram conhecidos: o genoma humano tem um comprimento de cerca de três bilhões de nucleotídeos, a maioria O genoma é composto de sequências não codificantes, incluindo todos os tipos de repetições. Apenas uma pequena parte do genoma realmente contém genes - seções de DNA das quais as moléculas de RNA funcionais são lidas. Fato interessante que à medida que o conhecimento do genoma humano aumentava, o número de genes putativos só diminuía: muitos genes potenciais acabaram por ser pseudogenes (genes não funcionais), em outros casos, vários genes acabaram por fazer parte do mesmo gene.

As taxas de sequenciamento adicionais aumentaram exponencialmente. Em 2005, foi publicado o genoma do chimpanzé, que confirmou a incrível semelhança entre macacos e humanos, que foi vista por zoólogos do passado. Em 2008, os genomas de 32 vertebrados foram totalmente lidos, incluindo gato, cachorro, cavalo, macaco, orangotango e elefante, 3 genomas de deuterostômios de invertebrados, 15 genomas de insetos, 7 genomas de vermes e centenas de genomas bacterianos.

Finalmente, em 2007, a humanidade se aproximou da possibilidade de sequenciar os genomas de pessoas individuais. A primeira pessoa a ler a íntegra genoma individual, foi Craig Venter (Fig. 4). Ao mesmo tempo, o genoma foi lido de tal forma que foi possível comparar os cromossomos de Venter, herdados de ambos os pais. Assim, descobriu-se que entre um e outro conjunto de cromossomos dentro de uma pessoa existem cerca de três milhões de diferenças de nucleotídeos de uma letra, sem contar o grande número de grandes regiões variadas. Um ano depois, o genoma diplóide completo de James Watson foi publicado (Fig. 5). O genoma de Watson continha 3,3 milhões de substituições de uma única letra em comparação com o genoma humano anotado, das quais mais de 10.000 resultaram em mudanças nas proteínas que codificam seus genes. O genoma de Watson custou US$ 1 milhão, ou seja, o preço da leitura de genomas caiu mais de 3.000 vezes em 10 anos, mas esse não é o limite. Hoje, os cientistas se deparam com a tarefa de '1 genoma - $ 1000 - 1 dia', e não parece mais impossível com o advento de novas tecnologias de sequenciamento. A próxima parte da "história" contará sobre eles.


Arroz. 5 James Watson e Craig Venter são os primeiros humanos a ler genomas individualmente.

  1. Watson J, Crick F: Uma estrutura para ácido nucleico desoxirribose. Nature 1953(171):737-738.
  2. Min Jou W, Haegeman G, Ysebaert M, Fiers W: Sequência de nucleótidos da codificação do gene para o proteína de revestimento do bacteriófago MS2. Nature 1972, 237(5350):82-88.
  3. Fiers W, Contreras R, Duerinck F, Haegeman G, Iserentant D, Merregaert J, Min Jou W, Molemans F, Raeymaekers A, Van den Berghe A et al: Sequência de nucleotídeos completa do bacteriófago MS2 RNA: estrutura primária e secundária da replicase gene. Nature 1976, 260(5551):500-507.
  4. Gilbert W, Maxam A: A sequência de nucleótidos do operador lac. Proc Natl Acad Sci U S A 1973, 70(12):3581-3584.
  5. Maxam AM, Gilbert W: Um novo método para sequenciamento de DNA. Proc Natl Acad Sci U S A 1977, 74(2):560-564.
  6. Sanger F, Nicklen S, Coulson AR: sequenciamento de DNA com inibidores de terminação de cadeia. Proc Natl Acad Sci U S A 1977, 74(12):5463-5467.
  7. Smith LM, Sanders JZ, Kaiser RJ, Hughes P, Dodd C, Connell CR, Heiner C, Kent SB, Hood LE: Detecção de fluorescência na análise automatizada de sequências de DNA. Nature 1986, 321(6071):674-679.
  8. Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, Kerlavage AR, Bult CJ, Tomb JF, Dougherty BA, Merrick JM et al: Sequenciamento aleatório de genoma inteiro e montagem de Haemophilus influenzae Rd. Science 1995, 269(5223):496-512.
  9. Sequência do genoma do nematoide C. elegans: uma plataforma para investigar a biologia. Ciência 1998, 282(5396):2012-2018.
  10. Análise da sequência do genoma da planta com flor Arabidopsis thaliana. Nature 2000, 408(6814):796-815.
  11. Adams MD, Celniker SE, Holt RA, Evans CA, Gocayne JD, Amanatides PG, Scherer SE, Li PW, Hoskins RA, Galle RF et al: A sequência do genoma de Drosophila melanogaster. Science 2000, 287(5461):2185-2195.
  12. Venter JC, Adams MD, Myers EW, Li PW, Mural RJ, Sutton GG, Smith HO, Yandell M, Evans CA, Holt RA et al: A sequência do genoma humano. Science 2001, 291(5507):1304-1351.
  13. Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, Devon K, Dewar K, Doyle M, FitzHugh W et al: Sequenciamento inicial e análise do genoma humano. Nature 2001, 409(6822):860-921.
  14. Finalizando a sequência eucromática do genoma humano. Nature 2004, 431(7011):931-945.
  15. Sequência inicial do genoma do chimpanzé e comparação com o genoma humano. Nature 2005, 437(7055):69-87.
  16. Levy S, Sutton G, Ng PC, Feuk L, Halpern AL, Walenz BP, Axelrod N, Huang J, Kirkness EF, Denisov G et al: A sequência do genoma diplóide de um indivíduo humano. PLoS Biol 2007, 5(10):e254.
  17. Wheeler DA, Srinivasan M, Egholm M, Shen Y, Chen L, McGuire A, He W, Chen YJ, Makhijani V, Roth GT et al: O genoma completo de um indivíduo por sequenciamento de DNA massivamente paralelo. Nature 2008, 452(7189):872-876.
Parte 2 - aqui