Michel E. Beleza Yamagishi, pesquisador do Laboratório Multiusuário de Bioinformática da Empresa Brasileira de Pesquisa Agropecuária (Embrapa-LMB)
A Biologia Sintética (BS) trouxe desafios que transcendem os seus limites. Novas ferramentas, como a técnica denominada CRISPR-CAS, prometem revolucionar a biotecnologia, seja na saúde humana, seja na agropecuária. Sem dúvidas, editar genomas com a mesma facilidade de um editor de texto é um salto tecnológico disruptivo. Entretanto, da mesma forma que modificar um texto exige noções de aspectos gramaticais distintos, tais como ortografia, sintaxe e semântica, a alteração de sequências de organismos vivos demanda o domínio de um complexo conjunto de regras, muitas das quais, infelizmente, ainda desconhecidas. E esse conhecimento incompleto é tanto um fator de risco quanto de limitação da BS, pois uma maior fluência na “linguagem do DNA” garantiria alterações “gramaticalmente” corretas, aumentando assim as chances de serem bem-sucedidas.
As ciências biológicas têm feito um trabalho magnífico revelando regras relacionadas à função biológica das sequências genômicas. Entretanto, há também uma classe de Regras Intrínsecas do DNA (RID) que é pouco conhecida, mas que é obedecida pela maioria das sequências biológicas. A primeira delas foi descoberta pelo bioquímico Erwin Chargaff em 1951. Denominada “Primeira Regra de Paridade de Chargaff” (PRPC), afirma que a quantidade de nucleotídeos Adenina (A) é igual a quantidade de Timina (T), a mesma paridade ocorrendo entre Citosina (C) e Guanina (G). Uma apreciação apressada da PRPC poderia levar à conclusão errônea de se tratar de uma simples “curiosidade”, sem grandes consequências práticas. Na verdade, é difícil exagerar na sua importância. A PRPC foi usada, com os raios-X de Rosalind Franklin, como uma das principais pistas que resultou na estrutura em dupla-hélice do DNA. Obviamente, as ligações químicas entre os pares A-T e C-G na fita dupla do DNA explicam completamente esta primeira regra.
Depois de 17 anos, o genial e incansável Chargaff, em 1968, analisando a fita simples do DNA, descobriu mais uma relação entre os nucleotídeos. Desta vez observou que, na fita simples, a quantidade de A era aproximadamente igual a quantidade de T; o mesmo valendo para C e G. Esta é a “Segunda Regra de Paridade de Chargaff” (SRPC). Diferentemente da PRPC, não se conhece nenhuma explicação definitiva para esse fenômeno. Em comparação ao contexto atual onde as descobertas científicas ocorrem diariamente, o simples espaçamento temporal entre essas duas sugere o grau de dificuldade do assunto. A próxima descoberta só ocorreu após o advento do sequenciamento sanger e a disponibilidade de um número maior de sequências no formato digital. Foram necessários 25 anos para o “Princípio de Simetria” (PS), descoberto por Vinayakumar Prabhu, se unir, em 1993, às regras de Chargaff. Prabhu computou a frequência de oligonucleotídeos (conjunto de dois ou mais nucleotídeos), e observou que a frequência de um determinado oligonucleotídeo é aproximadamente igual à frequência do seu reverso-complementar. Não é difícil perceber que o PS é uma generalização da SRPC.
A partir de 2005, as Novas Tecnologias de Sequenciamento fizeram o preço por base sequenciada despencar. O volume de nucleotídeos começou a ser medido em Petabytes (1015 bytes). Essa revolução no sequenciamento fez com que o gargalo se deslocasse da produção para a análise das sequências. Neste novo cenário, a Bioinformática assumiu o protagonismo, e começou a empregar metodologias multidisciplinares para explorar os dados e obter novos insights. Para ficar num único exemplo da sinergia entre as ciências, algoritmos sofisticados de Inteligência Artificial (IA) foram aplicados na busca por padrões escondidos nas sequências, e muitos avanços científicos resultaram dessa estratégia. Contudo, nenhuma nova RID foi revelada por essa abordagem. Devido à abundância de material e às avançadas técnicas de mineração, e como historicamente todas as RID foram essencialmente descobertas empíricas, esperava-se encontrar muitas outras.
Como isso não ocorreu, e por causa do longo período transcorrido desde a última descoberta, a existência de novas RID começou a ser questionada. Talvez, o paradigma “gramatical” simplesmente não fosse pertinente ou a “gramática do DNA” fosse pobre. Porém, muitos dos que dedicaram suas careiras à genômica, e contemplaram tanto a complexidade quanto a harmonia interna dos genomas, nunca compartilharam dessas dúvidas. O Dr. Francis Collins, coordenador do Projeto Genoma Humano e atual diretor do National Institutes of Health (NIH), é um exemplo. Ele escreveu um livro cujo ponto de vista pode ser inferido a partir do título escolhido: “A Linguagem de Deus”. A metáfora encontra-se originariamente em um discurso, revisado por ele, e proferido pelo então presidente Bill Clinton, por ocasião da publicação do genoma humano. Se o DNA é ou não a linguagem de Deus não vem ao caso. Importa que seja semelhante a uma “linguagem” cuja “gramática”, certamente, é ordens de grandeza mais sofisticada que aquela das línguas naturais.
Para os gregos antigos, a natureza era matematicamente projetada. Coincidência ou não, as poucas regras conhecidas são relações quantitativas. Talvez, aquelas ainda incógnitas também o sejam. Daí a ideia de aplicar um formalismo matemático capaz de revelar padrões invisíveis tanto à observação direta quanto às abordagens já empregadas. A matemática “enxerga” entidades abstratas e as relações entre elas. E era exatamente isso que faltava. O livro "Mathematical Grammar of Biology" (Gramática Matemática da Biologia), de minha autoria, conta essa história em mais detalhes. Culmina com a apresentação de quatro novas RID matematicamente deduzidas, que, parafraseando Dr. Collins, “eram conhecidas anteriormente somente por Deus”. Elas enriquecem a “gramática do DNA”, e revelam mais uma centelha da beleza matemática escondida no código da vida. A publicação em inglês pode ser consultada na biblioteca da Embrapa Informática Agropecuária em Campinas, ou adquirida através do link .
Faz parte da natureza paradoxal do Conhecimento expandir as fronteiras do desconhecido. E estas últimas, como diria Nelson Rodrigues, “são vastíssimas”. Exceção feita à PRPC que está diretamente ligada à estrutura do DNA, não se conhece o papel ou a significância das demais RID. Sabe-se, entretanto, que foram preservadas ao longo da evolução. Isso implica que são importantes? Ou não passam de artefatos irrelevantes à adaptação e à sobrevivência dos organismos? A resposta só será conhecida quando a comunidade científica se debruçar seriamente sobre a urgentíssima “gramática da biologia”.