Em 1889, o médico francês François-Gilbert Viault desceu de uma montanha nos Andes, tirou sangue do próprio braço e o examinou em um microscópio. Os glóbulos vermelhos do médico, responsáveis por transportar oxigênio pelo corpo, tinham aumentado em 42%. Ele havia descoberto um poder misterioso inerente ao corpo humano: quando este precisa de mais células cruciais para a vida, pode produzi-las sob demanda.
No começo dos anos 1900, cientistas chegaram à conclusão de que a causa dessa expansão de glóbulos vermelhos era um hormônio, produzido principalmente pelos rins. Chamaram-no de eritropoietina, que em grego quer dizer “fabricante de vermelho”. Sete décadas depois, pesquisadores encontraram a eritropoietina real, depois de filtrar 2.536 litros de urina. E, cerca de 50 anos depois, biólogos em Israel anunciaram ter encontrado uma célula renal rara que produz o hormônio quando o nível de oxigênio decai muito. Foi chamada de célula Norn, em homenagem às divindades nórdicas que, se acreditava, controlavam o destino da humanidade.
Os humanos levaram 134 anos para descobrir a célula Norn. No verão passado, os computadores da Califórnia a descobriram por conta própria em apenas seis semanas.
A descoberta se deu quando pesquisadores da Universidade Stanford programaram computadores para que estes aprendessem biologia por conta própria. As máquinas executavam um programa de inteligência artificial (IA) semelhante ao ChatGPT – o bot que se tornou fluente em linguagem, depois de ser treinado com bilhões de trechos de textos retirados da internet.
Os pesquisadores de Stanford fizeram diferente: treinaram seus computadores com dados brutos sobre milhões de células reais e sua composição química e genética. Não informaram os computadores do significado dessas medições; não explicaram que diferentes tipos de células têm perfil bioquímico diferente; não definiram, por exemplo, quais células captam luz em nossos olhos ou quais produzem anticorpos.
Assim, os computadores processaram os dados por conta própria, criando um modelo de todas as células com base na semelhança entre elas, em um vasto espaço multidimensional. Quando as máquinas terminaram o serviço, tinham aprendido muito. Eram capazes de classificar uma célula, que nunca tinham visto antes, como pertencente a um dos mais de mil tipos existentes. Uma delas era a célula Norn. “É impressionante, porque ninguém nunca informou o modelo de que existe uma célula Norn no rim”, disse Jure Leskovec, cientista da computação em Stanford, que treinou os computadores.
O software de Stanford é um dos novos programas baseados em IA, conhecidos como “modelos de fundação”, que estão voltados para aprender os fundamentos da biologia. Mas os modelos vão mais além do que, simplesmente, organizar a informação que os biólogos recolheram; estão descobrindo como os genes funcionam e como as células se desenvolvem.
À medida que os modelos evoluem, acumulando cada vez mais dados laboratoriais e maior capacidade computacional, cientistas preveem que serão feitas descobertas de maior profundidade. Poderão revelar segredos sobre o câncer e outras doenças. Poderão descobrir receitas para transformar um tipo de célula em outro. “Uma descoberta vital para a biologia, que, de outra forma, não teria sido feita por biólogos – creio que, em breve, vamos testemunhar isso”, disse o dr. Eric Topol, diretor do Instituto de Pesquisa Translacional Scripps.
Até onde irão as descobertas é uma questão em debate. Alguns céticos pensam que os modelos vão bater em algum muro, enquanto os cientistas mais otimistas acreditam que os modelos de fundação chegarão perto de abordar a maior questão biológica de todas: o que separa a vida da não vida?
Há muito tempo, os biólogos procuram entender como as diferentes células do nosso corpo usam os genes para fazer tantas coisas de que precisamos para permanecermos vivos.
Mais ou menos uma década atrás, pesquisadores iniciaram experimentos em escala industrial para extrair pedaços genéticos de células individuais. Registraram o que encontraram em catálogos, chamados “atlas de células”, que contêm bilhões de dados.
A dra. Christina Theodoris, residente médica do Hospital Infantil de Boston, estava lendo sobre um novo tipo de modelo de IA criado por engenheiros do Google, em 2017, para tradução de idiomas. Os desenvolvedores do programa forneceram ao modelo milhões de frases em inglês, bem como sua tradução para o alemão e o francês.
O modelo desenvolveu a capacidade de traduzir frases nunca antes vistas por ele. Theodoris se perguntou se um modelo semelhante poderia aprender sozinho a dar sentido a dados extraídos de um atlas de células. Em 2021, batalhou para encontrar um laboratório que lhe permitisse construir um modelo. “Havia muito ceticismo de que essa abordagem funcionaria, mas eu precisava tentar”, disse ela.
Shirley Liu, bióloga computacional do Instituto do Câncer Dana-Farber, em Boston, deu-lhe a chance de que precisava. Theodoris, então, extraiu dados de 106 estudos humanos publicados que, coletivamente, armazenavam informações sobre 30 milhões de células, e inseriu tudo em um programa chamado GeneFormer. O modelo resultante desse estudo obteve uma compreensão profunda de como nossos genes se comportam em diferentes células. Previu, por exemplo, que a desativação de um gene chamado TEAD4, em certo tipo de célula cardíaca, desequilibraria gravemente o coração. Quando sua equipe fez os testes em células reais, chamadas cardiomiócitos, o ritmo das células do coração ficou mais fraco.
Em outro teste, Theodoris e seus colegas compararam células cardíacas GeneFormer de pessoas com ritmo cardíaco defeituoso com as de pessoas saudáveis. “Nossa pergunta foi: que mudanças precisamos que haja nas células prejudicadas para torná-las saudáveis?”, contou Theodoris, que agora trabalha na Universidade da Califórnia, em San Francisco.
O programa GeneFormer recomendou a redução da atividade de quatro genes que nunca haviam sido associados a doenças cardíacas. A equipe de Theodoris seguiu o conselho do modelo, desativando cada um dos quatro. Em dois dos quatro casos, o tratamento melhorou a forma como as células se contraíam.
A equipe de Stanford entrou no negócio do modelo de fundação depois de colaborar na construção de um dos maiores bancos de dados de células do mundo, conhecido como CellXGene. Desde agosto passado, os pesquisadores treinaram seus computadores na compreensão de 33 milhões de células existentes no banco de dados, concentrando-se em um tipo de informação genética chamada ARN mensageiro. Também alimentaram o modelo com estruturas 3D de proteínas, que são geradas pelos genes.
A partir desses dados, o modelo – conhecido como Universal Cell Embedding, ou UCE – calculou a similaridade entre as células, agrupando-as em mais de mil conjuntos de acordo com a forma como usavam seus genes. Os aglomerados correspondiam a tipos de células descobertas por gerações de biólogos.
A UCE também aprendeu algumas coisas importantes sobre como as células se desenvolvem a partir de um único óvulo fertilizado. Por exemplo, reconheceu que todas as células do corpo podem ser agrupadas de acordo com a origem das três camadas no embrião inicial. “Essencialmente, ela redescobriu a biologia do desenvolvimento”, afirmou Stephen Quake, biofísico de Stanford que ajudou a desenvolver a UCE.
O modelo também foi capaz de transferir seu conhecimento para novas espécies. Se fosse apresentada ao perfil genético das células de um animal que nunca tivesse visto antes – um rato-toupeira-pelado, por exemplo –, a UCE poderia identificar muitos de seus tipos de células. “Se você trouxer um organismo completamente novo – uma galinha, um sapo, um peixe, qualquer coisa – e inseri-lo no modelo, vai obter algo útil para investigar”, comentou Leskovec.
Depois que a UCE descobriu as células Norn, Leskovec e seus colegas voltaram ao banco de dados CellXGene para saber de onde elas tinham vindo. Embora muitas tenham sido retiradas dos rins, algumas vieram dos pulmões ou de outros órgãos. Era possível, especularam os pesquisadores, que as células Norn, até então desconhecidas, estivessem espalhadas pelo corpo inteiro.
A descoberta despertou a curiosidade de Katalin Susztak, pesquisadora médica da Universidade da Pensilvânia, que estuda células Norn: “Quero verificar essas células”, disse ela, embora esteja cética quanto ao fato de o modelo ter encontrado células Norn verdadeiras fora dos rins, uma vez que o hormônio eritropoetina não foi encontrado em outros lugares. Mas as novas células talvez sintam o oxigênio como as células Norn. Em outras palavras, a UCE pode ter descoberto um novo tipo de célula antes mesmo dos biólogos.
Assim como o ChatGPT, os modelos biológicos às vezes erram. Kasia Kedzierska, bióloga computacional da Universidade de Oxford, e outros colegas recentemente pediram ao GeneFormer e a outro modelo de fundação, o scGPT, uma bateria de testes. Apresentaram aos modelos um material do atlas de células que não tinha sido pesquisado antes e pediram que cumprissem tarefas como classificar as células de acordo com sua tipologia. Os modelos tiveram um bom desempenho em algumas tarefas, mas em outras tiveram um desempenho ruim, se comparados a programas de computador mais simples.
Kedzierska afimou que tem grandes esperanças nos modelos, mas que, por enquanto, “não devem ser usados imediatamente sem uma compreensão adequada de seus limites”.
Segundo Leskovec, os modelos estão melhorando à medida que cientistas os treinam com mais dados. Mas, em comparação com o treinamento que o ChatGPT recebe de toda a internet, os atlas celulares mais recentes oferecem apenas uma quantidade modesta de informações. “Eu gostaria de ter uma internet inteira de células”, comentou ele.
Mais células estão a caminho à medida que maiores atlas de células ficam on-line. Cientistas estão coletando diferentes tipos de dados de cada uma das células desses atlas. Alguns pesquisadores catalogam as moléculas que aderem aos genes ou tiram fotografias de células para destacar a localização precisa das proteínas presentes em seu interior. Todas essas informações permitirão que os modelos de fundação tirem lições sobre o que faz com que as células funcionem.
Os cientistas também estão desenvolvendo ferramentas que permitem aos modelos de fundação combinar o que estão aprendendo por conta própria com o que os biólogos de carne e osso estão descobrindo. A ideia é conectar milhares de artigos científicos publicados aos bancos de dados que fazem as medições celulares.
Os cientistas dizem que, com dados e capacidade computacional suficientes, poderão finalmente criar uma representação matemática completa de uma célula.
Quake suspeita que os modelos de fundação vão aprender não apenas sobre os tipos de células que, atualmente, residem em nosso corpo, mas também sobre os tipos de células que poderiam existir. Especula que somente certas combinações bioquímicas poderiam manter uma célula viva. Sonha poder usar modelos de fundação para fazer um mapa que mostre o reino do possível, além do qual a vida não pode existir. “Acho que esses modelos vão nos ajudar a obter uma compreensão realmente fundamental da célula, o que nos dará algumas pistas sobre o que de fato é a vida.”
Ter um mapa do que é possível e impossível para sustentar a vida também pode significar que os cientistas realmente serão capazes de criar células que ainda não existem na natureza. As perguntas são: poderá o modelo de fundação inventar receitas químicas que transformem células comuns em células novas e extraordinárias? Ou, por exemplo, criar células que devorem as placas que entopem os vasos sanguíneos ou desenvolver células que explorem um órgão doente para relatar sua condição? “É como no filme ‘Viagem Fantástica’. Mas quem sabe o que o futuro nos reserva?”, afirmou Quake.
c. 2024 The New York Times Company
Inteligência artificial e equipamentos de ponta podem acelerar a construção de edifícios