Introdução ao Evo 2
Uma equipe de pesquisadores do Arc Institute, em colaboração com as universidades de Stanford, Califórnia em Berkeley, Califórnia em São Francisco e a Nvidia, apresentou o Evo 2. Este modelo de inteligência artificial, considerado o maior já criado para aplicações biológicas, possui a capacidade de gerar cromossomos completos e entender variações genéticas complexas em diferentes formas de vida.
Base de Dados e Treinamento
O Evo 2 foi treinado utilizando um extenso atlas genômico que contém 9,3 trilhões de pares de bases de DNA provenientes de bactérias, archaea e eucariotos, abrangendo mais de 100.000 espécies. Essa ampla base de dados permite ao modelo prever e projetar sequências biológicas em escalas que vão do molecular ao genômico, abrangendo todos os domínios da vida.
Arquitetura e Capacidades do Modelo
Foram desenvolvidas duas versões do Evo 2, com 7 e 40 bilhões de parâmetros, respectivamente. Ambas conseguem processar contextos de sequência de até 1 milhão de pares de bases. O modelo aprende a prever com precisão como variantes genéticas afetam funções apenas analisando sequências de DNA, sem a necessidade de treinamento adicional específico para cada tarefa.
Geração de Estruturas Genéticas Complexas
Testes demonstraram que o Evo 2 compreende características biológicas diversas e é capaz de gerar genomas mitocondriais completos, genomas procarióticos e cromossomos eucarióticos que correspondem em comprimento e complexidade aos naturais. Ao analisar mutações no gene BRCA1, associado ao câncer de mama, o sistema quase igualou a precisão dos melhores modelos de IA existentes na identificação de alterações causadoras de doenças.
Controle de Estruturas Epigenômicas
Os pesquisadores descobriram que, ao utilizar a busca em tempo de inferência — onde o Evo 2 gera múltiplas sequências possíveis e as filtra através de uma função de avaliação — é possível controlar com precisão estruturas epigenômicas complexas, como a acessibilidade da cromatina. Esta é a primeira demonstração de resultados escaláveis para computação em tempo de inferência na biologia.
A capacidade de controlar a acessibilidade da cromatina, que determina se genes podem ser acessados e ativados por proteínas celulares ou permanecem inativos, é particularmente significativa. Combinando modelagem generativa e busca em tempo de inferência, o Evo 2 pode projetar sequências de DNA com padrões regulatórios epigenéticos específicos, definindo precisamente quais regiões devem estar acessíveis ou inativas.
Disponibilidade Open Source para a Comunidade Científica
Para promover o avanço da pesquisa e do design biológico, a equipe disponibilizou o Evo 2 como open source, incluindo os parâmetros do modelo, códigos de treinamento e inferência, além do dataset OpenGenome2. Isso o torna um dos maiores modelos totalmente abertos no campo. Assim como seu predecessor, o Evo 1, o Evo 2 utiliza uma arquitetura híbrida da série StripedHyena.
Avanços em Relação ao Evo 1
O Evo 2 representa um avanço significativo em relação ao Evo 1. O novo modelo foi treinado com 30 vezes mais dados e abrange uma gama muito mais ampla de formas de vida, incluindo eucariotos. Seu contexto de sequência expandiu de 8.000 para 1 milhão de pares de bases, em parte graças à nova arquitetura “StripedHyena 2”. Enquanto o Evo 1 trabalhava apenas com procariontes, o Evo 2 realiza previsões em todo o genoma através de todos os domínios da vida com maior precisão.
Desafios e Perspectivas Futuras
Embora o Evo 2 represente um avanço técnico significativo, desafios permanecem. O biólogo computacional de Stanford, Anshul Kundaje, elogiou a arquitetura técnica do modelo, mas questionou se ele realmente compreende as sequências não codificantes remotas que regulam a atividade gênica.
Brian Hie, de Stanford e do Arc Institute, reconhece que, embora os genomas gerados pelo Evo 2 sejam uma melhoria em relação ao trabalho de seu predecessor, provavelmente ainda não funcionariam em células vivas. A equipe deliberadamente excluiu humanos e patógenos de organismos complexos dos dados de treinamento por razões éticas e de segurança, garantindo que o modelo não forneça respostas úteis sobre esses patógenos.
Conclusão
O Evo 2 surge como uma ferramenta poderosa na interseção da inteligência artificial e biologia, oferecendo novas possibilidades para a compreensão e manipulação de sequências genéticas. Com sua disponibilidade open source, espera-se que a comunidade científica possa explorar e expandir suas aplicações, levando a avanços significativos na pesquisa biológica e médica.
Fonte: The-Decoder