Enciclopedia de Conocimientos Fundamentales
UNAM ˜ SIGLO XXI


regreso








9.5 BIOINFORMÁTICA

No siempre las recompensas son expeditas. En 1962, un hombre de 37 años, originario de Chicago, está parado al otro lado del mundo, en la célebre Aula de la Universidad de Estocolmo; la audiencia aplaude, acaba de ser presentado por el rey de Suecia como el galardonado con el Premio Nobel de Fisiología o Medicina; su nombre es James Dewey Watson y el trabajo que lo hizo acreedor al premio fue el descubrimiento de la estructura molecular del ADN, que llevó a cabo en colaboración con su colega Francis Crick en 1953, nueve años antes, a sus 28.

En el quehacer científico siempre se están haciendo lecturas interesantes de los fenómenos; claro está que la lectura profunda, la verdadera, la que permite apreciar la obra completa, no se logra a la primera, de hecho puede ser que nunca se alcance, los científicos la persiguen mediante arduas aproximaciones sucesivas: la lectura que hizo Newton de la naturaleza nos develó parte de la misteriosa trama, se creía completamente descifrada, hubo que esperar poco más de siglo y medio la relectura más exacta de Einstein. Nunca se puede estar seguro de haber hecho la lectura final.

Tanto peor es la situación cuando no hay que leer, cuando no hay libro que descifrar, cuando ni siquiera se tiene la fortuna de saber que algo reclama nuestra lectura.

En 1990, 28 años después de la ceremonia en Estocolmo, la curiosidad de Watson permanece incólume, en ese año decide encabezar uno de los mayores proyectos científicos de la historia: determinar qué se debe leer para saber qué es un ser humano, encontrar el libro de donde se habrá de extraer el significado, la esencia, biológica al menos, de lo que significa un ser humano. Con el patrocinio del Departamento de Energía y de los Institutos Nacionales de Salud de Estados Unidos, se funda el Proyecto del Genoma Humano, encabezado por el doctor Watson.

El proyecto pretende determinar la secuencia completa de nucleótidos que constituye el código genético de los seres humanos en general. Transcurrirán 13 años antes de que el trabajo esté completo, en 2003. Watson ya no encabezará los esfuerzos luego de su salida del proyecto en 1992: él cree que el libro, una vez develado, le pertenece a la humanidad, cree que no debe ser privilegio de unos cuantos poseer su propia explicación; el director de los institutos de salud piensa, en cambio, que le pertenece al que lo descubre, que se pueden patentar genes, que es el bibliotecario y no el lector el dueño de la biblioteca; el conflicto es insoluble, Watson renuncia.

A raíz del proyecto del genoma humano y haciendo uso de las técnicas de biología molecular desarrolladas durante tal proyecto, se han secuenciado muchos más genomas. El número y la variedad de los seres vivos cuyo código genético se ha develado es enorme y continúa creciendo aceleradamente, todos los días; de hecho varias veces al día se actualizan los repositorios en los que se almacenan las secuencias. El acervo de datos que se posee es inmenso y se mantiene en continuo crecimiento.

Pero tener qué leer no sirve de mucho si no se lee. Es aún muy poco lo que se puede aprovechar de los datos que se tienen, comparado con el tamaño de éstos. Hacen falta herramientas de análisis. Es allí donde entra en el juego la computación.

Son muchas las cosas que se quisieran saber a propósito de los genomas disponibles y de los organismos definidos por ellos. Interesa saber para qué sirve cada segmento del código genético; en él se codifican las proteínas que determinan la función biológica de las células que lo poseen. Las células del páncreas tienen un programa detallado que les dice cómo producir insulina; las células cancerosas "olvidan" para qué fueron hechas y olvidan morir, porque hay un segmento de su código genético que ha sido alterado, se reproducen prolíficamente y producen proteínas que envían mensajes equivocados a otras células. Si se pudiese leer eficientemente el código genético, se podría percibir más fácilmente a las que han olvidado su labor y sus mensajes, sería fácil eliminarlas; de hecho, se lograría que ciertas enfermedades, cuya propensión se encuentra en los genes, nunca se desarrollen y diseñar medicamentos "a la medida" para las personas de acuerdo con su perfil genético.

Para hacer esto se requiere entender lo que se dice en las secuencias almacenadas en las enormes bases de datos internacionales en las que se guardan los genomas de mamíferos, plantas, bacterias, virus y personas. Es necesario analizar los datos allí contenidos de forma tal que permitan obtener información útil.

Una buena parte de la computación aplicada a la biología molecular, lo que suele denominarse bioinformática, consiste en diseñar algoritmos que permitan comparar cadenas de símbolos en un alfabeto determinado. Si las secuencias son de adn, por ejemplo, el alfabeto está constituido por los símbolos de las cuatro bases o nucleótidos que lo forman: A (adenina), T (timina), C (citosina) y G (guanina); si en cambio las secuencias son proteínas, el alfabeto está hecho de los 20 símbolos usados para representar aminoácidos.

Comparar cadenas de símbolos no es una labor particularmente difícil en computación. De hecho, es bastante simple. Si se pretende, por ejemplo, encontrar el segmento de cadena más grande posible que resulta ser común a un conjunto de cadenas, el algoritmo para llevar a cabo esto posee una complejidad polinomial. Sin embargo, lo realmente interesante en bioinformática es hacer comparaciones inexactas; generalmente se pretende encontrar el segmento más largo posible que resulta ser común, salvo unas cuantas diferencias, a un conjunto de cadenas. Esto de "salvo unas cuantas diferencias" es lo que trae los problemas; los algoritmos para hacer comparaciones inexactas pueden resultar sumamente costosos en tiempo, el problema subyacente es de los que se han llamado intratables en este libro.

Los computólogos dedicados a la bioinformática están permanentemente buscando métodos que se aproximen a la solución de este y otros problemas intratables. Algunos de hecho recurren a técnicas de inteligencia artificial para lograrlo.

Pero… ¿por qué interesa hacer comparaciones inexactas? Resulta que, de acuerdo con lo que se sabe hasta ahora, el motor de la evolución de los organismos vivos son las mutaciones que, como sabe el lector, consisten en alteraciones fortuitas en el código genético, tales como la inserción ocasional de un símbolo que originalmente no estaba allí o la desaparición de uno que sí estaba o el cambio de uno por otro. A lo largo de millones de generaciones estas mutaciones se acumulan y entonces los organismos emparentados en la cadena evolutiva pueden tener códigos muy diferentes a simple vista, pero en realidad, salvo algunas alteraciones, son similares. Determinar este parentesco puede ser de gran importancia porque bien pudiera ocurrir que uno tenga propiedades que lo distinguen del otro y determinar a qué se deben las diferencias.

El código genético es complejo, hay en él tramos de secuencia que realmente no codifican proteínas y que se ignora para qué puedan servir, aparentemente son vestigios inútiles de generaciones pasadas, pero nunca se sabe, sería bueno averiguarlo realmente. Otros tramos codifican proteínas que hacen que a su vez se produzcan otras proteínas, a esto se le llama secuencias reguladoras y de tener capacidad de detectarlas, se podría, por ejemplo, inhibir el efecto nocivo de algunos virus o detener la propagación del cáncer en un organismo. No se sabe si en algún momento se va a lograr, no se ve fácil y probablemente pasen muchos años antes de que se puedan recibir los beneficios potenciales de la investigación en bioinformática. No siempre las recompensas son expeditas.


Inicio de página