CapÃtulo 1 : Bioinformática
Una disciplina interdisciplinaria de estudio conocida como bioinformática (/?ba?.o???nf?r'maet?ks/ (i)) es responsable del desarrollo de metodologías y herramientas de software que se utilizan con el propósito de comprender datos biológicos, particularmente cuando los conjuntos de datos son de naturaleza grande y complicada. Con el fin de analizar e interpretar datos biológicos, la bioinformática hace uso de una amplia gama de disciplinas, como la biología, la química, la física, la informática, la programación informática, la ingeniería de la información, las matemáticas y la estadística. El concepto de biología computacional se utiliza ocasionalmente para referirse al proceso de procesamiento e interpretación de datos; Sin embargo, la distinción entre los dos conceptos es frecuentemente discutida. La frase "biología computacional" es utilizada por algunas personas para referirse al proceso de construcción y utilización de modelos de sistemas biológicos.
Con el fin de llevar a cabo evaluaciones de simulación por computadora de investigaciones biológicas, se han utilizado técnicas computacionales, estadísticas y de programación informática. Un ejemplo de ello es el descubrimiento de genes y polimorfismos de un solo nucleótido (SNPs), que son ejemplos de "pipelines" de análisis específicos que han sido reutilizados. Esto es particularmente frecuente en el campo de la genómica. Este tipo de conductos se utilizan para obtener una comprensión más profunda de los fundamentos genéticos de las enfermedades, las adaptaciones distintivas, las características deseables (particularmente en las especies agrícolas) o las diferencias entre poblaciones. El estudio de la proteómica, que busca comprender los principios organizativos que están presentes dentro de las secuencias de ácidos nucleicos y proteínas, también se incluye en el campo de la bioinformática.
La capacidad de extraer hallazgos relevantes a partir de enormes cantidades de datos en bruto es posible gracias al procesamiento de imágenes y señales, respectivamente. Cuando se trata del estudio de la genética, es útil para secuenciar y anotar genomas, así como las mutaciones que se observan en ellos. La minería de textos de la literatura biológica y la creación de ontologías biológicas y genéticas son componentes de la bioinformática. Estas ontologías se implementan con el fin de organizar y consultar datos biológicos. Además de esto, se asocia con la investigación de la expresión y el control de genes y proteínas. Las herramientas bioinformáticas son útiles para comparar, analizar e interpretar datos genéticos y genómicos, así como para obtener una comprensión más amplia de los elementos evolutivos de la biología molecular cuando se utilizan más ampliamente. Las vías y redes biológicas que son un componente esencial de la biología de sistemas pueden analizarse y catalogarse con la ayuda de esta herramienta, que es de naturaleza más integradora. Proporciona asistencia en la simulación y modelado de ADN, ARN y proteínas, así como en el modelado de interacciones biomoleculares, en el campo de la biología estructural.
En el año 1970, Paulien Hogeweg y Ben Hesper dieron con el significado inicial del término "bioinformática", que se refería al estudio de los procesos de información que ocurren dentro de los sistemas bióticos. La bioinformática se posicionó como una ciencia paralela a la bioquímica, que es el estudio de los procesos químicos que ocurren dentro de los sistemas biológicos, según esta definición.
El estudio de los datos biológicos, en particular las secuencias de ADN, ARN y proteínas, fue un aspecto importante tanto de la bioinformática como de la biología computacional. El Proyecto del Genoma Humano y los rápidos avances en la tecnología de secuenciación del ADN fueron los factores principales que impulsaron la dramática expansión del área de la bioinformática, que comenzó a mediados de la década de 1990 y continuó hasta el día de hoy.
Se requiere escribir y operar programas de software que hagan uso de algoritmos de teoría de grafos, inteligencia artificial, computación blanda, minería de datos, procesamiento de imágenes y simulación por computadora para analizar datos biológicos y proporcionar información útil. Por otro lado, los algoritmos dependen de fundamentos teóricos como las matemáticas discretas, la teoría de control, la teoría de sistemas, la teoría de la información y la estadística.
Desde la finalización del Proyecto del Genoma Humano, ha habido una mejora significativa tanto en la velocidad de secuenciación como en el costo de la secuenciación. En la actualidad, algunos laboratorios son capaces de secuenciar más de 100.000 billones de bases al año, y es posible leer un genoma completo por menos de 1.000 dólares.
Desde principios de la década de 1950, cuando Frederick Sanger descubrió la secuencia de la insulina, las computadoras han sido indispensables en el campo de la biología molecular. Esto se debe a que las secuencias de proteínas ahora están fácilmente disponibles. Realizar una comparación manual de múltiples secuencias resulta ser un enfoque poco realista. Una de las pioneras en el campo, Margaret Oakley Dayhoff, fue responsable de compilar una de las primeras bases de datos de secuencias de proteínas. Estas bases de datos se publicaron inicialmente en forma de libros, y también incluían métodos de alineación de secuencias y evolución molecular. Elvin A. Kabat fue otro de los primeros contribuyentes al campo de la bioinformática. Fue un pionero en el campo del análisis de secuencias biológicas, habiendo puesto la pelota en marcha en 1970 con sus exhaustivos volúmenes de secuencias de anticuerpos que se pusieron a disposición en línea junto con Tai Te Wu entre los años 1980 y 1991.
La década de 1970 fue testigo de la implementación de nuevos métodos para la secuenciación del ADN, específicamente aplicados a los bacteriófagos MS2 y øX174. Posteriormente, se analizaron las secuencias de nucleótidos extendidas mediante algoritmos informacionales y estadísticos. Los resultados de estos experimentos demostraron que características bien conocidas, como los segmentos codificantes y el código triplete, pueden descubrirse mediante un análisis estadístico sencillo. Estas investigaciones también proporcionaron evidencia de que la noción de bioinformática sería informativa.
Con el fin de investigar las formas en que las actividades celulares normales se interrumpen en varios estados de enfermedad, es necesario agregar datos biológicos en bruto para crear una imagen completa de estos procesos. En consecuencia, la disciplina de la bioinformática ha progresado hasta el punto de que el trabajo más importante que se está realizando ahora es el procesamiento e interpretación de diferentes tipos de datos. Además, se incluyen secuencias de nucleótidos y aminoácidos, así como dominios y estructuras de proteínas.
Entre las subdisciplinas significativas que caen bajo el paraguas de la bioinformática y la biología computacional se encuentran:
Uno de los objetivos fundamentales de la bioinformática es mejorar la comprensión de los procesos que ocurren en los organismos vivos. El hecho de que ponga énfasis en el desarrollo e implementación de métodos computacionalmente costosos para lograr este objetivo es lo que lo diferencia de otros enfoques. El reconocimiento de patrones, la minería de datos, las técnicas de aprendizaje automático y la visualización son algunos ejemplos de este tipo de aplicaciones. El alineamiento de secuencias, el descubrimiento de genes, el ensamblaje del genoma, el diseño de fármacos, el descubrimiento de fármacos, el alineamiento de la estructura de proteínas, la predicción de la estructura de proteínas, la predicción de la expresión génica y las interacciones proteína-proteína, los estudios de asociación de todo el genoma, el modelado de la evolución y la división/mitosis celular son algunos de los principales esfuerzos de investigación que se están llevando a cabo en este campo.
Con el fin de hacer frente a las dificultades formales y prácticas que surgen de la gestión y el análisis de datos biológicos, la bioinformática implica la invención y el avance de las bases de datos, los algoritmos, las técnicas computacionales y estadísticas, y la teoría. Esto se hace con el fin de desarrollar y mejorar estas áreas.
En el transcurso de las últimas décadas, los rápidos avances en los métodos de investigación genómica y otros métodos de investigación molecular, así como los avances en las tecnologías de la información, se han combinado para producir una enorme cantidad de información asociada con la biología molecular. La comprensión de los procesos biológicos puede lograrse mediante la aplicación de métodos matemáticos y computacionales, que se denominan colectivamente bioinformática.
El proceso de mapear y analizar secuencias de ADN y proteínas, alinear secuencias de ADN y proteínas para compararlas, y construir y examinar modelos tridimensionales de estructuras de proteínas son acciones que se realizan con frecuencia en el campo de la bioinformática.
Ha habido millones de criaturas cuyas secuencias de ADN han sido decodificadas y guardadas en bases de datos desde que el bacteriófago Phage F-X174 fue secuenciado en 1977. La información relativa a la secuencia se evalúa con el fin de identificar genes que codifican proteínas, genes de ARN, secuencias reguladoras, motivos estructurales y secuencias repetitivas. El uso de la sistemática molecular para construir árboles filogenéticos se...