Chapitre 1 : Bioinformatique
Une discipline d'étude interdisciplinaire connue sous le nom de bioinformatique (/?ba?.o???nf?r'maet?ks/ (i)) est responsable du développement de méthodologies et d'outils logiciels qui sont utilisés dans le but de comprendre les données biologiques, en particulier lorsque les ensembles de données sont de nature volumineuse et compliquée. Dans le but d'analyser et d'interpréter des données biologiques, la bio-informatique fait appel à un large éventail de disciplines, notamment la biologie, la chimie, la physique, l'informatique, la programmation informatique, l'ingénierie de l'information, les mathématiques et les statistiques. Le concept de biologie computationnelle est parfois utilisé pour désigner le processus de traitement et d'interprétation des données ; Néanmoins, la distinction entre les deux concepts est fréquemment contestée. L'expression « biologie computationnelle » est utilisée par certaines personnes pour désigner le processus de construction et d'utilisation de modèles de systèmes biologiques.
Dans le but de réaliser des évaluations par simulation informatique d'enquêtes biologiques, des techniques informatiques, statistiques et de programmation informatique ont été utilisées. Un exemple en est la découverte de gènes et de polymorphismes nucléotidiques simples (SNP), qui sont des exemples de « pipelines » d'analyse spécifiques qui ont été réutilisés. Ceci est particulièrement répandu dans le domaine de la génomique. Des pipelines comme celui-ci sont utilisés afin d'acquérir une compréhension plus profonde des fondements génétiques des maladies, des adaptations distinctives, des caractéristiques souhaitables (en particulier chez les espèces agricoles) ou des différences entre les populations. L'étude de la protéomique, qui cherche à comprendre les principes d'organisation présents dans les séquences d'acides nucléiques et de protéines, est également incluse dans le domaine de la bioinformatique.
La capacité d'extraire des résultats pertinents à partir d'énormes quantités de données brutes est rendue possible par le traitement de l'image et du signal, respectivement. Lorsqu'il s'agit d'étudier la génétique, il est utile de séquencer et d'annoter les génomes ainsi que les mutations qui y sont observées. L'exploration de textes de la littérature biologique et la création d'ontologies biologiques et génétiques sont deux composantes de la bioinformatique. Ces ontologies sont implémentées afin d'organiser et d'interroger des données biologiques. En plus de cela, il est associé à l'étude de l'expression et du contrôle des gènes et des protéines. Les outils bioinformatiques sont utiles pour comparer, analyser et interpréter les données génétiques et génomiques, ainsi que pour acquérir une compréhension plus large des éléments évolutifs de la biologie moléculaire lorsqu'ils sont utilisés plus largement. Les voies et les réseaux biologiques qui sont une composante essentielle de la biologie des systèmes peuvent être analysés et catalogués à l'aide de cet outil, qui est de nature plus intégrative. Il fournit une assistance dans la simulation et la modélisation de l'ADN, de l'ARN et des protéines, ainsi que dans la modélisation des interactions biomoléculaires, dans le domaine de la biologie structurale.
En 1970, Paulien Hogeweg et Ben Hesper ont trouvé le sens initial du terme « bioinformatique », qui devait faire référence à l'étude des processus d'information qui se produisent à l'intérieur des systèmes biotiques. La bio-informatique était positionnée comme une science parallèle à la biochimie, qui est l'étude des processus chimiques qui se produisent à l'intérieur des systèmes biologiques, selon cette définition.
L'étude des données biologiques, en particulier des séquences d'ADN, d'ARN et de protéines, était un aspect important de la bioinformatique et de la biologie computationnelle. Le projet du génome humain et les progrès rapides de la technologie de séquençage de l'ADN ont été les principaux facteurs qui ont conduit à l'expansion spectaculaire du domaine de la bio-informatique, qui a commencé au milieu des années 1990 et s'est poursuivie jusqu'à nos jours.
L'écriture et l'exploitation de logiciels qui utilisent des algorithmes issus de la théorie des graphes, de l'intelligence artificielle, de l'informatique douce, de l'exploration de données, du traitement d'images et de la simulation informatique sont nécessaires pour analyser des données biologiques afin de fournir des informations utiles. D'autre part, les algorithmes dépendent de fondements théoriques tels que les mathématiques discrètes, la théorie du contrôle, la théorie des systèmes, la théorie de l'information et les statistiques.
Depuis l'achèvement du projet du génome humain, il y a eu une amélioration significative de la vitesse et du coût du séquençage. À l'heure actuelle, certains laboratoires sont en mesure de séquencer plus de 100 000 milliards de bases par an, et il est possible de lire un génome entier pour moins de 1 000 dollars.
Depuis le début des années 1950, lorsque Frederick Sanger a découvert la séquence de l'insuline, les ordinateurs sont indispensables dans le domaine de la biologie moléculaire. En effet, les séquences de protéines sont maintenant facilement disponibles. Effectuer une comparaison manuelle de plusieurs séquences s'avère être une approche irréaliste. Pionnière dans le domaine, Margaret Oakley Dayhoff a été responsable de la compilation de l'une des premières bases de données de séquences de protéines. Ces bases de données ont d'abord été publiées sous forme de livres, et elles comprenaient également des méthodes d'alignement de séquences et d'évolution moléculaire. Elvin A. Kabat a été un autre contributeur précoce au domaine de la bio-informatique. Il a été un pionnier dans le domaine de l'analyse des séquences biologiques, ayant ouvert le bal en 1970 avec ses volumes exhaustifs de séquences d'anticorps qui ont été mis en ligne aux côtés de Tai Te Wu entre les années 1980 et 1991.
La décennie des années 1970 a vu la mise en ouvre de nouvelles méthodes de séquençage de l'ADN, spécifiquement appliquées aux bactériophages MS2 et øX174. Par la suite, les séquences nucléotidiques étendues ont été analysées à l'aide d'algorithmes informationnels et statistiques. Les résultats de ces expériences ont démontré que des caractéristiques bien connues, telles que les segments codants et le code triplet, peuvent être découvertes à l'aide d'une analyse statistique facile. Ces recherches ont également fourni des preuves que la notion de bio-informatique serait informative.
Afin d'étudier la manière dont les activités cellulaires normales sont perturbées dans divers états pathologiques, il est nécessaire d'agréger des données biologiques brutes afin de créer une image complète de ces processus. Par conséquent, la discipline de la bio-informatique a progressé au point que le travail le plus important qui est actuellement effectué est le traitement et l'interprétation de différents types de données. De plus, il comprend des séquences de nucléotides et d'acides aminés, ainsi que des domaines protéiques et des structures protéiques.
Parmi les sous-disciplines importantes qui relèvent de la bio-informatique et de la biologie computationnelle, citons :
L'un des objectifs fondamentaux de la bio-informatique est d'améliorer la compréhension des processus qui se produisent dans les organismes vivants. Le fait qu'il mette l'accent sur le développement et la mise en ouvre de méthodes coûteuses en calcul afin d'atteindre cet objectif est ce qui le différencie des autres approches. La reconnaissance de formes, l'exploration de données, les techniques d'apprentissage automatique et la visualisation sont quelques exemples de ces types d'applications. L'alignement des séquences, la découverte de gènes, l'assemblage du génome, la conception de médicaments, la découverte de médicaments, l'alignement de la structure des protéines, la prédiction de la structure des protéines, la prédiction de l'expression des gènes et des interactions protéine-protéine, les études d'association à l'échelle du génome, la modélisation de l'évolution et la division cellulaire/mitose sont quelques-uns des principaux efforts de recherche entrepris dans ce domaine.
Afin de s'attaquer aux difficultés formelles et pratiques qui découlent de la gestion et de l'analyse des données biologiques, la bio-informatique implique l'invention et l'avancement de bases de données, d'algorithmes, de techniques computationnelles et statistiques et de théorie. Ceci est fait dans le but de développer et d'améliorer ces domaines.
Au cours des dernières décennies, les progrès rapides de la génomique et d'autres méthodes de recherche moléculaire, ainsi que les progrès des technologies de l'information, se sont combinés pour produire une énorme quantité d'informations associées à la biologie moléculaire. L'obtention d'une compréhension des processus biologiques peut être accomplie par l'application de méthodes mathématiques et informatiques, qui sont collectivement appelées bio-informatique.
Le processus de cartographie et d'analyse des séquences d'ADN et de protéines, d'alignement des séquences d'ADN et de protéines afin de les comparer, et la construction et l'examen de modèles tridimensionnels de structures protéiques sont autant d'actions fréquemment effectuées dans le domaine de la bioinformatique.
Il y a eu des millions de créatures dont les séquences d'ADN...