CapÃtulo 1 : Bioinformática
Uma disciplina interdisciplinar de estudo conhecida como bioinformática (/?ba?.o???nf?r'maet?ks/ (i)) é responsável pelo desenvolvimento de metodologias e ferramentas de software que são utilizadas com a finalidade de compreender dados biológicos, particularmente quando os conjuntos de dados são de natureza grande e complicada. Para analisar e interpretar dados biológicos, a bioinformática faz uso de uma ampla gama de disciplinas, incluindo biologia, química, física, ciência da computação, programação de computadores, engenharia da informação, matemática e estatística. O conceito de biologia computacional é ocasionalmente usado para se referir ao processo de processamento e interpretação de dados; No entanto, a distinção entre os dois conceitos é frequentemente contestada. A expressão "biologia computacional" é usada por algumas pessoas para se referir ao processo de construção e utilização de modelos de sistemas biológicos.
Para a realização de avaliações de simulação computacional de investigações biológicas, foram utilizadas técnicas computacionais, estatísticas e de programação de computadores. Um exemplo disso é a descoberta de genes e polimorfismos de nucleotídeo único (SNPs), que são exemplos de "pipelines" de análise específicos que foram reutilizados. Isto é particularmente prevalente no domínio da genómica. Condutas como esta são utilizadas para obter uma compreensão mais profunda dos fundamentos genéticos das doenças, adaptações distintas, características desejáveis (particularmente em espécies agrícolas) ou diferenças entre populações. O estudo da proteómica, que procura compreender os princípios organizacionais que estão presentes nas sequências de ácidos nucleicos e proteínas, está também incluído no campo da bioinformática.
A capacidade de extrair descobertas relevantes de enormes quantidades de dados brutos é possibilitada pelo processamento de imagens e sinais, respectivamente. Quando se trata do estudo da genética, é útil no sequenciamento e anotação de genomas, bem como as mutações que são observadas neles. A mineração textual da literatura biológica e a criação de ontologias biológicas e genéticas são componentes da bioinformática. Estas ontologias são implementadas de forma a organizar e consultar dados biológicos. Além disso, está associada à investigação da expressão e controlo de genes e proteínas. As ferramentas de bioinformática são úteis na comparação, análise e interpretação de dados genéticos e genômicos, bem como na obtenção de uma compreensão mais ampla dos elementos evolutivos da biologia molecular quando usadas mais amplamente. As vias e redes biológicas que são um componente essencial da biologia de sistemas podem ser analisadas e catalogadas com o auxílio desta ferramenta, que é de natureza mais integrativa. Presta assistência na simulação e modelação de ADN, ARN e proteínas, bem como na modelação de interações biomoleculares, no campo da biologia estrutural.
No ano de 1970, Paulien Hogeweg e Ben Hesper chegaram ao significado inicial do termo "bioinformática", que se referia ao estudo de processos de informação que ocorrem dentro de sistemas bióticos. A bioinformática foi posicionada como uma ciência paralela à bioquímica, que é o estudo de processos químicos que ocorrem dentro de sistemas biológicos, de acordo com essa definição.
O estudo de dados biológicos, em particular sequências de DNA, RNA e proteínas, foi um aspeto significativo tanto da bioinformática quanto da biologia computacional. O Projeto Genoma Humano e os rápidos avanços na tecnologia de sequenciamento de DNA foram os principais fatores que impulsionaram a expansão dramática da área de bioinformática, que começou em meados da década de 1990 e continuou até os dias atuais.
Escrever e operar programas de software que façam uso de algoritmos da teoria dos grafos, inteligência artificial, soft computing, mineração de dados, processamento de imagens e simulação computacional são necessários para analisar dados biológicos a fim de fornecer informações úteis. Por outro lado, os algoritmos dependem de fundamentos teóricos como matemática discreta, teoria do controle, teoria de sistemas, teoria da informação e estatística.
Desde a conclusão do Projeto Genoma Humano, houve uma melhoria significativa tanto na velocidade do sequenciamento quanto no custo do sequenciamento. Atualmente, alguns laboratórios são capazes de sequenciar mais de 100.000 bilhões de bases anualmente, e é possível ler um genoma inteiro por menos de US$ 1.000.
Desde o início da década de 1950, quando Frederick Sanger descobriu a sequência da insulina, os computadores têm sido indispensáveis no campo da biologia molecular. Isto deve-se ao facto de as sequências de proteínas estarem agora prontamente disponíveis. Realizar uma comparação manual de várias sequências acaba por ser uma abordagem irrealista. Uma das primeiras pioneiras no campo, Margaret Oakley Dayhoff foi responsável pela compilação de um dos primeiros bancos de dados de sequências de proteínas. Estas bases de dados foram inicialmente publicadas sob a forma de livros, e também incluíam métodos de alinhamento de sequências e evolução molecular. Elvin A. Kabat foi outro dos primeiros a contribuir para o campo da bioinformática. Ele foi pioneiro no campo da análise de sequências biológicas, tendo começado a bola rolando em 1970 com seus volumes exaustivos de sequências de anticorpos que foram disponibilizados on-line ao lado de Tai Te Wu entre os anos de 1980 e 1991.
A década de 1970 testemunhou a implementação de novos métodos para a sequenciação do ADN, especificamente aplicados aos bacteriófagos MS2 e øX174. Posteriormente, as sequências de nucleotídeos estendidos foram analisadas utilizando algoritmos informacionais e estatísticos. Os resultados desses experimentos demonstraram que características bem conhecidas, como os segmentos de codificação e o código trigêmeo, podem ser descobertas usando uma análise estatística fácil. Essas investigações também forneceram evidências de que a noção de bioinformática seria informativa.
A fim de investigar as maneiras pelas quais as atividades celulares normais são interrompidas em vários estados de doença, é necessário agregar dados biológicos brutos para criar uma imagem abrangente desses processos. Consequentemente, [quando?], a disciplina de bioinformática progrediu a tal ponto que o trabalho mais importante que está sendo realizado agora é o processamento e interpretação de diferentes tipos de dados. Além disso, estão incluídas sequências de nucleótidos e aminoácidos, bem como domínios proteicos e estruturas proteicas.
Entre as subdisciplinas significativas que se enquadram no guarda-chuva da bioinformática e da biologia computacional estão:
Um dos objetivos fundamentais da bioinformática é melhorar a compreensão dos processos que ocorrem nos organismos vivos. O facto de colocar ênfase no desenvolvimento e implementação de métodos computacionalmente dispendiosos para atingir este objetivo é o que o diferencia de outras abordagens. Reconhecimento de padrões, mineração de dados, técnicas de aprendizado de máquina e visualização são alguns exemplos desses tipos de aplicativos. Alinhamento de sequências, descoberta de genes, montagem de genomas, design de fármacos, descoberta de fármacos, alinhamento de estruturas proteicas, predição de estruturas proteicas, predição de expressões genéticas e interações proteína-proteína, estudos de associação genómica, modelação da evolução e divisão celular/mitose são alguns dos principais esforços de investigação que estão a ser realizados neste campo.
A fim de enfrentar as dificuldades formais e práticas que surgem da gestão e análise de dados biológicos, a bioinformática envolve a invenção e o avanço de bases de dados, algoritmos, técnicas computacionais e estatísticas e teoria. Isto é feito para desenvolver e melhorar estas áreas.
Ao longo das últimas décadas, os rápidos avanços na genómica e outros métodos de investigação molecular, bem como os avanços nas tecnologias da informação, combinaram-se para produzir uma enorme quantidade de informação que está associada à biologia molecular. A obtenção de uma compreensão dos processos biológicos pode ser realizada através da aplicação de métodos matemáticos e computacionais, que são coletivamente referidos como bioinformática.
O processo de mapeamento e análise de sequências de DNA e proteínas, o alinhamento de sequências de DNA e proteínas para compará-las e a construção e exame de modelos tridimensionais de estruturas de proteínas são ações frequentemente realizadas no campo da bioinformática.
Houve milhões de criaturas cujas sequências de DNA foram decodificadas e salvas em bancos de dados desde que o bacteriófago Phage F-X174 foi sequenciado em 1977. As informações sobre a sequência são avaliadas para identificar genes que codificam proteínas, genes de RNA, sequências regulatórias, motivos estruturais e sequências repetitivas. O uso da sistemática molecular para construir árvores filogenéticas pode ser usado para demonstrar semelhanças nas funções das proteínas ou nas relações entre espécies. Isto pode ser conseguido através da comparação de genes dentro de uma espécie ou entre espécies diferentes. Desde o início dos tempos, tem sido impossível avaliar manualmente as sequências de ADN devido ao volume cada vez maior de dados. Ferramentas computacionais como o BLAST são...