Capitolo 1 : Bioinformatica
Una disciplina di studio interdisciplinare nota come bioinformatica (/?ba?.o???nf?r'maet?ks/ (i)) è responsabile dello sviluppo di metodologie e strumenti software che vengono utilizzati allo scopo di comprendere i dati biologici, in particolare quando gli insiemi di dati sono di natura grande e complicata. Ai fini dell'analisi e dell'interpretazione dei dati biologici, la bioinformatica si avvale di un'ampia gamma di discipline, tra cui biologia, chimica, fisica, informatica, programmazione informatica, ingegneria dell'informazione, matematica e statistica. Il concetto di biologia computazionale è occasionalmente usato per riferirsi al processo di elaborazione e interpretazione dei dati; Tuttavia, la distinzione tra i due concetti è spesso contestata. L'espressione "biologia computazionale" è usata da alcune persone per riferirsi al processo di costruzione e utilizzo di modelli di sistemi biologici.
Allo scopo di condurre valutazioni di simulazione al computer di indagini biologiche, sono state utilizzate tecniche computazionali, statistiche e di programmazione informatica. Un esempio di ciò è la scoperta di geni e polimorfismi a singolo nucleotide (SNP), che sono esempi di specifiche "pipeline" di analisi che sono state riutilizzate. Ciò è particolarmente diffuso nel campo della genomica. Pipeline come questa vengono utilizzate per ottenere una comprensione più profonda delle basi genetiche delle malattie, degli adattamenti distintivi, delle caratteristiche desiderabili (in particolare nelle specie agricole) o delle differenze tra le popolazioni. Lo studio della proteomica, che cerca di comprendere i principi organizzativi presenti all'interno delle sequenze di acidi nucleici e proteine, è incluso anche nel campo della bioinformatica.
La capacità di estrarre risultati rilevanti da enormi quantità di dati grezzi è resa possibile rispettivamente dall'elaborazione delle immagini e del segnale. Quando si tratta di studiare la genetica, è utile per sequenziare e annotare i genomi e le mutazioni che si osservano in essi. L'estrazione di testi della letteratura biologica e la creazione di ontologie biologiche e geniche sono entrambe componenti della bioinformatica. Queste ontologie sono implementate al fine di organizzare e interrogare i dati biologici. Oltre a questo, è associato allo studio dell'espressione e del controllo di geni e proteine. Gli strumenti bioinformatici sono utili per confrontare, analizzare e interpretare i dati genetici e genomici, nonché per acquisire una comprensione più ampia degli elementi evolutivi della biologia molecolare quando vengono utilizzati più ampiamente. I percorsi e le reti biologiche che sono una componente essenziale della biologia dei sistemi possono essere analizzati e catalogati con l'assistenza di questo strumento, che è di natura più integrativa. Fornisce assistenza nella simulazione e modellazione di DNA, RNA e proteine, nonché nella modellazione di interazioni biomolecolari, nel campo della biologia strutturale.
Nell'anno 1970, Paulien Hogeweg e Ben Hesper inventarono il significato iniziale del termine "bioinformatica", che si riferiva allo studio dei processi di informazione che avvengono all'interno dei sistemi biotici. La bioinformatica è stata posizionata come una scienza parallela alla biochimica, che è lo studio dei processi chimici che avvengono all'interno dei sistemi biologici, secondo questa definizione.
Lo studio dei dati biologici, in particolare delle sequenze di DNA, RNA e proteine, è stato un aspetto significativo sia della bioinformatica che della biologia computazionale. Il Progetto Genoma Umano e i rapidi progressi nella tecnologia di sequenziamento del DNA sono stati i fattori primari che hanno guidato la drammatica espansione dell'area della bioinformatica, che è iniziata a metà degli anni '90 ed è continuata fino ai giorni nostri.
Per analizzare i dati biologici al fine di fornire informazioni utili, sono necessari la scrittura e l'utilizzo di programmi software che utilizzano algoritmi di teoria dei grafi, intelligenza artificiale, soft computing, data mining, elaborazione di immagini e simulazione al computer. D'altra parte, gli algoritmi dipendono da fondamenti teorici come la matematica discreta, la teoria del controllo, la teoria dei sistemi, la teoria dell'informazione e la statistica.
Dal completamento del Progetto Genoma Umano, c'è stato un miglioramento significativo sia nella velocità del sequenziamento che nel costo del sequenziamento. Attualmente, alcuni laboratori sono in grado di sequenziare più di 100.000 miliardi di basi all'anno ed è possibile leggere un intero genoma per meno di 1.000 dollari.
Dall'inizio degli anni '50, quando Frederick Sanger scoprì la sequenza dell'insulina, i computer sono stati indispensabili nel campo della biologia molecolare. Questo perché le sequenze proteiche sono ora prontamente disponibili. L'esecuzione di un confronto manuale di più sequenze risulta essere un approccio irrealistico. Una delle prime pioniere nel campo, Margaret Oakley Dayhoff è stata responsabile della compilazione di uno dei primi database di sequenze proteiche. Questi database sono stati inizialmente pubblicati sotto forma di libri e includevano anche metodi di allineamento delle sequenze ed evoluzione molecolare. Elvin A. Kabat è stato un altro dei primi contributori nel campo della bioinformatica. È stato un pioniere nel campo dell'analisi delle sequenze biologiche, avendo dato il via alle danze nel 1970 con i suoi volumi esaustivi di sequenze anticorpali che sono stati resi disponibili online insieme a Tai Te Wu tra il 1980 e il 1991.
Il decennio degli anni '70 vide l'implementazione di nuovi metodi per il sequenziamento del DNA, specificamente applicati ai batteriofagi MS2 e øX174. Successivamente, le sequenze nucleotidiche estese sono state analizzate utilizzando algoritmi informativi e statistici. I risultati di questi esperimenti hanno dimostrato che caratteristiche ben note, come i segmenti codificanti e il codice della tripletta, possono essere scoperte utilizzando una facile analisi statistica. Queste indagini hanno anche fornito la prova che la nozione di bioinformatica sarebbe stata informativa.
Al fine di studiare i modi in cui le normali attività cellulari vengono interrotte in vari stati patologici, è necessario aggregare dati biologici grezzi al fine di creare un quadro completo di questi processi. Di conseguenza, [quando?], la disciplina della bioinformatica è progredita al punto che il lavoro più importante che viene ora svolto è l'elaborazione e l'interpretazione di diversi tipi di dati. Inoltre, sono incluse sequenze di nucleotidi e amminoacidi, nonché domini proteici e strutture proteiche.
Tra le sottodiscipline significative che rientrano nell'ambito della bioinformatica e della biologia computazionale ci sono:
Uno degli obiettivi fondamentali della bioinformatica è quello di migliorare la comprensione dei processi che avvengono negli organismi viventi. Il fatto che ponga l'accento sullo sviluppo e l'implementazione di metodi computazionalmente costosi al fine di raggiungere questo obiettivo è ciò che lo differenzia da altri approcci. Il riconoscimento dei modelli, il data mining, le tecniche di apprendimento automatico e la visualizzazione sono alcuni esempi di questi tipi di applicazioni. L'allineamento delle sequenze, la scoperta genica, l'assemblaggio del genoma, la progettazione di farmaci, la scoperta di farmaci, l'allineamento della struttura proteica, la previsione della struttura proteica, la previsione dell'espressione genica e delle interazioni proteina-proteina, gli studi di associazione genome-wide, la modellazione dell'evoluzione e la divisione/mitosi cellulare sono alcuni dei principali sforzi di ricerca intrapresi in questo campo.
Al fine di affrontare le difficoltà formali e pratiche che derivano dalla gestione e dall'analisi dei dati biologici, la bioinformatica implica l'invenzione e l'avanzamento di database, algoritmi, tecniche computazionali e statistiche e teoria. Questo viene fatto al fine di sviluppare e migliorare queste aree.
Nel corso degli ultimi decenni, i rapidi progressi nella genomica e in altri metodi di ricerca molecolare, così come i progressi nelle tecnologie dell'informazione, si sono combinati per produrre un'enorme quantità di informazioni associate alla biologia molecolare. Ottenere una comprensione dei processi biologici può essere ottenuto mediante l'applicazione di metodi matematici e computazionali, che sono collettivamente indicati come bioinformatica.
Il processo di mappatura e analisi delle sequenze di DNA e proteine, l'allineamento delle sequenze di DNA e proteine al fine di confrontarle, la costruzione e l'esame di modelli tridimensionali delle strutture proteiche sono tutte azioni che vengono frequentemente eseguite nel campo della bioinformatica.
Ci sono stati milioni di creature le cui sequenze di DNA sono state decodificate e salvate in database da quando il batteriofago Phage F-X174 è stato sequenziato nel 1977. Le informazioni relative alla sequenza vengono valutate al fine di identificare i geni che codificano proteine, i geni RNA, le sequenze regolatorie, i motivi strutturali e le sequenze ripetitive. L'uso della sistematica molecolare per costruire alberi filogenetici può essere utilizzato per dimostrare somiglianze nelle funzioni proteiche o nelle relazioni tra le specie. Ciò può essere ottenuto confrontando i geni all'interno di una specie o tra specie diverse. Fin dall'inizio dei tempi, è stato impossibile valutare manualmente le sequenze di DNA a causa del volume sempre crescente di dati. Strumenti informatici come BLAST vengono utilizzati regolarmente allo scopo di cercare...