Bioinformatik Interaktiv

Name: Bioinformatik Interaktiv | Algorithmen und Praxis
Brand: Wiley-Blackwell
Price: 66.99 EUR
Availability: OnlineOnly

Algorithmen und Praxis

Rainer Merkl Stephan Waack(Author)

Wiley-Blackwell (Publisher)

2nd Edition

Published on 9. December 2013

XVIII, 578 pages

E-Book

ePUB with Adobe-DRM

System requirements

978-3-527-68274-4 (ISBN)

€66.99incl. 7% vat

System requirements

for ePUB with Adobe-DRM

E-Book Single Licence

Available for download

Description

More details

Other editions

Persons

Content

Vorwort
GRUNDLAGEN - BIOLOGIE UND DATENBANKEN
Biologische Grundlagen
Sequenzen und ihre Funktion
Datenbanken
LERNEN, OPTIMIEREN UND ENTSCHEIDEN
Grundbegriffe der Stochastik
Bayessche Entscheidungstheorie und Klassifikatoren
Klassische Cluster- und Klassifikationsverfahren
Neuronale Netze
Genetische Algorithmen
ALGORITHMEN UND MODELLE DER BIOINFORMATIK
Paarweiser Sequenzvergleich
Sequenz-Motive
Scoring-Schemata
FASTA, BLAST, PSI-BLAST
Multiple Sequenzalignments
Grundlagen phylogenetischer Analysen
Hidden-Markov-Modelle
Profil-HMMs
Conditional Random Fields
Vorhersage der Sekundärstruktur
Vergleich von Protein-3D-Strukturen
Homologiemodellierung und Vorhersage der Protein-3D-Struktur
Analyse integraler Membranproteine
Entschlüsselung von Genomen
Auswertung von Genexpressionsdaten
Analyse von Protein-Protein-Interaktionen
Zum Schluss

Webseite mit Zusatzmaterial und Fragen: www.wiley-vch.de/HOME/bioinformatik/.

1 Biologische Grundlagen

In den folgenden Kapiteln beschäftigen wir uns hauptsächlich mit Algorithmen auf Makromolekülen. Für das Verständnis der Methoden und Modellierungsansätze benötigen wir biologische Grundkenntnisse, die wir in diesem Kapitel einführen. Zu den wichtigsten molekularbiologischen Objekten gehören DNA, RNA und Proteine. Dies sind Moleküle, die jeweils aus kleineren, spezifischen Bausteinen aufgebaut sind. Deren lineare Abfolge kann in Form einer Zeichenkette (Sequenz) angegeben werden. Mit Sequenzen beschäftigen wir uns im folgenden Kapitel 2 genauer.

Drei wichtige Makromoleküle: DNA, RNA, Proteine

Die DNA ist der wichtigste Datenträger der Molekularbiologie. Hochdurchsatzmethoden sind mittlerweile so verfeinert, dass die Zusammensetzung der DNA mit geringem Aufwand bestimmt werden kann. Proteine haben Funktionen sowohl als Umsetzung der Geninformation als auch bei der Weitergabe der Gene an die nachfolgenden Generationen. Die biologische Bedeutung der RNA hat sich durch Befunde der letzten Jahre stark verändert. Es ist klar geworden, dass RNA-Moleküle in erheblichem Ausmaß an Regulationsaufgaben beteiligt sind.

In vivo liegen DNA, RNA und Proteine als dreidimensionale Strukturen vor. Neben der Beschreibung dieser Strukturen gehen wir im Folgenden auf solche Eigenschaften oder Prozesse ein, die in bioinformatischen Algorithmen von Bedeutung sind. Einen breiteren Raum nimmt die Darstellung von Proteinarchitekturen ein. Das Kapitel schließt mit einer Definition wichtiger Fachbegriffe.

1.1 DNA

Im bioinformatischen Kontext stehen Sequenzen in der Regel für die Abfolge einer kleinen, definierten Menge von Einzelbausteinen. DNA-Sequenzen sind Modelle für Makromoleküle der Desoxyribonucleinsäure (abgekürzt DNS oder DNA), die als fädige Struktur vorliegt. Jeder Strang ist eine Folge von vier Einzelbausteinen (Nucleotide), diese bestehen jeweils aus

Nucleotid

einem Zucker (in der DNA: Desoxyribose),
einer der Purin- oder Pyrimidinbasen Adenin, Guanin oder Cytosin, Thymin und
einem Phosphatrest.

In der Zelle kommt DNA üblicherweise in doppelsträngiger Form vor. Darin stehen sich Nucleotide paarweise gegenüber, wobei nur zwei Paarungen zugelassen sind (siehe Abb. 1.1 und Abb. 1.2).

Aufgrund des chemischen Aufbaus der Nucleotide hat jeder DNA-Strang beliebiger Länge eine eindeutige Orientierung mit jeweils einem freien 3′-OH- und einem 5′-OH-Ende. Sequenzen werden nach Übereinkunft stets so geschrieben, dass das 5′-OH Ende links und das 3′-OH-Ende rechts steht. In vivo ist die DNA-Doppelhelix meist zu einem Ring geschlossen, z. B. in Chromosomen oder Plasmiden. Darin sind die beiden komplementären DNA-Stränge gegenläufig angeordnet. Die durch den Aufbau vorgegebene Orientierung bedingt die Richtung, in der Gene abgelesen werden. Da Gene auf beiden Strängen codiert sein können, in Datensammlungen jedoch nur die Sequenz eines Stranges abgelegt wird, muss zur Bestimmung der Sequenz des Gegenstranges das reverse Komplement gebildet werden.

Reverses Komplement: Sequenz des Gegenstranges

Abb. 1.1 Raumstruktur der DNA. In der Abbildung ist die Doppelhelix gut zu erkennen. Die basischen Anteile der Nucleotide sind nach innen gerichtet und durch Wasserstoffbrücken verknüpft. Außen verlaufen die Zucker-Phosphat-Anteile der polymerisierten Nucleotide.

Abb. 1.2 Basenpaarungen in der DNA. In der als Doppelhelix bekannten DNA-Struktur liegen sich jeweils paarweise die Basen Adenin und Thymin sowie Guanin und Cytosin gegenüber. Zwischen A:T-Paaren können zwei, zwischen G:C-Paaren drei Wasserstoffbrücken ausgebildet werden. Je höher der Anteil von G:C-Paaren, desto mehr Energie muss für das Trennen der beiden Stränge einer DNA-Doppelhelix aufgewendet werden.

1.2 Genetischer Code und Genomkomposition

Die Sequenzinformation eines jeden Proteins ist in Form eines Gens in der DNA-Sequenz codiert. Jeweils drei direkt aufeinanderfolgende Nucleotide, die nicht überlappend abgelesen werden, codieren für eine Aminosäure. Eine solche Nucleotidgruppe wird Triplett oder Codon genannt. Die Abbildung der 64 Tripletts auf die 20 Aminosäuren heißt genetischer Code, dieser ist in Tabelle 1.1 dargestellt. Dieser Code ist quasi universell, abweichende Codonzuordnungen finden sich z. B. bei Mitochondrien, Mycoplasma und einigen Protozoen (Übersicht in [1]).

Basentriplett

Codon

Die Struktur der DNA legt die Lage der einzelnen Gene inner-halb einer DNA-Sequenz nicht fest, daher ergeben sich – wegen der zwei möglichen Ableserichtungen und der drei möglichen Intervalle pro Leserichtung – insgesamt sechs Leseraster. Prinzipiell kann jede Codonsequenz ein Gen codieren, sofern sie zwischen ein im selben Leseraster liegendes Start- und Stoppcodon eingebettet ist. Eine derartige Sequenz wird zur Unterscheidung von Genen (für die eine Funktion nachgewiesen ist) offenes Leseraster (open reading frame, ORF genannt.

Leseraster

ORF

Tab. 1.1 Der genetische Code. Die Zahlen geben die Nucleotidposition im Codon an. In einigen speziellen Fällen, wie in mitochondrialen Genomen, kann es Abweichungen von diesem kanonischen Code geben.

Diese Situation wird im folgenden Beispiel klar. Je nach Leseraster resultieren aus derselben DNA-Sequenz unterschiedliche Proteinsequenzen:

Beispiel

Leserichtung → |.....ORF.....| Leserahmen 1 ..MetValGlyLeuSer*** 2 .TyrGlyArgProGluLeu. 3 ValTrpSerAla***Val.. DNA, GTATGGTCGGCCTGAGTTAA (Doppelstrang) CATACCAGCCGGACTCAATT Leserahmen 4 ..HisAspAlaGlnThrLeu 5 .IleThrProArgLeu***. 6 TyrProArgGlySerAsn.. ← Leserichtung

Im gezeigten Beispiel existiert genau ein ORF (hier im Leserahmen 1), dessen Lage durch ein Startcodon (Met) und ein Stoppcodon (durch *** markiert) definiert ist. In allen anderen Leserastern treten in der gezeigten Sequenz Stoppcodons auf oder es fehlt ein Startcodon. Gene haben allerdings in der Regel eine Länge von mehr als 80 Codonen.

Der Informationsgehalt I der drei Basenpositionen im Codon ist nicht gleich, es gilt I(Position 2) > I(Position 1) > I(Position 3) [2]. Hierfür ist der genetische Code verantwortlich: Eine Mutation der dritten Base im Codon verändert die Aminosäurenkomposition häufig nicht; eine Mutation in der ersten Basenposition führt häufig zum Einbau einer Aminosäure mit ähnlichen Eigenschaften; eine Mutation der mittleren Base verursacht häufig den Einbau einer Aminosäure mit anderen Eigenschaften [1]. Die geringsten Auswirkungen auf die Aminosäurenkomposition der Proteine haben somit Veränderungen der Basenkomposition in Position 3 des Codons, gefolgt von Veränderungen der Basenkomposition an Position 1. Diese Befunde machen deutlich, dass simple statistische Konzepte nicht dazu geeignet sind, codierende Sequenzen adäquat zu modellieren.

Informationsgehalt der Basenpositionen ist unterschiedlich

Der GC-Gehalt ist eine charakteristische Größe eines Genoms. In bakteriellen Genomen schwankt der GC-Gehalt zwischen 25 % und 75 %. In G:C-Basenpaaren werden drei Wasserstoffbrückenbindungen ausgebildet, in A:T-Basenpaaren nur zwei; daher wurde vermutet, dass ein hoher GC-Gehalt des Genoms z. B. für thermophile [3] oder halophile [4] Organismen vorteilhaft wäre. Allerdings ist der GC-Gehalt phylogenetisch und nicht phänotypisch bedingt. Thermophile Organismen leben in Habitaten mit erhöhten Umgebungstemperaturen, halophile kommen in Umgebungen mit erhöhter Salzkonzentration vor. Der spezifische GC-Gehalt einer phylogenetischen Linie scheint durch evolutionären Druck eingestellt zu werden [5]. Aus dem Vergleich des GC-Gehalts der Genome solcher Bakteriophagen, die ihr eigenes DNA-Replikationssystem, und solcher, die das Replikationssystem des Wirts Escherichia coli verwenden, mit dem GC-Gehalt des Genoms von Escherichia coli wurde geschlossen, dass der GC-Gehalt vom DNA-Replikationssystem moduliert wird [1]. Mutationen im mutT Gen von Escherichia coli induzieren Transversionen von A:T- nach G:C-Basenpaaren [6] und Mutationen im mutY Gen Transversionen von G:C- nach...

Content (EPUB)

System requirements

Save as PDF Copy link into clipboard

Schweitzer Fachinformationen

Bioinformatik Interaktiv

Description

Reviews / Votes

More details

Other editions

Additional editions

Persons

Content

1

Biologische Grundlagen

1.1 DNA

1.2 Genetischer Code und Genomkomposition

System requirements