Kapitel 2 : Menschliches Genom
Das menschliche Genom besteht aus allen Nukleinsäuresequenzen, die beim Menschen vorhanden sind. Diese Sequenzen werden als DNA in den 23 Chromosomenpaaren gespeichert, die sich im Zellkern befinden, sowie in einem winzigen DNA-Molekül, das sich in den Mitochondrien jeder einzelnen Zelle befindet. In den meisten Fällen werden sie als zwei verschiedene Komponenten betrachtet: das Kerngenom und das mitochondriale Genom. während weibliche diploide Genome, die in somatischen Zellen vorhanden sind, doppelt so viel DNA enthalten wie männliche Genome.
Obwohl es erhebliche Unterschiede in den Genomen verschiedener Menschen gibt (in der Größenordnung von 0,1 Prozent aufgrund von Einzelnukleotidvariationen), ist die überwiegende Mehrheit dieser Veränderungen auf die gemeinsame Evolutionsgeschichte zurückzuführen. Auch die Größe der Basenpaare kann variieren: Nach jeder Runde der Chromosomenduplikation wird die Länge der Telomere kürzer.
Obwohl die Sequenz des menschlichen Genoms durch DNA-Sequenzierung vollständig bestimmt wurde, deuten neuere Erkenntnisse darauf hin, dass die Mehrheit der enormen Mengen an nicht-kodierender DNA, die im Genom enthalten sind, biochemische Aktivitäten aufweisen. Zu diesen Aktivitäten gehören die Regulation der Genexpression, die Organisation der Chromosomenarchitektur und die Signale, die die epigenetische Vererbung steuern. Es gibt auch viele Retroviren in der menschlichen DNA, und mindestens drei von ihnen haben gezeigt, dass sie eine lebenswichtige Funktion spielen. HIV-ähnliche HERV-K, HERV-W und HERV-FRD spielen alle eine Rolle in der Maschinerie der Plazenta, indem sie die Zell-Zell-Fusion stimulieren.
Im Jahr 2003 gaben Forscher bekannt, dass sie 85 Prozent des gesamten menschlichen Genoms sequenziert hatten; Doch im Jahr 2020 waren noch mindestens 8 Prozent des Genoms ungeklärt.
Im Februar 2001 veröffentlichte das Human Genome Project die ersten Entwürfe von Sequenzen des menschlichen Genoms. Diese Sequenzen waren zum Zeitpunkt der Veröffentlichung im Wesentlichen vollständig.
Diese Daten werden weltweit in den Bereichen Biowissenschaften, Anthropologie, Forensik und anderen Forschungsbereichen der wissenschaftlichen Gemeinschaft verwendet. Diese genomischen Untersuchungen haben zu Entwicklungen in der Erkennung und Behandlung von Krankheiten sowie zu neuen Erkenntnissen in vielen Bereichen der Biologie geführt, einschließlich der Evolution des Menschen.
Im Jahr 2012 wurde entdeckt, dass einige funktionierende DNA-Elemente nicht für RNA oder Proteine kodieren.
Trotz der Tatsache, dass es im Jahr 2001 für "abgeschlossen" erklärt wurde, ist das Humangenomprojekt immer noch nicht abgeschlossen. Das gesamte menschliche Referenzgenom, das nicht die Sequenzierung einer bestimmten Person widerspiegelt. Neben den 22 Chromosomenpaaren, aus denen die Autosomen bestehen, enthält das Genom auch das 23. Paar der Geschlechtschromosomen, die bei Frauen mit den Buchstaben XX und bei Männern mit XY gekennzeichnet sind. Wenn das X-Chromosom in die Berechnung einbezogen wird, weist das haploide Genom insgesamt 3 054 815 472 Basenpaare auf. Diese Zahl sinkt jedoch auf 2 963 015 935 Basenpaare, wenn das Y-Chromosom an seiner Stelle verwendet wird. Alle diese Chromosomen sind lange, lineare DNA-Abschnitte, die sich im Zellkern befinden. Die mitochondriale DNA, ein sehr kleines zirkuläres Molekül, ist ebenfalls im Genom enthalten. Es gibt zahlreiche Kopien dieser DNA in jedem einzelnen Mitochondrium.
In der Ensembl-Datenbank des European Bioinformatics Institute (EBI) und des Wellcome Trust Sanger Institute wurde die ursprüngliche Studie gehostet, die anschließend veröffentlicht wurde. Eine neuere Schätzung der menschlichen Chromosomenlängen auf der Grundlage aktualisierter Daten berichtet von 205,00 cm für das diploide männliche Genom und 208,23 cm für das weibliche Genom, was einem Gewicht von 6,41 bzw. 6,51 Pikogramm (pg) entspricht. Die Chromosomenlängen wurden berechnet, indem die Anzahl der Basenpaare (eines älteren Referenzgenoms, nicht CHM13v2.0) mit 0,34 Nanometern multipliziert wurde (der Abstand zwischen Basenpaaren in der häufigsten Struktur der DNA-Doppelhelix). Die Anzahl der Proteine wird basierend auf der Anzahl der anfänglichen Vorläufer-mRNA-Transkripte berechnet. Diese Berechnung berücksichtigt weder die Ergebnisse des alternativen Prä-mRNA-Spleißens noch die Veränderungen der Proteinstruktur, die nach der Translation stattfinden.
Variationen sind einzigartige Unterschiede in der DNA-Sequenz, die die Analyse einzelner menschlicher Genomsequenzen von Ensembl bis Dezember 2016 aufgedeckt hat. Diese Abweichungen können in Variationen gefunden werden. Es wird erwartet, dass die Zahl der gefundenen Varianten steigen wird, wenn weitere persönliche Genome sequenziert und untersucht werden. Zusätzlich zu dem Gengehalt, der in dieser Tabelle gezeigt wird, wurde überall im menschlichen Genom eine große Anzahl von funktionellen Sequenzen gefunden, die nicht exprimiert werden (siehe unten). Diese Links öffnen neue Fenster im EBI-Genombrowser, die Sie zu den Referenzchromosomensequenzen führen.
RNAs mit bis zu 200 Basen, die nicht in der Lage sind, Proteine zu kodieren, werden als kleine nicht-kodierende RNAs bezeichnet. MicroRNAs, auch bekannt als miRNAs, sind eine Art posttranskriptionelle Genexpressionsregulation. Winzige nukleäre RNAs, auch bekannt als snRNAs, sind die RNA-Komponenten von Spleißosomen. Schließlich sind auch kleine nukleoläre RNAs, auch bekannt als snoRNAs, vorhanden (die an der Steuerung chemischer Modifikationen an anderen RNA-Molekülen beteiligt sind). RNA-Moleküle, die länger als 200 Basen sind und nicht in der Lage sind, Proteine zu kodieren, werden als lange nicht-kodierende RNAs bezeichnet. Dazu gehören ribosomale RNAs, auch bekannt als rRNAs (die RNA-Komponenten von Ribosomen), sowie eine Vielzahl anderer langer RNAs, die an der Regulation der Genexpression, epigenetischen Modifikationen von DNA-Nukleotiden und Histonproteinen sowie an der Regulation der Aktivität proteinkodierender Gene beteiligt sind. Da die früheren Zahlen aus Ensembl Release 87 und die späteren Werte aus Ensembl Release 68 stammen, gibt es einige geringfügige Abweichungen zwischen der Anzahl der insgesamt kleinen ncRNA und der Anzahl bestimmter Kategorien kleiner ncNRAs.
Es ist nicht ganz klar, wie viele Gene im menschlichen Genom enthalten sind, da die Funktionen einer großen Anzahl von Transkripten nicht vollständig verstanden sind. Dies gilt insbesondere für RNA, die nicht für Proteine kodiert. Die Anzahl der Gene, die für Proteine kodieren, ist inzwischen besser verstanden, aber Wissenschaftler schätzen, dass es noch etwa 1.400 Gene mit unbekannten Funktionen gibt. Diese Gene werden oft durch kurze offene Leserahmen kodiert und können funktionsfähige Proteine produzieren oder auch nicht.
Das haploide menschliche Genom besteht aus 23 Chromosomen und hat eine Länge von rund 3 Milliarden Basenpaaren. Außerdem hat es etwa 30.000 Gene.
Es ist üblich, den Inhalt des menschlichen Genoms in kodierende DNA-Sequenzen und nicht-kodierende DNA-Sequenzen zu unterteilen. Im Kontext des menschlichen Lebenszyklus bezieht sich kodierende DNA auf diejenigen Sequenzen, die das Potenzial haben, in Boten-RNA transkribiert und dann in Proteine übersetzt zu werden; Dennoch machen diese Sequenzen nur einen sehr kleinen Prozentsatz des Genoms aus (weniger als 2 Prozent). Etwa 98 Prozent des menschlichen Genoms bestehen aus Sequenzen, die nicht zur Erzeugung von Proteinen verwendet werden. Diese Sequenzen bilden die nicht-kodierende DNA des Genoms.
Ein Teil der DNA, der nicht für die Kodierung verwendet wird, umfasst Gene für RNA-Moleküle, die wesentliche biologische Aktivitäten ausführen (nichtkodierende RNA, z. B. ribosomale RNA und Transfer-RNA). Ein wichtiges Ziel der modernen Genomforschung, wie z.B. des Projekts ENCODE (Encyclopedia of DNA Elements), das darauf abzielt, das gesamte menschliche Genom mit Hilfe einer Vielzahl von experimentellen Werkzeugen zu erfassen, deren Ergebnisse auf molekulare Aktivität hinweisen, ist die Untersuchung der Funktion und des evolutionären Ursprungs nicht-kodierender DNA. Dies ist eines der wichtigsten Ziele der modernen Genomforschung.
Die Idee des sequenzierten Genoms hat sich aufgrund des völlig unverhältnismäßigen Verhältnisses von nicht-kodierender DNA zu kodierender DNA zu einem konzentrierteren analytischen Konzept entwickelt als das traditionelle Konzept des DNA-kodierenden Gens.
Der Teil des menschlichen Genoms, der für Proteine kodiert, ist Gegenstand der größten Forschung und daher der bekannteste. Obwohl es verschiedene biologische Mechanismen gibt (wie z. B. DNA-Umlagerungen und alternatives Prä-mRNA-Spleißen), die zur Synthese von viel mehr unterschiedlichen Proteinen führen können als die Anzahl der proteinkodierenden Gene, führen diese Sequenzen schließlich zur Produktion aller menschlichen Proteine. Das Exom besteht aus DNA-Sequenzen, die von Exons kodiert werden und das Potenzial haben, in Proteine übersetzt zu werden. Es ist der einzige Teil des Genoms, der über die gesamte modulare Proteinkodierungsfähigkeit des Genoms verfügt. Die Sequenzierung des Exoms war der erste wichtige Meilenstein, den das Humangenomprojekt erreicht hat. Dies lag sowohl an der biologischen Bedeutung des Exoms als auch an der Tatsache, dass es nur weniger als 2 Prozent des Genoms ausmacht.
Die Gesamtzahl der Gene, die für Proteine kodieren. Datenbanken wie Uniprot wurden Annotationen für etwa 20.000 menschliche Proteine hinzugefügt. Es stimmt nicht, dass es beim Menschen viel mehr proteinkodierende Gene gibt als bei anderen Tieren mit geringerer Komplexität, wie dem Fadenwurm und der...