Achtung! Dieser Artikel benötigt noch Überarbeitung!
Zur Verfügung gestellt von: https://creation.com/reassessing-human-chimpanzee-genetic-similarity
#
von Robert W. Carter
Die Ähnlichkeit des menschlichen und des Schimpansengenoms ist eine entscheidende Frage in der Debatte um Schöpfung und Evolution. Tomkins schätzte die Ähnlichkeit der beiden Genome auf etwa 85 %. In seiner Veröffentlichung aus dem Jahr 2018 verglich er 18.000 lange Schimpansen-Sequenzabschnitte („Contigs“) mit dem Schimpansen- und dem menschlichen Genom unter Verwendung von BLAST. Er ermittelte eine prozentuale Ähnlichkeit von 84 %, die jedoch aus dem Durchschnitt einer nachweislich nicht normalen Verteilung ermittelt wurde. Schlimmer noch, die prozentualen Identitäten waren bimodal verteilt, mit starken Spitzen im Bereich von über 60 % und über 90 %. Im Bereich von 84 % gab es fast keine Übereinstimmungen. In der vorliegenden Studie wurde festgestellt, dass BLAST häufig die besten Übereinstimmungen auf dem falschen Chromosom identifiziert. Weitere Fragen tauchten bei der Durchführung von Suchen auf, bei denen das Einfügen von Lücken erlaubt war bzw. nicht erlaubt war. Durch den Vergleich derselben Contigs mit älteren und neueren Schimpansen- und menschlichen Genomen, einschließlich des ersten vollständig entschlüsselten menschlichen Genoms, wurde festgestellt, dass die meisten prozentualen Identitätswerte höher waren als in seiner ursprünglichen Studie. BLAST weist uns zwar in die richtige Richtung, ist jedoch ein unzureichendes Programm zur Bewertung der prozentualen Ähnlichkeit.
Die Frage, wie ähnlich Menschen anderen Spezies sind, wird seit Jahrhunderten diskutiert. Zu Beginn des 20. Jahrhunderts gingen die meisten Wissenschaftler davon aus, dass Proteine Träger genetischer Informationen sind, sodass man annahm, dass sich der Proteingehalt von Menschen und beispielsweise Affen stark unterscheidet. Die Entdeckung, dass viele Proteine verschiedener Spezies ähnlich, manchmal sogar identisch sind, war für viele ein Schock. Als molekulare Methoden entwickelt wurden, gab es innerhalb der wissenschaftlichen Gemeinschaft erhebliche Meinungsverschiedenheiten. Die meisten gingen davon aus, dass unser nächster „Verwandter“ der Gorilla (Gorilla gorilla) sei, während einige glaubten, es sei der Orang-Utan (Pongo pygmaeus). King und Wilson veröffentlichten 1975 die ersten DNA-Hybridisierungsexperimente zwischen Menschen und Schimpansen.1 Sibley und Ahlquist2 führten 1984 detailliertere Experimente durch.3 Sie zeigten ganz klar, dass die menschliche DNA zunächst der des Schimpansen (Pan troglodytes), dann der des Gorillas und schließlich der des Orang-Utans am ähnlichsten war, aber dies wurde nicht allgemein akzeptiert; noch 1990 verteidigten sie ihre Ergebnisse.4 Die frühesten DNA-Sequenzierungsdaten konzentrierten sich auf bestimmte proteinkodierende Gene, die bei beiden Arten als sehr ähnlich befunden wurden. Aus diesen früheren Studien stammen die so oft zitierten Ähnlichkeitswerte von „98 % oder 99 %“. Die tatsächliche Ähnlichkeit ist jedoch geringer, was seit geraumer Zeit bekannt ist.5 Die Vorstellung einer hohen Ähnlichkeit zwischen den beiden Arten wird durch die Tatsache gestützt, dass es tatsächlich große Bereiche mit hoher Ähnlichkeit gibt, insbesondere in den proteinkodierenden Regionen. Ein Großteil der Diskussion konzentrierte sich jedoch auf diese Bereiche und ließ andere Genomabschnitte, die weit weniger ähnlich sind, außer Acht.
Aus diesen früheren Studien stammen die oft zitierten Zahlen von 98 % oder 99 % Ähnlichkeit. Die tatsächliche Ähnlichkeit ist jedoch geringer, was seit geraumer Zeit bekannt ist.
Schlimmer noch, die DNA-Hybridisierung kann nur die Ähnlichkeit zwischen Sequenzen testen, die sich ausrichten lassen. Wenn DNA in Lösung erhitzt wird, trennen sich die Stränge bei einer bestimmten Schmelztemperatur, die je nach GC-Gehalt variiert. Die Opazität geschmolzener DNA ist deutlich geringer als die von ausgerichteter DNA, sodass der Prozess leicht in einem Spektralphotometer untersucht werden kann. Wenn DNA von Individuen zweier verschiedener Arten gemischt und erhitzt wird, ist beim Abkühlen der Lösung und beim Ausrichten der Stränge eine nichtlineare Reassoziationskurve mit mehreren Plateaus zu beobachten. Durch Anwendung einer Reihe komplexer Formeln und nach chemischer Entfernung der hoch repetitiven DNA kann der prozentuale Ähnlichkeitsgrad der beiden Arten geschätzt werden.
Als Ahlquist erkannte, dass er uns nicht sagen konnte, wie unterschiedlich zwei Arten sind, sondern nur, wie ähnlich bestimmte Teile ihres Genoms sind, wurde ihm klar, dass die DNA-Hybridisierung und die Kinetik der Reassoziierung äußerst begrenzt sind.6 Ja, Menschen und Schimpansen haben offensichtlich einen erheblichen Anteil an sehr ähnlicher DNA, und Schätzungen gehen davon aus, dass dieser Anteil bei 98 % liegt, aber ein großer Teil der beiden Genome musste zwangsläufig aus diesen Analysen ausgeschlossen werden.
Die Diskussion änderte sich erheblich, als 20017 und 20058 die ersten Genome von Mensch und Schimpanse veröffentlicht wurden. Verschiedene Schätzungen ergaben erneut eine genomische Ähnlichkeit im Bereich von 98 %. Allerdings war das menschliche Genom noch nicht vollständig, und das Schimpansengenom wurde bewusst unter Verwendung des menschlichen Genoms als Gerüst erstellt. Das erste menschliche Genom bestand aus 318 langen Blöcken, die nur den Buchstaben „N“ enthielten (durchschnittlich 28.000 Ns pro Block). Diese Lücken umfassten größtenteils hoch repetitive DNA-Abschnitte, die mit der damaligen Sequenzierungstechnologie nicht verarbeitet werden konnten. Die Lücken wurden in das Genom eingefügt, in der Hoffnung, dass sie später mit einer besseren Sequenzierungstechnologie gefüllt werden könnten. Derzeit enthält die aktuellste Version (GRCh38) des Humangenomprojekts (HGP) noch 151 MB nicht alignierte Sequenzen (etwa 5 % des Genoms), die noch nicht in die Chromosomen integriert wurden, und die zentromeren Sequenzen sind gefälscht. Das heißt: „Die zentromeren Alpha-Satelliten-Arrays werden als computergenerierte Modelle von Alpha-Satelliten-Monomeren dargestellt, die als Köder für Resequenzierungsanalysen dienen.“ Der kurze Arm des Chromosoms 21 ist mit Problemen behaftet, und es gibt Hinweise auf eine genomweite Deletionsverzerrung.9
Diese Hoffnung auf ein vollständig sequenziertes menschliches Genom wurde über 20 Jahre nach Veröffentlichung des ersten Entwurfs (mehr als 30 Jahre nach Beginn des HGP) nicht erfüllt. Im Sommer 2023 veröffentlichte das Telomere-to-Telomere-Projekt (T2T) endlich die vollständige Sequenz des letzten verbleibenden menschlichen Chromosoms, Y.10
Das ursprüngliche Schimpansen-Genom umfasste die 318 Spacer-Regionen, die im ersten menschlichen Genom zu finden waren, sowie zusätzlich 295.000 kleinere (Durchschnitt = 51 Ns, Berechnungen siehe unten). Der Grund dafür war, dass viele kurze Indels (Einfügungen und Deletionen) hinzugefügt werden müssen, wenn man die beiden Genome aneinander ausrichten will, und die kurzen Sequenzabschnitte des Schimpansen auf das menschliche Genom ausgerichtet wurden. In Verbindung mit der Tatsache, dass das erste Schimpansengenom nur oberflächlich sequenziert wurde (die durchschnittliche Abdeckung betrug etwa das Fünffache im Vergleich zum etwa 30-fachen des menschlichen Genoms), lieferte dieser erste Versuch nur eine sehr unzureichende Darstellung des Schimpansengenoms.
Seitdem wurden bessere Schimpansengenome assembliert. Die ersten Updates litten noch unter dem Problem der „Humanisierung“, aber schließlich wurde das Genom ohne (direkte) Referenz zum menschlichen Genom assembliert. Im Jahr 2018 veröffentlichten Kronenberg et al. einen kuratierten Satz von fast 80.000 hochwertigen Schimpansen-Contigs (d. h. zusammenhängende DNA-Abschnitte). Sie verwendeten die Pac-Bio-Long-Read-Sequenzierungstechnologie, um viele der problematischen Abschnitte des Schimpansengenoms zu überwinden. In Kombination mit Millionen von Short Reads aus der Shotgun-Sequenzierung und der Überprüfung bestimmter Buchstaben mit der altbewährten Sanger-Sequenzierung gelang es ihnen, eine etwa 65-fache Abdeckung zu erreichen.11 Diese Contigs stammen von einem Schimpansen namens Clint. Das Clint_ PTRv2 (auch bekannt als panTro6) Genom war die assemblierte Version dieser Contigs. Tomkins verwendete eine zufällig ausgewählte Gruppe von 18.000 dieser Schimpansen-Contigs und verglich sie in seiner Veröffentlichung aus dem Jahr 201812 mit dem assemblierten Genom. In der Zwischenzeit wurde das menschliche Genom mehrfach verbessert, was schließlich in T2T gipfelte (Abbildung 1).
Abbildung 1. Chromosomenkarten für das Genom von Schimpansen (linke Spalte) und Menschen (rechte Spalte). Die Autosomen sind in numerischer Reihenfolge angeordnet, sodass die Schimpansen-Chromosomen 2A und 2B auf Chromosom 1 folgen. Auf die Autosomen folgen die X-, Y- und Mitochondrien-Chromosomen. PT1 wurde zusammengestellt, bevor die Chromosomen 12 und 13 des Schimpansen in 2A und 2B umnummeriert wurden, aber die Chromosomen wurden neu angeordnet, um sie an die anderen Genome anzupassen. Jedes Chromosom wurde in Abschnitte von 250.000 Basenpaaren unterteilt, und jeder Abschnitt, der ein N enthielt, wurde rot gefärbt.
Das BLAST-Programm (Basic Local Alignment and Search Tool) ist ein Grundpfeiler der modernen Genetik. Es wurde Anfang der 1990er Jahre für die Suche nach ähnlichen Sequenzen in Proteindatenbanken entwickelt und schnell für die Verwendung mit DNA-Sequenzen einzeln (BLASTn) oder in Stapeln (MegaBLAST) übernommen. Es verwendet eine heuristische Methode, um fundierte Vermutungen über lokale Bereiche der Ausrichtung zu treffen, und ist in der Lage, Bereiche mit signifikanter Ähnlichkeit etwa 50-mal schneller zu finden als andere, umfassendere Suchalgorithmen (z. B. Smith-Waterman).
Im Jahr 2011 verwendete Tomkins BLAST, um 40.000 rohe Sequenzreads von Schimpansen mit dem menschlichen Genom abzugleichen.13 Unter Ausschluss der Bereiche, die nicht übereinstimmten, schätzte er die Ähnlichkeit auf 86–89 %. Da BLAST nur Bereiche mit der besten Ausrichtung identifiziert, dürfte die tatsächliche Ähnlichkeit geringer gewesen sein. Es ist jedoch unklar, ob diese rohen Sequenzen eine unverzerrte Stichprobe des Schimpansengenoms widerspiegeln.
Tomkins (2011),14 Tomkins und Bergman (2012),15 sowie Bergman und Tomkins (2012)16 diskutierten die Kunst der Genomkonstruktion und ihre zahlreichen Frustrationen hinsichtlich der Herangehensweise der Evolutionsgemeinschaft an dieses Thema. Im Jahr 2013 verwendete Tomkins BLAST, um die Sequenzähnlichkeit zwischen Mensch und Schimpanse neu zu bewerten.17 Er kam auf einen Wert von etwa 70 %. Dies war jedoch auf einen Fehler in der verwendeten Software zurückzuführen, wie ein Skeptiker Tomkins gegenüber behauptet.18 In Zusammenarbeit mit den Softwareentwicklern konnte Tomkins das Problem jedoch beheben. Anschließend wiederholte er seine ursprüngliche Studie, diesmal mit einem fehlerfreien Algorithmus, und kam zu einem Schätzwert von 88 %.19 Im Jahr 2016 bewertete er die Ähnlichkeit zwischen Mensch und Schimpanse, indem er 101 Trace-Read-Datensätze aus mehreren Schimpansen-Sequenzierungsprojekten untersuchte, sie mit dem menschlichen Genom verglich und zu einer Ähnlichkeit von 85 % gelangte.20 Bei all diesen Arbeiten versuchte er, das Schimpansengenom zu vermeiden, da es nachweislich „humanisiert“ war. Rohsequenz-Reads können durch Selektionsverzerrungen beeinflusst sein und eine höhere Fehlerrate aufweisen, aber sie sind näher an der Quelle als das assemblierte Genom.
In seiner neuesten Veröffentlichung zu diesem Thema verwendete Tomkins BLAST, um anhand einer Auswahl von Kronenberg et al.s Schimpansen-Contigs nach Bereichen mit signifikanter Ähnlichkeit zu suchen. Die Suche nach diesen Contigs im menschlichen Genom und in zwei Versionen des Schimpansengenoms dauerte sechs Monate Rechenzeit. Er stellte zusammenfassende Tabellen auf GitHub zur Verfügung, damit jeder seine Ergebnisse überprüfen konnte.21 Durch Mittelung der Spalte „Prozentuale Identität“ (pident) kam er zu einer Ähnlichkeit zwischen Mensch und Schimpanse von 85 %.
Etwa zur gleichen Zeit veröffentlichte der Evolutionsgenetiker Richard Buggs eine Schätzung von 84,4 % Ähnlichkeit, die jedoch nur in einem Blogbeitrag veröffentlicht wurde.22 Später veröffentlichten Seaman und Buggs (2020) eine revidierte Zahl von 96,6 % unter Verwendung vollständig alignierter Genome, jedoch erst nach Herausnahme der Zentromere, Telomere, Kopienzahlvariationen, etwa 300.000 kleiner Indels (die etwa zwei Millionen Buchstaben in jedem Genom ausmachen) und eines zusätzlichen Prozentsatzes an DNA, die sich einer Alignment verweigerte.23 Dieser „Äpfel-mit-Äpfel“-Vergleich ist der bislang robusteste, aber da sie bewusst die variabelsten Teile der beiden Genome ausgeschlossen haben, ist die tatsächliche Ähnlichkeit zwangsläufig geringer als 96,6 %. Wie viel geringer, ist derzeit Gegenstand intensiver Untersuchungen.
Mehrere Skeptiker von Tomkins‘ Arbeit haben beanstandet, dass er seine Ergebnisse vor der Berechnung der prozentualen Ähnlichkeit hätte gewichten müssen.24 Obwohl sie technisch korrekt sind, haben sie eine falsche Methode der Gewichtung vorgeschlagen. Konkret haben sie darauf hingewiesen, dass Tomkins‘ Ergebnisse sowohl kurze als auch lange Übereinstimmungen enthielten. Er habe einfach den Durchschnitt aller Übereinstimmungen genommen und die Gesamtlänge nicht berücksichtigt. Hätte er die Gesamtzahl der alignierten Basen durch die Gesamtlänge der Übereinstimmungen geteilt, wäre er zu einem Wert näher an 96 % gekommen. Eine bessere Methode wäre, den Übereinstimmungsprozentsatz zu nehmen und ihn (konservativ) auf das gesamte Contig (nicht nur den übereinstimmenden Bereich) anzuwenden, aber dies führt zu einem vergleichbaren Ähnlichkeitswert oder einem um einige Prozentpunkte niedrigeren Wert. Dennoch ignorieren beide Gewichtungsmethoden den erheblichen Prozentsatz der Genome, die bei BLAST-Suchen nicht aligniert werden können.
Jede Gewichtung wäre jedoch unangemessen, wenn die Contigs keine repräsentative Stichprobe des Schimpansengenoms darstellen. Wenn die Datenbank zu einer Sequenzklasse hin verzerrt ist,25 hilft keine noch so große „Gewichtung“. Anstelle einer Gewichtung nach der Länge jeder Übereinstimmung wäre daher eine Schätzung der relativen Häufigkeit jeder durch die Contigs repräsentierten Sequenzklasse erforderlich gewesen, die jedoch nicht durchgeführt wurde.
Ein weiterer wichtiger Einwand ist, dass Tomkins vor 2018 ausschließlich die ungapped Funktion von BLAST verwendet hat. Diese ist zwar schneller, erzeugt jedoch kürzere Übereinstimmungsbereiche. Seine Kritiker haben jedoch untereinander ein überraschendes Missverständnis verbreitet. Schlimmer noch, ihre angeblichen Ergebnisse scheinen dieses Missverständnis zu bestätigen, was alle ihre Berechnungen und Schlussfolgerungen in Frage stellt. Williamson hat ein frühes Beispiel dafür geliefert, das seitdem von anderen kopiert und sogar erweitert wurde. In einem unveröffentlichten Manuskript26 und einem Folgevideo18 zeigte Williamson eine Ausrichtung zweier fast identischer kurzer Sequenzen. Der einzige Unterschied bestand darin, dass eine Sequenz in der Mitte ein „A“ enthielt, wodurch die Ausrichtung in der ersten Hälfte perfekt war, in der zweiten Hälfte jedoch völlig daneben lag (Abbildung 2). Er behauptete, dass dies zu einer Gesamt-Ausrichtungsbewertung von 46 % führen würde. Durch Einfügen einer Lücke in die kürzere Sequenz erhöht sich der Alignment-Score jedoch auf 92 %. Abgesehen davon, dass er einen ausrichtbaren Buchstaben übersehen hat (die rote Linie in Abbildung 2), würde BLAST tatsächlich einen höheren Prozentsatz an Ähnlichkeit für das falsch ausgerichtete Sequenzpaar melden. Der Algorithmus sucht nach Bereichen mit der besten lokalen Ausrichtung. Daher würde er melden, dass er für das erste Sequenzpaar einen Bereich mit 100 % Übereinstimmung und für das andere nur 92 % gefunden hat. BLAST arbeitet in der Regel nicht mit so kurzen Sequenzpaaren, aber die Darstellung bleibt dennoch gültig.
Abbildung 2. Ein falsches Verständnis der Funktionsweise des BLAST-Algorithmus. In der Ausrichtung auf der linken Seite stimmen 7 von 13 Nukleotiden überein (eine Ähnlichkeit von 54 %). In der Ausrichtung auf der rechten Seite stimmen 12 von 13 Nukleotiden überein (92 % Ähnlichkeit), nachdem Lücken berücksichtigt wurden. In Wirklichkeit würde der BLAST-Algorithmus eine 100-prozentige Ähnlichkeit für die Sequenz auf der linken Seite melden, jedoch mit einer Übereinstimmungslänge von nur sechs Buchstaben. Die rote Linie in der linken Ausrichtung zeigt ein übereinstimmendes Nukleotidpaar an, das von Roohif und später von Gutsick Gibbon in ihren Videos zu diesem Thema übersehen wurde.
Die Behauptung lautet, dass Tomkins durch das Verbieten von Lücken im Suchprotokoll seine Ergebnisse nach unten verzerrt habe. Es gibt jedoch andere Gründe, warum seine Ergebnisse nach unten verzerrt sind, und der Einwand zeigt ein völliges Missverständnis der Funktionsweise von BLAST. Erstens werden kurze Sequenzen wie diese disqualifiziert. Wenn die übereinstimmenden Sequenzen nicht über einem voreingestellten Mindestwert liegen (-culling ist standardmäßig auf 44 gesetzt), wird ein Null-Ergebnis zurückgegeben. Zweitens legt der Parameter -word_size die anfängliche Mindestübereinstimmungslänge fest (Standard = 11). Sobald ein passendes „Wort“ gefunden wurde, wird der Bereich nach links und rechts erweitert. Jeder gefundene übereinstimmende Buchstabe erhöht die Punktzahl um einen festgelegten Wert (-reward = 2 standardmäßig), während jede Nichtübereinstimmung die Punktzahl verringert (-penalty = 3 standardmäßig). Somit beginnt der Bit-Score für die Übereinstimmung mit einem Wert von 22 (Wortgröße von 11 × 2 Punkten pro übereinstimmendem Buchstabenpaar) und steigt mit der Erweiterung der Ausrichtung. Wenn die Punktzahl von einem lokalen Maximum auf einen festgelegten Wert (-xdrop_ungapped = 20 standardmäßig) fällt, stoppt der Algorithmus die Suche, kehrt zum Bereich mit der höchsten Punktzahl zurück und meldet nur diesen Bereich der Ausrichtung. Daher ist zu erwarten, dass „ungapped“ BLAST-Suchen etwas höhere Ähnlichkeitswerte liefern als „gapped“ Suchen (Abbildung 3), entgegen der Meinung von Tomkins‘ Kritikern.
Abbildung 3. Erklärung, wie BLAST den Bitscore berechnet. Es wurden zwei identische Sequenzen mit 1.000 zufälligen Nukleotiden erstellt und ein einzelnes zusätzliches Nukleotid an Position 501 in der zweiten Zeichenfolge hinzugefügt. Blaue Linie: Bei einer ungapped-Suche würde BLAST eine 100-prozentige Übereinstimmung über die ersten 500 Nukleotide melden. Rote Linie: Bei einer Suche mit Lücken würde BLAST eine Übereinstimmung von 99,9 % über 1.000 Nukleotide melden. Die abfallende blaue Linie steht für ein Missverständnis. Viele verwechseln die Gesamtalignierung im falsch ausgerichteten Sequenzpaar (62,3 %) mit der kürzeren Übereinstimmung, die von BLAST gemeldet wird. Der Punkt, an dem der Algorithmus bei einer Suche ohne Lücken abbricht, hängt von der Einstellung von -x-drop ab, die standardmäßig auf 20 gesetzt ist.
Ein Beispiel für die Bewertung in einer BLAST-Suche ist in Abbildung 3 zu sehen. Hier wurden zwei identische Sequenzen mit 1.000 Nukleotiden erstellt. Anschließend wurde nach Position 500 in der zweiten Zeichenfolge ein zusätzlicher Buchstabe eingefügt, wodurch die zweite Hälfte der ansonsten perfekten Ausrichtung verzerrt wurde. Mit -ungapped würde BLAST eine maximale Punktzahl von 1.000 (blaue Linie) berechnen und einen Identitätswert von 100 % für die beiden Zeichenfolgen über eine Übereinstimmungslänge von 500 melden. Nach Einfügen einer einzigen Lücke in die kürzere Zeichenfolge würde BLAST eine maximale Punktzahl von 1.995 (rote Linie) berechnen und eine Identität von 99,9 % für die beiden Zeichenfolgen über eine Übereinstimmungslänge von 1.000 melden. Die abfallende blaue Linie steht für die falsche Annahme, dass BLAST die gesamte Abfragezeichenfolge durchläuft und in diesem Fall (fälschlicherweise) einen Bit-Score unter 200 und eine prozentuale Identität von 62,3 % melden würde. Aufgrund des Parameters -x_drop beendet BLAST die Suche jedoch, wenn der Score unter einen bestimmten lokalen Höchstwert von 20 fällt. In diesem Fall stoppt der Algorithmus, wenn der Score 980 erreicht, springt zurück zur Stelle mit dem höchsten Score und meldet, dass er eine 100%ige Übereinstimmung über die ersten 500 Buchstaben gefunden hat. Die zweite Hälfte der Zeichenfolge wird überhaupt nicht getestet.
BLAST ist nicht intuitiv. Es verwendet eine Brute-Force-Methode, um Übereinstimmungen zu finden. Oft findet es eine Übereinstimmung mit hoher Punktzahl auf dem falschen Chromosom, und Suchen mit und ohne Lücken treffen oft auf sehr unterschiedliche Bereiche des Genoms (siehe Ergebnisse). Und da der Bitscore auch beim Durchlaufen eines „lückenhaften“ Bereichs mit relativ schlechter Ausrichtung steigen kann, liefern Suchvorgänge, die Lücken zulassen, oft Treffer mit einer geringeren prozentualen Identität als Suchvorgänge, die keine Lücken zulassen. Aus diesen Gründen muss man bei der Schätzung der Gesamtsequenzähnlichkeit mit diesem Programm sehr vorsichtig sein. Schlimmer noch, BLAST kann keine Sequenzübereinstimmung in Bereichen finden, die durch den Buchstaben „N“ maskiert sind. Bei Verwendung einer Datenbank mit Sequenzen, die nicht in ein Genom integriert sind (z. B. viele der 18.000 Contigs, die Tomkins in seiner Veröffentlichung von 2018 verwendet hat, mussten noch zum menschlichen Genom hinzugefügt werden), kann BLAST daher die tatsächlich übereinstimmende Sequenz nicht identifizieren und begnügt sich mit der nächstbesten Region, wodurch der prozentuale Gesamtähnlichkeitsgrad sinkt. Daher liefern Top-Level-Genome (die nur die kanonischen Chromosomen enthalten) und vollständige Genome (die auch nicht assemblierte akzessorische Sequenzen enthalten) nicht die gleichen Ergebnisse. Dies wurde von Tomkins‘ Kritikern übersehen. Die meisten ihrer Bemühungen konzentrierten sich auf Top-Level-Genome, während er darauf achtete, alle verfügbaren Sequenzdaten einzubeziehen.
… man muss sehr vorsichtig sein, wenn man versucht, die Gesamtsequenzähnlichkeit mit diesem Programm [BLAST] zu schätzen.
Methoden #
Die Sequenzen in der von Tomkins (2018) verwendeten Contig-Datenbank wurden gemäß der von ihm bereitgestellten Liste aus dem European Nucleotide Archive27 bezogen. Es wurden mehrere Versionen des Schimpansen- und des menschlichen Genoms beschafft (Tabelle 1), darunter das ursprüngliche Schimpansengenom (PanTro1, im Folgenden PT1),28 das Clint_PTRv2-Genom (auch bekannt als panTro6, im Folgenden PT2)29 und die neueste Version des Schimpansengenoms (panTro3.1.1, im Folgenden PT3).30 Die Chromosomen der obersten Genbank-Version wurden einzeln heruntergeladen. Ein zusätzlicher Massen-Daten-Download ergab weitere 4.300 bzw. 1.446 nicht ausgerichtete Sequenzen für PT2 und PT3. Ein frühes menschliches Genom (NCBI34/ hg16, im Folgenden H16),31 eine ähnliche Version wie die von Tomkins verwendete (GRCh37.71, im Folgenden H37),32 ein neueres menschliches Genom (GRCh38.p13, im Folgenden H38)33 und das Telomere-to-Telomere-menschliche Genom (im Folgenden T2T)34 wurden ebenfalls beschafft. Nach dem Entpacken wurden die Chromosomendaten bei Bedarf zu einzelnen FASTA-Dateien verkettet. Für jedes Genom wurden zwei BLAST-Datenbanken (eine für die Chromosomen und eine für die nicht assemblierten Sequenzen) über die Befehlszeile erstellt.35
Tabelle 1. Statistik für die verschiedenen in dieser Studie verwendeten Genome
Für jedes Genom wurden die Anzahl der N-Blöcke und die Gesamtzahl der Ns gezählt. Mit einem benutzerdefinierten Python-Skript wurden für jedes Genom Karten erstellt, die die Chromosomenlängen sowie die Positionen und Längen aller N-Blöcke zeigten (Abbildung 1).
Mit einer Reihe von benutzerdefinierten Python-Programmen wurden Tausende von BLAST-Suchen durchgeführt. Dazu mussten eine Abfragesequenz eingegeben, die Zieldatenbank identifiziert und verschiedene Eingabeparameter festgelegt werden (Tabelle 2). Es stehen weitere Optionen zur Verfügung, die jedoch nicht alle getestet wurden. Von besonderer Bedeutung war der Unterschied zwischen Suchen, die Lücken zuließen oder nicht zuließen. Eine Suche mit Lücken ist die Standardeinstellung, kann jedoch mit dem Befehl „-ungapped“ deaktiviert werden. Gapped-Suchen waren deutlich langsamer. Die Zeichenfolge -output_fmt wurde auf „10 qid qlen sseqid sstart send pident nident length mismatch gapopen gaps evalue bitscore“ gesetzt (Tabelle 3), wobei „10“ lediglich eine durch Kommas getrennte Zeichenfolge angibt. Die Abfrage-ID, der Startpunkt und die Länge wurden im Namen der BLAST-Berichtsdatei angegeben.
Tabelle 2. Die wichtigsten BLAST-Parameter
Tabelle 3. Ausgabeparameter
In vielen Fällen wurden sowohl ungapped als auch gapped BLAST-Suchen durchgeführt und nebeneinander verglichen. Um die Ergebnisse von Tomkins (2018) zu bewerten, wurden zunächst 150 der kleineren Contigs gegen PT1, PT2, PT3, H16, H37, H38 und T2T geblastet. Einige der Contigs mit den höchsten Wiederholungsraten wurden entfernt, um die Analyse zu beschleunigen (die Suchzeit variierte je nach Wiederholungsrate der Abfrage zwischen wenigen Sekunden und mehreren Stunden). Damit blieben 124 Contigs und eine Laufzeit von etwa 9 Stunden pro Genom im Vergleich. Zweitens wurde ein 10.000-bp-Ausschnitt des längsten Schimpansen-Contigs online gegen PT3 geblastet.26 Dadurch konnte er auf dem Chromosom 3 des Schimpansen lokalisiert werden, sodass eine zusätzliche BLAST-Datenbank nur für dieses Chromosom erstellt wurde. Der längste Contig (in seiner Gesamtheit) wurde in Stücke von 100, 300, 1000 und 10000 bp Länge aufgeteilt und gegen PT3-Chromosom 3 geblastet. Drittens wurden aus jedem Genom zufällige Teilsequenzen unterschiedlicher Länge ausgewählt und unter Verwendung verschiedener Parametereinstellungen gegen andere Genome und das Eltern-Genom geblastet. Viertens wurden die ersten 500.000 Nukleotide des T2T-Chromosoms 22 in 300-bp- und 1.000-bp-Bins aufgeteilt und mit Hilfe von gapped und ungapped Suchen gegen PT3 geblastet.
Der Shapiro-Wilk-Test auf Normalität wurde auf die Längen der Contigs, die Längen der Übereinstimmungen in H37 und die von Tomkins (2018) gemeldeten pident-Werte für H37 unter Verwendung eines Python-Plugins angewendet. Ein Mann-Whitney-U-Test wurde verwendet, um die Ähnlichkeit der normalisierten pident-Histogramme der 18.000 Contigs und der 124 kürzeren Contigs zu testen.
Ergebnisse #
Jeder der drei Tests auf Normalität in Tomkins‘ „Homo“-Datentabelle von 2018 ergab eine Wahrscheinlichkeit von 0,0. Obwohl ein Contig 2,7 Millionen Basen lang war, waren die Contig-Längen stark zu kürzeren Längen verschoben, mit einem Modus von 1.004 Basenpaaren. Die Übereinstimmungslängen waren ebenso verschoben. Die längste Übereinstimmung betrug nur 342.000 Nukleotide (bei einer Abfrage von fast zwei Millionen Basenpaaren). Die Übereinstimmungen betrugen durchschnittlich 62,3 % (± 0,31 SD) der Abfragelänge, wobei kein klarer Zusammenhang zwischen der Abfragelänge und der Übereinstimmungslänge bestand. Der Anteil der Abfragesequenz, der in der Übereinstimmung enthalten war, hing jedoch stark von der Länge der Abfrage und davon ab, ob die Suche ohne oder mit Lücken durchgeführt wurde (Abbildung 4). Sowohl in den Schimpansen-Contigs als auch im menschlichen T2T-Genom gab es keine Ns. Die anderen Genome enthielten keine kleinen, sporadischen N-Blöcke, wie sie im ursprünglichen Schimpansen-Genom zu finden sind (Tabelle 1). Die Genomkarten sind in Abbildung 1 dargestellt.
Abbildung 4. Prozentualer Anteil der in einer Übereinstimmung enthaltenen Abfrage-Sequenz im Verhältnis zur Abfragelänge für BLAST-Suchen ohne und mit Lücken. Diese Daten wurden erhalten, indem das längste Schimpansen-Kontig (2,7 MB) in Stücke zerlegt (entsprechend den angegebenen Längen) und die Stücke gegen PT2-Chromosom 3 geblastet wurden. Fehlerbalken sind nicht dargestellt.
Bei der Untersuchung der Rohdaten von Tomkins 2018 scheinen die Ähnlichkeitswerte in gleichmäßig verteilten Wellen aufzutreten, was möglicherweise auf algorithmische Artefakte hindeutet (Abbildung 5). PanTro4 und PanTro5 waren Versionen des Schimpansengenoms, die unter Verwendung des menschlichen Genoms als Vorlage assembliert wurden bzw. nicht assembliert wurden. H37 und panTro4 weisen Spitzen an sehr ähnlichen Stellen auf. Tomkins berichtete einen durchschnittlichen Pident-Score für Pantro5 von 100 %. Dies konnte ebenfalls nicht repliziert werden.
Abbildung 5. Normalisierte Pident-Werte aus den Zusatzdaten von Tomkins (2018). 18.000 Schimpansen-Contigs wurden mit drei verschiedenen Genomen verglichen, einem menschlichen und zwei Schimpansen-Genomen. Ebenfalls enthalten ist eine Auswahl von 124 kurzen Contigs (z. B. eine Teilmenge der H37-Ergebnisse), die in der aktuellen Studie ausführlich verwendet wurden. Die Verteilungen für H37 und die 124 Contigs waren sowohl visuell als auch statistisch sehr ähnlich, sodass letztere als faire Unterstichprobe der ersteren behandelt wurden. Die Namen der Schimpansengenome entsprechen nicht den in dieser Studie verwendeten Namenskonventionen. Beachten Sie, dass die y-Achse bei 0,4 abgeschnitten ist, wodurch die PanTro5-Ergebnisse wegfallen.
Die Pident-Werte waren nicht verzerrt; als Histogramm dargestellt waren sie vollständig bimodal (Abbildung 4, H37). Tomkins nahm den Durchschnitt dieser Werte und berichtete eine Ähnlichkeit zwischen Mensch und Schimpanse von 84 %, ohne die seltsame Datenverteilung oder die erwartete genomische Häufigkeit der jeweiligen Sequenzklassen innerhalb der beiden Hauptpeaks zu berücksichtigen. Es gab nur sehr wenige Werte in der Nähe des „Durchschnitts“.
Die Teilmenge von 124 zufälligen kleinen Contigs wies eine sehr ähnliche Pident-Verteilung auf wie die gesamte Sammlung von 18.000 (Abbildung 4). Nach der Normalisierung ergab ein Mann-Whitney-U-Test der beiden Verteilungen einen p-Wert < 0,00001, was bedeutet, dass die beiden Verteilungen im Wesentlichen identisch sind. Somit kann dies als „faire Stichprobe“ der Elternverteilung angesehen werden, und alle mit der Teilstichprobe durchgeführten Analysen sollten auf den größeren Datensatz übertragbar sein. Die ursprünglichen Zahlen konnten jedoch nicht validiert werden. Beim Abgleich mit H37 (derselben oder einer ähnlichen Version des von Tomkins verwendeten menschlichen Genoms) erreichten die meisten Contigs einen höheren Pident-Wert (Abbildung 6). Die Ergebnisse für H37 und H38 waren sehr ähnlich (Abbildung 7), sodass die Unterschiede zwischen den Ergebnissen von Tomkins (2018) und dieser Studie wahrscheinlich nicht auf Unterschiede in der verwendeten Genomversion zurückzuführen sind. Es ist auch nicht zu erwarten, dass unterschiedliche Versionen von BLAST sehr unterschiedliche Ergebnisse liefern würden (abgesehen von Programmfehlern). Diese Diskrepanz bleibt ungelöst, obwohl Gapped-Suchen Ergebnisse lieferten, die näher an den Zahlen von Tomkins lagen, und er in dieser Studie Gapped-Suchen verwendet hat. Im Wesentlichen wurden die Pidents aller Übereinstimmungen mit niedriger Punktzahl mit viel höherer Häufigkeit gefunden, insbesondere bei Verwendung des Parameters -ungapped, den er in früheren Studien verwendet hat. Hat die Verwendung des Parameters „gapped“ die Ähnlichkeit zwischen Mensch und Schimpanse in seiner Studie von 2018 verringert? Es wurde versucht, seine Ergebnisse mit verschiedenen Einstellungen von „-dust“, „-soft_masking“ und „gapping“ (mit identischen Parametereinstellungen wie in seiner Veröffentlichung von 2018) zu reproduzieren. Es wurde nicht erwartet, dass die anderen benutzerdefinierten Parameter einen großen Unterschied machen würden.
Abbildung 6. Replikation der BLAST-Ergebnisse von Tomkins aus dem Jahr 2018. Diese pident-Werte wurden durch Blasting von 124 kurzen Schimpansen-Contigs gegen das menschliche Genom H37 unter Verwendung von ungapped- und gapped-Suchen erhalten. Die pident-Werte aus den (gapped) BLAST-Ergebnissen in Tomkins (2018) sind diagonal dargestellt.
Abbildung 7. Gapped und ungapped Pident-Werte, die durch Blasting von 124 kurzen Schimpansen-Contigs gegen H37 und H38 erhalten wurden, zeigen sehr ähnliche Ergebnisse, aber Gapped-Suchen hatten im Allgemeinen niedrigere Pident-Werte.
Bei der Darstellung anhand der Ergebnisse von Tomkins lagen viele der neuen Werte über den von ihm angegebenen Werten (Abbildungen 5, 7 und 8). Die Datendatei von Tomkins aus dem Jahr 2018 enthält auch keine Angaben dazu, wo genau sich die Übereinstimmungen im menschlichen Genom befanden, sodass dies nicht überprüft werden kann. Außerdem konnte die bimodale Spitze, die in seinen Daten zu sehen war, in der aktuellen Studie nicht reproduziert werden.
Gapped und ungapped Suchen nach Übereinstimmungen mit diesen 124 Schimpansen-Contigs ergaben nahezu identische Ergebnisse für die einzelnen Schimpansengenome, aber die Werte für PT2 waren im Allgemeinen niedriger als für PT3 (Abbildung 8). Es wird angenommen, dass dies auf den höheren Fertigstellungsgrad des PT3-Genoms zurückzuführen ist. Viele Werte stiegen mit dem Füllen der Lücken von 70 % auf eine vollständige Übereinstimmung von 100 %. Dennoch enthielten beide Genome unassemblierte Sequenzen. Es wird angenommen, dass das vollständigere PT3-Genom durch Einfügen einiger der in PT2 gefundenen unassemblierten Sequenzen erstellt wurde. Somit hätten die Contigs, die mit einer Lücke in PT2 übereinstimmten, in den zusätzlichen Sequenzdaten gefunden werden müssen. Der Grund für den Sprung in den Ähnlichkeitswerten ist daher ungeklärt. Die Suche ohne Lücken und mit Lücken in den beiden menschlichen Genomen ergab jedoch unterschiedliche Ergebnisse (Abbildung 9). Die beiden ungapped-Suchen waren ähnlich und lagen im Allgemeinen über den Ergebnissen der gapped-Suchen.
Abbildung 8. Ergebnisse des Blastings einer Reihe von 124 Schimpansen-Contigs auf zwei Schimpansengenomen. Die ursprünglichen prozentualen Identitätswerte von Tomkins (schwarze Rauten) liegen entlang der diagonalen roten Linie und stammen aus panTro4, einem Vorgänger von PT2. Die durchschnittlichen prozentualen Identitätswerte für die Schimpansengenome verschoben sich von PT2 nach PT3 nach oben, aber die ungapped und gapped Suchen ergaben für jedes Genom sehr ähnliche Werte. Beachten Sie, dass die Linien nur zur Veranschaulichung dienen. Die Abweichungen waren hoch und Fehlerbalken werden nicht angezeigt.
Abbildung 9. Ergebnisse des Blastings einer Reihe von 124 Schimpansen-Contigs auf zwei menschliche Genome. Die ursprünglichen prozentualen Identitätswerte von Tomkins (schwarze Rauten) liegen entlang der diagonalen roten Linie und wurden mit H37 ermittelt. Die durchschnittlichen prozentualen Identitätswerte für die menschlichen Genome verschoben sich von H38 (H37 ist nicht dargestellt, aber die Ergebnisse waren ähnlich) nach T2T nach oben, aber die Suche ohne Lücken und mit Lücken ergaben unterschiedliche Ergebnisse. Tomkins verwendete in seiner Studie aus dem Jahr 2018 die Suche mit Lücken, was seine Ergebnisse nach unten verzerrt haben dürfte. Auch hier dienen die Linien nur zur Veranschaulichung.
Der Abgleich mit den verschiedenen Genomen ergab hohe durchschnittliche pident-Werte. Diese Werte waren nach der Gewichtung sogar noch höher (Tabelle 4). Die durchschnittliche Länge der Übereinstimmungen war jedoch drastisch unterschiedlich. Bei den beiden Schimpansengenomen stimmte im Durchschnitt ein großer Teil des Contigs mit einem Abschnitt des Schimpansengenoms überein, obwohl die Suche ohne Lücken kleinere Übereinstimmungslängen ergab als die Suche mit Lücken. Bei den menschlichen Genomen wurde im Durchschnitt nur etwa ein Drittel des Contigs mit der Suche ohne Lücken abgeglichen, während mit der Suche mit Lücken etwas mehr als die Hälfte des durchschnittlichen Contigs erfasst wurde. Außerdem erreichten viele potenzielle Übereinstimmungen nicht die -culling-limit, die Punktzahl, die erreicht werden muss, damit BLAST sie in die Liste der potenziellen Treffer aufnimmt (Standardwert = 44). Da die –word-size auf 11 gesetzt war, beginnen alle anfänglichen Übereinstimmungen automatisch mit einer Punktzahl von 22. Nur 11 zusätzliche übereinstimmende Buchstaben müssen zum Startwort hinzugefügt werden, um eine Punktzahl von 44 zu erreichen (mehr, wenn Nichtübereinstimmungen oder Lücken gefunden werden). Bei 14 % der Suchvorgänge ohne Lücken im menschlichen Genom konnten keine signifikanten Übereinstimmungen gefunden werden. Mit anderen Worten: Die durch diese Contigs dargestellten Sequenzen existieren nicht einmal im menschlichen Genom.
Tabelle 4. Ergebnisse des Blastings von 124 kleinen Contigs auf verschiedenen Genomen. Nicht alle Suchvorgänge ergaben einen Wert, der über dem Culling-Limit lag. Av Len = die durchschnittliche Länge der übereinstimmenden Region. % Len = der Prozentsatz des Abfrage-Contigs, der in der Übereinstimmung enthalten war. Unweighted = der einfache Durchschnitt aller pident-Werte. Weight1 = sum(num_iden)/sum(len). Weight2 = sum(pident x qlen)/sum(qlen).
Wichtig ist, dass BLAST beim Blasten einer Abfrage gegen ihr übergeordnetes Genom sowohl bei Suchen mit als auch ohne Lücken immer eine 100-prozentige Übereinstimmung zurückgab.
Da in den oben aufgeführten Ergebnissen viele Unstimmigkeiten hinsichtlich der Genomposition festgestellt wurden, wurde eine systematische Untersuchung der ersten 500.000 Nukleotide im T2T-Chromosom 22 durchgeführt. Die Ergebnisse der ungapped und gapped Suchen von T2T gegen PT3 mit zwei verschiedenen Bin-Größen waren sehr konsistent, aber die meisten der gemeldeten „besten“ Übereinstimmungen betrafen nicht Chromosom 22 (Abbildung 10). Dies könnte zum Teil auf die Translokation von Genomabschnitten zwischen den Chromosomenarmen zurückzuführen sein (entweder aufgrund von Evolution oder aufgrund des Designs). Zum Teil könnte es auch daran liegen, dass sehr ähnliche DNA-Abschnitte an mehr als einer Stelle gefunden wurden. Ein Großteil davon könnte auf das Vorhandensein langer und häufiger Wiederholungen (z. B. Alu-Elemente) zurückzuführen sein, die über das Genom verstreut sind. Ohne ein gründliches Verständnis darüber, wie BLAST vergleichbare Sequenzen findet, sind die meisten Ergebnisse wahrscheinlich für die Untersuchung der Unterschiede zwischen Menschen und Schimpansen nicht anwendbar. Die Zuordnung der Übereinstimmungen aus diesem Abschnitt des T2T-Chromosoms 22 auf das PT3-Genom zeigt das Problem deutlich (Abbildungen 11 und 12). BLAST lokalisierte Teile dieses menschlichen Genoms auf mehreren Chromosomen von Schimpansen, darunter mehrere Stellen, an denen aufeinanderfolgende 1.000-bp-Abschnitte der beiden Genome perfekt übereinstimmen, und andere Stellen, an denen aufeinanderfolgende 1.000-bp-Abschnitte des menschlichen Genoms (fälschlicherweise) an derselben Stelle im Schimpansen-Genom zugeordnet wurden. Schlimmer noch, dieser Abschnitt überlappender Fenster verschob sich bei der Umstellung auf eine Suche mit Lücken auf ein anderes Chromosom. Diese Bereiche (PT3-Chromosomen 9:63.565.920–63.566.109 und 14:3.929.276–3.929.593) wurden von RepeatMasker markiert.36 BLAST kann repetitive Sequenzen filtern (z. B. durch Setzen von -dust = yes oder -soft_ masking = true), wenn die Sequenzen maskiert sind (oft durch Umwandeln bestimmter Abschnitte in Kleinbuchstaben), aber dies hatte nur geringe Auswirkungen auf die oben berichteten Ergebnisse (Daten nicht gezeigt).
Abbildung 10. Lokalisierung von Abschnitten des T2T-Chromosoms 22 auf dem PT3-Genom mit BLAST. Es wurden zwei verschiedene Bin-Größen verwendet und sowohl ungapped als auch gapped Suchen durchgeführt. Die meisten der „besten“ Treffer wurden nicht auf Chromosom 22 gefunden. Dies wirft ernsthafte Fragen hinsichtlich der Verwendung von BLAST zur Bewertung genetischer Ähnlichkeiten zwischen Menschen und Schimpansen auf.
Abbildung 11. Kartierung der ersten 500.000 Nukleotide des T2T-Chromosoms 22 auf dem PT3-Genom, Bin-Größe 1.000, Suche ohne Lücken. Die untere Zeile stellt eine vergrößerte Ansicht dieses Teils des Testchromosoms dar. Für jeden Bin verbindet eine Linie den Abschnitt des menschlichen Chromosoms mit der Stelle, an der BLAST den Treffer mit der höchsten Punktzahl gefunden hat. Die Linien sind entsprechend der Pident-Werte farblich gekennzeichnet (grün ≥ 99 %, blau ≥ 95 %, rot ≥ 90 %, weiß < 90 %). Es gibt einige Abschnitte, in denen aufeinanderfolgende Bins auf dem menschlichen Chromosom mit aufeinanderfolgenden Bins auf dem Schimpansengenom übereinstimmen (z. B. am Anfang von PT3-Chromosom 4), und andere Stellen, an denen aufeinanderfolgende Bins auf dem menschlichen Chromosom alle auf dieselbe Stelle auf PT3 zeigen (z. B. die Reihe roter Linien, die auf die Mitte von Chromosom 9 zeigen).
Abbildung 12. Wie Abbildung 10, jedoch für eine Suche mit Lücken. Der große Abschnitt mit überlappenden Übereinstimmungen auf Chromosom 9 hat sich auf Chromosom 14 verschoben und überlappt sich weiterhin.
Diskussion #
Die hohe Ähnlichkeit zwischen dem menschlichen und dem Schimpansen-Genom ist unbestreitbar. Die Evolutionsforscher haben dies als Beweis für eine gemeinsame Abstammung angesehen. Allerdings haben sie ein flexibles System. Das Datum unseres letzten gemeinsamen Vorfahren kann sich auf der Grundlage fossiler oder genetischer Beweise verschieben (und hat sich in den letzten Jahrzehnten um mehrere Millionen Jahre verschoben). Da Gott jedoch eindeutig nach hierarchischen Prinzipien geschaffen hat,37 hätte ihn nichts daran hindern können, Menschen und Schimpansen so ähnlich oder so unterschiedlich zu schaffen, wie er wollte. Schimpansen und Menschen haben jedoch ähnliche Verhaltensweisen, eine ähnliche Morphologie, ähnliche Nahrungsvorlieben und ähnliche Temperaturbedürfnisse. Nach den Grundprinzipien würde man daher erwarten, dass sie auch genetisch ähnlich sind. Die Antwort auf diese Frage ist für keine der beiden Seiten entscheidend, aber viele Menschen möchten sie gerne wissen.
Tomkins‘ niedrige Schätzungen basierten teilweise auf unvollständigen Genomdaten, aber das war alles, was ihm damals zur Verfügung stand. Bei der Wiederholung seiner Methoden mit moderneren Genomen liegt der Prozentsatz der Identität zwischen Schimpansen und Menschen deutlich über 85 %. Die unbemerkte bimodale Verteilung seiner pident-Werte hätte auf ein Problem hinweisen müssen, aber nach 18.000 Messungen war er überzeugt, dass er eine angemessene Stichprobengröße und damit einen angemessenen Durchschnittswert hatte. Er führte auch einen angemessenen Kontrolltest durch, bei dem er die Contigs mit mehreren Versionen des Schimpansengenoms verglich. Mit PT2/panTro6 erzielte er eine durchschnittliche Übereinstimmung von 100 %, was etwas seltsam ist. Bei der Wiederholung mit einer kleineren Stichprobe von Contigs gegen PT2 zeigten viele Contigs zwar eine 100-prozentige Übereinstimmung, aber sicherlich nicht alle (Tabelle 4, Abbildung 7). Die aktuelle Studie konnte auch nicht den von ihm berichteten Spitzenwert der pident-Werte im hohen 60-Prozent-Bereich finden, der beim Vergleich der Schimpansen-Contigs mit denen des Menschen auftrat. Dies galt sogar bei der Untersuchung desselben menschlichen Genoms, das er verwendet hatte (H37), und einer repräsentativen Stichprobe aus seiner Contig-Datenbank. Bis heute sind diese Diskrepanzen ungeklärt.
Seine Kritiker haben sich auf seine fehlende Gewichtung und die Verwendung von ungapped BLAST-Suchen konzentriert, aber erstere wird falsch angewendet und letztere verzerrt die Ähnlichkeit nach oben. Gapped-Suchen liefern schlechtere Übereinstimmungen, wie hier deutlich gezeigt wurde. Was benötigt wird, ist ein umfassenderes DNA-Alignment-System. Es wurden mehrere entwickelt, darunter Mummer 4,38 LASTZ,39 und Fluent DNA,23 aber alle leiden unter Annahmen, freien Parametern und Anforderungen an den Benutzer (z. B. Strafen für Lückenöffnungen, Empfindlichkeitsschwellen und Bewertungsmatrizen). Sie liefern nicht einfach auf magische Weise das perfekte Alignment. Die Wissenschaft des Genomvergleichs ist noch immer sehr „kunstvoll“.
Die Wissenschaft des Genomvergleichs ist noch immer eine Kunst.
LASTZ ist wahrscheinlich die heute am häufigsten verwendete Methode. Mehrere Beispiele für vollständige Genom-LASTZ-Alignments finden Sie online. Die Daten deuten darauf hin, dass log-Strecken der DNA von Menschen und Schimpansen geteilt werden (Abbildung 13).40 Fluent DNA vergleicht nur Genome, die zuvor mit einer anderen Software aligniert wurden, aber die Ausgabedaten sind nützlich. In ihrer Beschreibung präsentierten Seaman und Buggs (2020) mehrere Ansichten und Statistiken, die uns helfen, die Ähnlichkeit zwischen Menschen und Schimpansen besser einzuschätzen. Die oft zitierte Zahl aus ihrer Arbeit lautet „96,66 %“, aber diese ergibt sich erst nach Ausschluss der Zentromere (6,2 % des menschlichen Genoms41), Telomere (jeweils 10–15 kb), Kopienzahlvariationen, maskierte Regionen der Eingabegenome (sie verglichen H38 und PT2, die 158 MB bzw. 28 MB maskierte Regionen enthielten), nicht ausrichtbare Sequenzbereiche und alle Indels (über 2,1 Millionen Lücken müssen auf jeder Seite hinzugefügt werden, um die beiden Genome auszurichten). Der ignorierte Anteil des Genoms beläuft sich auf viele Millionen Basen. Die Alignment-Länge beträgt nur 95,57 % der gesamten Referenzgenomlänge (H38), sodass bereits vor der Berechnung der Ähnlichkeitsstatistik ein erheblicher Unterschied bestand. Ganze 98,65 % der alignierten Region sind zwischen Menschen und Schimpansen identisch. Multipliziert man diese Werte, sind etwa 94,27 % der beiden Genome identisch, und selbst das ist mit Vorsicht zu genießen.
Abbildung 13. LASTZ-Vergleich der Anzahl gemeinsamer Blöcke und der Gesamtzahl der Nukleotide innerhalb jeder Blockkategorie, H38 v PT3 (Daten aus Ref. 41).
BLAST ist aus mehreren Gründen eine ungeeignete Softwareplattform für Genom-zu-Genom-Vergleiche. Erstens identifiziert es nur lokale Übereinstimmungsbereiche innerhalb einer bestimmten Suchzeichenfolge, wobei manchmal ein erheblicher Teil der Suchanfrage aus der Analyse herausfällt. Zweitens führen Suchvorgänge mit aufeinanderfolgenden Zeichenfolgen aus dem Abfrage-Chromosom nicht unbedingt zu aufeinanderfolgenden Stellen auf dem Zielchromosom, und Suchvorgänge mit stark repetitiven Sequenzen überschneiden sich häufig auf dem Zielchromosom. Drittens müssen aufgrund der großen Anzahl von Indels, die bei jeder Mehrarten-Ausrichtung hinzugefügt werden müssen, Lücken in den gemeldeten Übereinstimmungen zugelassen werden, was jedoch tendenziell zu einer Verringerung des durchschnittlichen Prozentsatzes der Ähnlichkeit führt. Sobald das Genom eines Schimpansen vollständig entschlüsselt ist, wird es möglich sein, eine vollständige Ausrichtung der beiden Genome vorzunehmen. Dies müsste manuell kuratiert werden, und Unterschiede (d. h. Translokationen, segmentale Duplikationen, Genkopienzahl und -platzierung) müssten sorgfältig kartiert werden. Darüber hinaus müssten Unterschiede zwischen den Arten katalogisiert werden. An diesem Punkt wäre es möglich, den vollständigen genomischen Unterschied zwischen Menschen und Schimpansen zu berechnen. Der Wert würde wahrscheinlich näher bei 95 % als bei 85 % liegen, aber derzeit besteht noch eine große statistische Unsicherheit.
Veröffentlicht auf der Homepage: 29. April 2025
Referenzen und Anmerkungen #
- King, M.C. und Wilson, A.C., Evolution auf zwei Ebenen bei Menschen und Schimpansen, Science 188(4184):107–116, 1975. Zurück zum Text.
- Wieland, M., Convert to creation: Margaret Wieland interviews bird expert and former renowned evolutionist Dr Jon Ahlquist, Creation 40(3):36–39, 2018; creation.com/jon-ahlquist.