Äußerst spärliche Modelle des Verknüpfungsungleichgewichts in Studien zu ursprunglich unterschiedlichen Assoziationen
Nature Genetics (2023)Diesen Artikel zitieren
293 Zugriffe
30 Altmetrisch
Details zu den Metriken
Beim Kopplungsungleichgewicht (LD) handelt es sich um die Korrelation zwischen benachbarten genetischen Varianten. In genetischen Assoziationsstudien wird LD häufig mithilfe großer Korrelationsmatrizen modelliert, dieser Ansatz ist jedoch ineffizient, insbesondere in Studien mit unterschiedlichen Vorfahren. In der vorliegenden Studie stellen wir grafische LD-Modelle (LDGMs) vor, die eine äußerst spärliche und effiziente Darstellung von LD darstellen. LDGMs werden aus genomweiten Genealogien abgeleitet; statistische Beziehungen zwischen Allelen im LDGM entsprechen genealogischen Beziehungen zwischen Haplotypen. Wir haben LDGMs und abstammungsspezifische LDGM-Präzisionsmatrizen für 18 Millionen häufige Varianten (Minderallelhäufigkeit > 1 %) in fünf Abstammungsgruppen veröffentlicht, ihre Genauigkeit validiert und größenordnungsmäßige Laufzeitverbesserungen für häufig verwendete LD-Matrixberechnungen nachgewiesen. Wir haben eine extrem schnelle polygene Vorhersagemethode für mehrere Abstammungen, BLUPx-ldgm, implementiert, die eine bessere Leistung erbringt als eine ähnliche Methode, die auf der Referenz-LD-Korrelationsmatrix basiert. LDGMs werden ausgefeilte Methoden ermöglichen, die sich auf stammesspezifische genetische Assoziationsdaten über Millionen von Varianten und Individuen hinweg skalieren lassen.
Dies ist eine Vorschau der Abonnementinhalte, Zugriff über Ihre Institution
Greifen Sie auf Nature und 54 weitere Nature Portfolio-Zeitschriften zu
Holen Sie sich Nature+, unser preisgünstigstes Online-Zugangsabonnement
29,99 $ / 30 Tage
jederzeit kündigen
Abonnieren Sie diese Zeitschrift
Erhalten Sie 12 gedruckte Ausgaben und Online-Zugriff
189,00 $ pro Jahr
nur 15,75 $ pro Ausgabe
Leihen oder kaufen Sie diesen Artikel
Die Preise variieren je nach Artikeltyp
ab 1,95 $
bis 39,95 $
Die Preise können örtlicher Steuern unterliegen, die beim Bezahlvorgang berechnet werden
LDGMs, LDGM-Präzisionsmatrizen und Baumsequenzen sind bei Zenodo erhältlich (Ref. 84; https://doi.org/10.5281/zenodo.8157131). Genotypdaten mit hoher Abdeckung in Phasen von 1000 Genomen sind unter http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/1000G_2504_high_coverage/working/20201028_3202_phased verfügbar. LD-unabhängige Blöcke sind unter https://github.com/jmacdon/LDblocks_GRCh38 verfügbar. Zusammenfassende Statistiken und LD der britischen Biobank sind unter s3://broad-alkesgroup-ukbb-ld/UKBB_LD/ verfügbar. Ancestral States sind über Ensembl Release 100 verfügbar und können von ftp://ftp.ensembl.org/pub/release-100/fasta/ancestral_alleles (Ref. 83) heruntergeladen werden.
Wir haben ein Open-Source-Softwarepaket, ldgm v.0.1, veröffentlicht, das in Python und MATLAB implementiert ist. ldgm ermöglicht die Inferenz von LDGMs und LDGM-Präzisionsmatrizen sowie recheneffiziente Analysen von GWAS-Zusammenfassungsstatistiken mithilfe von LDGMs. Es ist unter https://github.com/awohns/ldgm verfügbar und bei Zenodo85 hinterlegt (https://doi.org/10.5281/zenodo.8161389). Alle Funktionen zur Analyse von GWAS-Zusammenfassungsstatistiken mit LDGMs, einschließlich BLUPx-ldgm, sind derzeit in MATLAB implementiert; eine Python-Implementierung ist geplant. BLUPx-ldgm ist auch in bcftools implementiert, verfügbar unter https://github.com/freeseek/score; tskit ist unter https://github.com/tskit-dev/tskit verfügbar. Skripte zur Reproduktion der Ergebnisse dieses Manuskripts sind unter https://github.com/awohns/ldgm_paper verfügbar.
Internationales HapMap-Konsortium. Eine Haplotypkarte des menschlichen Genoms. Natur 437, 1299–1320 (2005).
Artikel Google Scholar
Reich, DE et al. Bindungsungleichgewicht im menschlichen Genom. Natur 411, 199–204 (2001).
Artikel CAS PubMed Google Scholar
Abecasis, GR et al. Ausmaß und Verteilung des Bindungsungleichgewichts in drei Genomregionen. Bin. J. Hum. Genet. 68, 191–197 (2001).
Artikel CAS PubMed Google Scholar
Finucane, HK et al. Partitionierung der Erblichkeit durch funktionale Annotation unter Verwendung genomweiter zusammenfassender Assoziationsstatistiken. Nat. Genet. 47, 1228–1235 (2015).
Artikel CAS PubMed PubMed Central Google Scholar
Zhu, X. & Stephens, M. Groß angelegte genomweite Anreicherungsanalysen identifizieren neue merkmalsassoziierte Gene und Signalwege in 31 menschlichen Phänotypen. Nat. Komm. 9, 4361 (2018).
Artikel PubMed PubMed Central Google Scholar
Vilhjálmsson, BJ et al. Die Modellierung des Kopplungsungleichgewichts erhöht die Genauigkeit der polygenen Risikobewertungen. Bin. J. Hum. Genet. 97, 576–592 (2015).
Artikel PubMed PubMed Central Google Scholar
Weissbrod, O. et al. Nutzung von Feinkartierungs- und Multipopulations-Trainingsdaten zur Verbesserung der polygenen Risikoscores für Populationen. Nat. Genet. 54, 450–458 (2022).
Artikel CAS PubMed PubMed Central Google Scholar
Wang, G., Sarkar, A., Carbonetto, P. & Stephens, M. Ein einfacher neuer Ansatz zur Variablenauswahl in der Regression mit Anwendung auf die genetische Feinkartierung. JR-Stat. Soc. B-Stat. Methodol. 82, 1273–1300 (2020).
Artikel Google Scholar
Weissbrod, O. et al. Funktionell informierte Feinkartierung und polygene Lokalisierung der Erblichkeit komplexer Merkmale. Nat. Genet. 52, 1355–1363 (2020).
Artikel CAS PubMed PubMed Central Google Scholar
Martin, AR et al. Die klinische Anwendung aktueller polygener Risikoscores kann gesundheitliche Ungleichheiten verschärfen. Nat. Genet. 51, 584 (2019).
Artikel CAS PubMed PubMed Central Google Scholar
Peterson, RE et al. Genomweite Assoziationsstudien in Populationen unterschiedlicher Abstammung: Möglichkeiten, Methoden, Fallstricke und Empfehlungen. Zelle 179, 589–603 (2019).
Artikel CAS PubMed PubMed Central Google Scholar
Coram, MA, Fang, H., Candille, SI, Assimes, TL & Tang, H. Nutzung multiethnischer Erkenntnisse zur Risikobewertung quantitativer Merkmale in Minderheitenpopulationen. Bin. J. Hum. Genet. 101, 218–226 (2017).
Artikel CAS PubMed PubMed Central Google Scholar
Kichaev, G. & Pasaniuc, B. Nutzung funktionaler Annotationsdaten in transethnischen Feinkartierungsstudien. Bin. J. Hum. Genet. 97, 260–271 (2015).
Artikel CAS PubMed PubMed Central Google Scholar
Asgari, S. et al. Eine positiv ausgewählte FBN1-Missense-Variante reduziert die Körpergröße bei peruanischen Individuen. Natur 582, 234–239 (2020).
Artikel CAS PubMed PubMed Central Google Scholar
Conrad, DF et al. Eine weltweite Untersuchung der Haplotypvariation und des Kopplungsungleichgewichts im menschlichen Genom. Nat. Genet. 38, 1251–1260 (2006).
Artikel CAS PubMed Google Scholar
Li, N. & Stephens, M. Modellierung des Bindungsungleichgewichts und Identifizierung von Rekombinations-Hotspots mithilfe von Einzelnukleotid-Polymorphismusdaten. Genetics 165, 2213–2233 (2003).
Artikel CAS PubMed PubMed Central Google Scholar
Kelleher, J., Etheridge, AM & McVean, G. Effiziente Koaleszenzsimulation und genealogische Analyse für große Stichprobengrößen. PLoS Comput. Biol. 12, e1004842 (2016).
Artikel PubMed PubMed Central Google Scholar
Wilder, WA et al. Eine einheitliche Genealogie moderner und antiker Genome. Wissenschaft 375, eabi8264 (2022).
Artikel Google Scholar
Kelleher, J. et al. Rückschluss auf die Geschichte des gesamten Genoms in großen Populationsdatensätzen. Nat. Genet. 51, 1330–1338 (2019).
Artikel CAS PubMed PubMed Central Google Scholar
Speidel, L., Forest, M., Shi, S. & Myers, SR Eine Methode zur genomweiten Genealogieschätzung für Tausende von Proben. Nat. Genet. 51, 1321–1329 (2019).
Artikel CAS PubMed PubMed Central Google Scholar
1000-Genom-Projektkonsortium. et al. Eine globale Referenz für die genetische Variation des Menschen. Natur 526, 68–74 (2015).
Artikel Google Scholar
Scheib, CL et al. Ostanglisches frühneolithisches Denkmalbegräbnis, das mit zeitgenössischen Megalithen in Verbindung steht. Ann. Summen. Biol. 46, 145–149 (2019).
Artikel PubMed PubMed Central Google Scholar
Schaefer, NK, Shapiro, B. & Green, RE Ein Ahnen-Rekombinationsdiagramm der Genomen von Menschen, Neandertalern und Denisovanern. Wissenschaft. Adv. 7, eabc0776 (2022).
Artikel Google Scholar
Hubisz, MJ, Williams, AL & Siepel, A. Kartierung des Genflusses zwischen alten Homininen durch demographiebewusste Schlussfolgerung des Ahnen-Rekombinationsdiagramms. PLoS Genet. 16, e1008895 (2020).
Artikel CAS PubMed PubMed Central Google Scholar
Stern, AJ, Wilton, PR & Nielsen, R. Eine ungefähre Full-Likelihood-Methode zum Ableiten von Selektions- und Allelfrequenztrajektorien aus DNA-Sequenzdaten. PLoS Genet. 15, e1008384 (2019).
Artikel PubMed PubMed Central Google Scholar
Stern, AJ, Speidel, L., Zaitlen, NA & Nielsen, R. Entwirrung der Selektion genetisch korrelierter polygener Merkmale über Genealogien des gesamten Genoms. Bin. J. Hum. Genet. 108, 219–239 (2021).
Artikel CAS PubMed PubMed Central Google Scholar
Fan, C., Mancuso, N. & Chiang, CWK Eine genealogische Schätzung genetischer Beziehungen. Bin. J. Hum. Genet. 109, 812–824 (2022).
Artikel CAS PubMed PubMed Central Google Scholar
Zhang, BC, Biddanda, A., Gunnarsson, AF, Cooper, F. & Palamara, PF Die Biobank-Inferenz von Ahnen-Rekombinationsdiagrammen ermöglicht die genealogische Analyse komplexer Merkmale. Nat. Genet. 55, 768–776 (2023).
Artikel CAS PubMed PubMed Central Google Scholar
Ernst, J. & Kellis, M. ChromHMM: Automatisierung der Entdeckung und Charakterisierung des Chromatinzustands. Nat. Methoden 9, 215–216 (2012).
Artikel CAS PubMed PubMed Central Google Scholar
Border, R. et al. Assortative Paarung verzerrt markerbasierte Heritabilitätsschätzer. Nat. Komm. 13, 660 (2022).
Artikel CAS PubMed PubMed Central Google Scholar
Border, R. et al. Merkmalsübergreifende assortative Paarung ist weit verbreitet und erhöht die Schätzungen der genetischen Korrelation. Wissenschaft 378, 754–761 (2022).
Artikel CAS PubMed PubMed Central Google Scholar
Mazumder, R. & Hastie, T. Das grafische Lasso: neue Erkenntnisse und Alternativen. Electron J. Stat. 6, 2125–2149 (2012).
Artikel PubMed PubMed Central Google Scholar
Byrska-Bishop, M. et al. Hochdeckende Sequenzierung des gesamten Genoms der erweiterten Kohorte des 1000 Genomes Project, einschließlich 602 Trios. Zelle 185, 3426–3440 (2021).
Artikel Google Scholar
Kelleher, J. et al. Rückschluss auf die Geschichte des gesamten Genoms in großen Populationsdatensätzen. Nat. Genet. 51, 1330–1338 (2019).
Artikel CAS PubMed PubMed Central Google Scholar
Berisa, T. & Pickrell, JK Ungefähr unabhängige Bindungsungleichgewichtsblöcke in menschlichen Populationen. Bioinformatik 32, 283–285 (2016).
Artikel CAS PubMed Google Scholar
MacDonald, JW, Harrison, T., Bammler, TK, Mancuso, N. & Lindström, S. Eine aktualisierte Karte der GRCh38-Verknüpfungsungleichgewichtsblöcke basierend auf europäischen Abstammungsdaten. Vorabdruck bei bioRxiv https://doi.org/10.1101/2022.03.04.483057 (2022).
Atkinson, EG et al. Tractor nutzt die lokale Abstammung, um die Einbeziehung gemischter Personen in GWAS zu ermöglichen und die Leistung zu steigern. Nat. Genet. 53, 195–204 (2021).
Artikel CAS PubMed PubMed Central Google Scholar
Bycroft, C. et al. Die Ressource der britischen Biobank mit umfassenden Phänotypisierungs- und Genomdaten. Natur 562, 203–209 (2018).
Artikel CAS PubMed PubMed Central Google Scholar
Kelleher, J., Etheridge, AM & McVean, G. Effiziente Koaleszenzsimulation und genealogische Analyse für große Stichprobengrößen. PLoS Comput. Biol. 12, e1004842 (2016).
Artikel PubMed PubMed Central Google Scholar
Wen, X. & Stephens, M. Verwendung linearer Prädiktoren zur Imputation von Allelhäufigkeiten aus zusammenfassenden oder gepoolten Genotypdaten. Ann. Appl. Stat. 4, 1158–1182 (2010).
Artikel PubMed PubMed Central Google Scholar
Shi, H., Kichaev, G. & Pasaniuc, B. Vergleich der genetischen Architektur von 30 komplexen Merkmalen anhand zusammenfassender Assoziationsdaten. Bin. J. Hum. Genet. 99, 139–153 (2016).
Artikel CAS PubMed PubMed Central Google Scholar
Shi, H., Mancuso, N., Spendlove, S. & Pasaniuc, B. Lokale genetische Korrelation gibt Einblicke in die gemeinsame genetische Architektur komplexer Merkmale. Bin. J. Hum. Genet. 101, 737–751 (2017).
Artikel CAS PubMed PubMed Central Google Scholar
Ning, Z., Pawitan, Y. & Shen, X. Hochauflösende Wahrscheinlichkeitsinferenz genetischer Korrelationen zwischen komplexen menschlichen Merkmalen. Nat Genet 52, 859–864 (2020).
Artikel CAS PubMed Google Scholar
Werme, J., van der Sluis, S., Posthuma, D. & de Leeuw, CA Ein integriertes Framework für die lokale genetische Korrelationsanalyse. Nat. Genet. 54, 274–282 (2022).
Artikel CAS PubMed Google Scholar
Spence, JP, Sinnott-Armstrong, N., Assimes, TL & Pritchard, JK Ein flexibles Modellierungs- und Inferenz-Framework zur Schätzung unterschiedlicher Effektgrößen aus GWAS-Zusammenfassungsstatistiken. Vorabdruck bei bioRxiv https://doi.org/10.1101/2022.04.18.488696 (2022).
Pasaniuc, B. & Price, AL Analyse der Genetik komplexer Merkmale mithilfe zusammenfassender Assoziationsstatistiken. Nat. Rev. Genet. 18, 117–127 (2017).
Artikel CAS PubMed Google Scholar
Conneely, KN & Boehnke, M. So viele korrelierte Tests, so wenig Zeit! Schnelle Anpassung der P-Werte für mehrere korrelierte Tests. Bin. J. Hum. Genet. 81, 1158–1168 (2007).
Artikel CAS PubMed PubMed Central Google Scholar
Zhu, X. & Stephens, M. Bayesianische groß angelegte multiple Regression mit zusammenfassenden Statistiken aus genoweiten Assoziationsstudien. Ann. Appl. Stat. 11, 1561–1592 (2017).
Artikel PubMed PubMed Central Google Scholar
Henderson, CR Schätzung von Varianz- und Kovarianzkomponenten. Biometrie 9, 226–252 (1953).
Artikel Google Scholar
Henderson, CR Schnelle Methode zur Berechnung der Umkehrung einer Beziehungsmatrix. J. Dairy Sci. 58, 1727–1730 (1975).
Artikel Google Scholar
Henderson, CR Eine einfache Methode zur Berechnung der Umkehrung einer Zählerbeziehungsmatrix, die bei der Vorhersage von Zuchtwerten verwendet wird. Biometrie 32, 69–83 (1976).
Artikel Google Scholar
Ge, T., Chen, CY, Ni, Y., Feng, YCA & Smoller, JW Polygene Vorhersage mittels Bayes'scher Regression und kontinuierlichen Schrumpfungsprioren. Nat. Komm. 10, 1776 (2019).
Artikel PubMed PubMed Central Google Scholar
Cai, M. et al. Ein einheitlicher Rahmen für die Vorhersage von Populationsmerkmalen durch Nutzung der genetischen Korrelation polygener Merkmale. Bin. J. Hum. Genet. 108, 632–655 (2021).
Artikel CAS PubMed PubMed Central Google Scholar
Loh, P.-R. et al. Eine effiziente Bayes'sche Mixed-Model-Analyse erhöht die Assoziationskraft in großen Kohorten. Nat. Genet. 47, 284–290 (2015).
Artikel CAS PubMed PubMed Central Google Scholar
Lango Allen, H. et al. Hunderte von Varianten, die in genomischen Loci und biologischen Signalwegen geclustert sind, beeinflussen die menschliche Körpergröße. Natur 467, 832–838 (2010).
Artikel CAS PubMed PubMed Central Google Scholar
Locke, AE et al. Genetische Studien zum Body-Mass-Index liefern neue Erkenntnisse für die Biologie der Fettleibigkeit. Natur 518, 197–206 (2015).
Artikel CAS PubMed PubMed Central Google Scholar
Morris, AP et al. Eine groß angelegte Assoziationsanalyse liefert Einblicke in die genetische Architektur und Pathophysiologie von Typ-2-Diabetes. Nat. Genet. 44, 981–990 (2012).
Artikel CAS PubMed PubMed Central Google Scholar
Chen, W. et al. Verbesserte Analysen der GWAS-Zusammenfassungsstatistiken durch Reduzierung der Datenheterogenität und Fehler. Nat. Komm. 12, 7117 (2021).
Artikel CAS PubMed PubMed Central Google Scholar
Wray, NR et al. Fallstricke bei der Vorhersage komplexer Merkmale anhand von SNPs. Nat. Rev. Genet. 14, 507–515 (2013).
Artikel CAS PubMed PubMed Central Google Scholar
O'Connor, LJ Die Verteilung der Effektgrößen gemeinsamer Varianten. Nat. Genet. 53, 1243–1249 (2021).
Artikel PubMed Google Scholar
Benner, C. et al. Aussichten für eine Feinkartierung merkmalsassoziierter Genomregionen mithilfe zusammenfassender Statistiken aus genomweiten Assoziationsstudien. Bin. J. Hum. Genet. 101, 539–551 (2017).
Artikel CAS PubMed PubMed Central Google Scholar
Pasaniuc, B. et al. Die schnelle und genaue Imputation zusammenfassender Statistiken verbessert den Nachweis einer funktionellen Bereicherung. Bioinformatik 30, 2906–2914 (2014).
Artikel CAS PubMed PubMed Central Google Scholar
Lee, D., Bigdeli, TB, Riley, BP, Fanous, AH & Bacanu, S.-A. DIST: direkte Imputation von zusammenfassenden Statistiken für nicht gemessene SNPs. Bioinformatik 29, 2925–2927 (2013).
Artikel CAS PubMed PubMed Central Google Scholar
Kanai, M. et al. Die Feinzuordnung der Metaanalyse ist bei Einzelvariantenauflösung häufig falsch kalibriert. Zellgenom. 2, 100210 (2022).
Artikel CAS PubMed PubMed Central Google Scholar
Loh, P.-R., Kichaev, G., Gazal, S., Schoech, AP & Price, AL Gemischte Modellvereinigung für Datensätze im Biobankmaßstab. Nat. Genet. 50, 906–908 (2018).
Artikel CAS PubMed PubMed Central Google Scholar
Zhou, W. et al. Globale Biobank-Metaanalyse-Initiative: Förderung der genetischen Entdeckung bei menschlichen Krankheiten. Zellgenom. 2, 100192 (2022).
Artikel CAS PubMed PubMed Central Google Scholar
Scutari, M., Mackay, I. & Balding, D. Verwendung der genetischen Distanz, um auf die Genauigkeit der genomischen Vorhersage zu schließen. PLoS Genet 12, e1006288 (2016).
Artikel PubMed PubMed Central Google Scholar
Majara, L. et al. Geringe und unterschiedliche Generalisierbarkeit des polygenen Scores bei afrikanischen Populationen, hauptsächlich aufgrund der genetischen Vielfalt. HGG Adv. 4, 100184 (2021).
Google Scholar
Browning, BL & Browning, SR Genotyp-Imputation mit Millionen von Referenzproben. Bin. J. Hum. Genet. 98, 116–126 (2016).
Artikel CAS PubMed PubMed Central Google Scholar
Loh, P.-R. et al. Referenzbasierte Phaseneinteilung mithilfe des Haplotype Reference Consortium-Panels. Nat. Genet. 48, 1443–1448 (2016).
Artikel CAS PubMed PubMed Central Google Scholar
Ralph, P., Thornton, K. & Kelleher, J. Beziehungen in großen Stichproben effizient zusammenfassen: eine allgemeine Dualität zwischen Statistiken von Genealogie und Genomen. Genetics 215, 779–797 (2020).
Artikel PubMed PubMed Central Google Scholar
Zhang, BC, Biddanda, A., Gunnarsson, Á. F., Cooper, F. & Palamara, PF Die Biobank-Inferenz von Ahnenrekombinationsdiagrammen ermöglicht die genealogische Analyse komplexer Merkmale. Nat. Genet. 55, 768–776 (2023).
Artikel CAS PubMed PubMed Central Google Scholar
Minichiello, MJ & Durbin, R. Kartierung von Merkmalsstandorten mithilfe abgeleiteter Rekombinationsdiagramme der Vorfahren. Bin. J. Hum. Genet. 79, 910–922 (2006).
Artikel CAS PubMed PubMed Central Google Scholar
Link, V. et al. Baumbasierte QTL-Kartierung mit erwarteten lokalen genetischen Verwandtschaftsmatrizen. Vorabdruck bei bioRxiv https://doi.org/10.1101/2023.04.07.536093 (2023).
Artikel PubMed PubMed Central Google Scholar
Ruan, Y. et al. Verbesserung der polygenen Vorhersage in Populationen mit unterschiedlicher Abstammung. Nat. Genet. 54, 573–580 (2022).
Artikel CAS PubMed PubMed Central Google Scholar
Privé, F., Arbel, J. & Vilhjálmsson, BJ LDpred2: besser, schneller, stärker. Bioinformatik 36, 5424–5431 (2020).
Artikel PubMed Central Google Scholar
Gazal, S. et al. Die vom Verknüpfungsungleichgewicht abhängige Architektur komplexer menschlicher Merkmale zeigt die Wirkung negativer Selektion. Nat. Genet. 49, 1421–1427 (2017).
Artikel CAS PubMed PubMed Central Google Scholar
Orliac, EJ et al. Verbesserung der Genauigkeit der GWAS-Erkennung und Genomvorhersage in Biobankdaten. Proz. Natl Acad. Wissenschaft. USA 119, e2121279119 (2022).
Artikel CAS PubMed PubMed Central Google Scholar
Lewis, ACF et al. Die genetische Abstammung für Wissenschaft und Gesellschaft richtig machen. Wissenschaft 376, 250–252 (2022).
Artikel CAS PubMed PubMed Central Google Scholar
Speed, D., Hemani, G., Johnson, MR & Balding, DJ Verbesserte Heritabilitätsschätzung aus genomweiten SNPs. Bin. J. Hum. Genet. 91, 1011–1021 (2012).
Artikel CAS PubMed PubMed Central Google Scholar
Yang, J., Zaitlen, NA, Goddard, ME, Visscher, PM & Price, AL Vorteile und Fallstricke bei der Anwendung von Mixed-Model-Assoziationsmethoden. Nat. Genet. 46, 100–106 (2014).
Artikel PubMed PubMed Central Google Scholar
Yengo, L. et al. Abdruck der assortativen Paarung im menschlichen Genom. Nat. Summen. Verhalten. 2, 948–954 (2018).
Artikel PubMed PubMed Central Google Scholar
Hunt, SE et al. Ressourcen für Ensemble-Variationen. Datenbank 2018, bay119 (2018).
Artikel PubMed PubMed Central Google Scholar
Salehi Nowbandegani, P. et al. Daten für äußerst spärliche Modelle des Verknüpfungsungleichgewichts in Assoziationsstudien mit unterschiedlichen Vorfahren. Zenodo https://doi.org/10.5281/zenodo.8157131 (2023).
Wohns, AW, O'Connor, LJ & Salehi Nowbandegani, P. Software für grafische Modelle des Verknüpfungsungleichgewichts. Zenodo https://doi.org/10.5281/zenodo.8161389 (2023).
Referenzen herunterladen
Wir danken DJ Weiner, A. Nadig, AL Price, R. Walters, H. Finucane, X. Lin, H. Li, B. Lehmann, P. Ralph, G. Gorjanc, J. Kelleher und R. Mazumder für hilfreiche Diskussionen . Wir danken auch G. Genovese für seine Implementierung von BLUPx-ldgm in bcftools.
Diese Autoren haben gleichermaßen beigetragen: Pouria Salehi Nowbandegani, Anthony Wilder Wohns.
Programm für Medizin- und Populationsgenetik, Broad Institute of MIT und Harvard, Cambridge, MA, USA
Pouria Salehi Nowbandegani, Anthony Wilder Wohns, Jenna L. Ballard, Eric S. Lander, Benjamin M. Neale und Luke J. O'Connor
Abteilung für Biomedizinische Informatik, Harvard Medical School, Boston, MA, USA
Pouria Salehi Nowbandegani, Anthony Wilder Wohns und Luke J. O'Connor
Medizinische Fakultät der Stanford University, Stanford, Kalifornien, USA
Anthony Wilder Wohns
Graduiertengruppe für Genomik und Computerbiologie, University of Pennsylvania, Philadelphia, PA, USA
Jenna L. Ballard
Institut für Biologie, MIT, Cambridge, MA, USA
Eric S. Lander
Abteilung für Systembiologie, Harvard Medical School, Boston, MA, USA
Eric S. Lander
Abteilung für Analytische und Translationale Genetik, Medizinische Abteilung, Massachusetts General Hospital, Boston, MA, USA
Alex Bloemendal und Benjamin M. Neale
Stanley Center for Psychiatric Research, Broad Institute of MIT und Harvard, Cambridge, MA, USA
Alex Bloemendal und Benjamin M. Neale
Das Novo Nordisk Foundation Center for Genomic Mechanisms of Disease, Broad Institute of MIT und Harvard, Cambridge, MA, USA
Alex Bloemendal und Benjamin M. Neale
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
AWW, PSN und LJO haben die Methoden entwickelt. ESL, BMN und AB schlugen Analysen vor. AWW, PSN, JLB und LJO führten die Experimente durch. AWW, PSN, JLB, BMN und LJO haben den Artikel geschrieben. LJO überwachte die Forschung.
Korrespondenz mit Pouria Salehi Nowbandegani, Anthony Wilder Wohns oder Luke J. O'Connor.
BMN ist Mitglied des wissenschaftlichen Beirats von Deep Genomics und Neumora. Die übrigen Autoren erklären keine konkurrierenden Interessen.
Nature Genetics dankt den anonymen Gutachtern für ihren Beitrag zum Peer-Review dieser Arbeit. Peer-Reviewer-Berichte sind verfügbar.
Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.
Für alle Chromosomenblöcke 1 bis 22 haben wir den Mittelwert r2 zwischen jedem SNP-Paar („LDsum“) in aufeinanderfolgenden LD-Blöcken (n = 1.360 Paare) innerhalb jeder Abstammungsgruppe ausgewertet. Der erwartete Mittelwert r2 liegt bei etwa 1 × 10−3, also 1/2n. Der untere Whisker, das untere Scharnier, das mittlere, das obere Scharnier und der obere Whisker entsprechen (unteres Scharnier − 1,5× Interquartilbereich (IQR)) bzw. dem 25. Perzentil, dem Median, dem 75. Perzentil und (oberes Scharnier + 1,5× IQR).
ac, Boxplots, die den Fehler der LDGM-Präzisionsmatrix zeigen. df, Boxplots, die den Fehler der Identitätsmatrix zeigen. Es wurden drei verschiedene Fehlermetriken verwendet. Boxplots geben den Median, die Quartile und den Bereich für die 20 LD-Blöcke auf Chromosom 22 für jede 1000-Genome-Abstammungsgruppe an. a und d zeigen den mittleren quadratischen Fehler (siehe Methoden). b und e zeigen den mittleren quadratischen Fehler nach Beschränkung auf SNP-Paare mit einer Korrelation von r2 > 0,01. c und f zeigen den alternativen mittleren quadratischen Fehler, definiert als m−2 Tr((I−PR)(I−RP)). Dies misst die Differenz zwischen PR, dem Produkt der LD-Korrelationsmatrix und der LDGM-Präzisionsmatrix, und der Identitätsmatrix (siehe Ergänzende Anmerkung, Abschnitt 4). Im Vergleich zum MSE reagiert das alternative MSE weniger empfindlich auf große Eigenwerte von R, was wahrscheinlich erklärt, warum es für AMR nicht erhöht ist. Für die Identitätsmatrix sind die alternative MSE und die MSE identisch. In allen Diagrammen entsprechen der untere Whisker, das untere Scharnier, die Mitte, das obere Scharnier und der obere Whisker (unteres Scharnier − 1,5× Interquartilbereich (IQR)) und das 25. Perzentil, der Median, das 75. Perzentil und (oberes Scharnier + 1,5× IQR). ), jeweils.
Der Vergleich wurde in EUR nur auf Chromosom 22 (n = 20 LD-Blöcke) durchgeführt. Um das Ausmaß der Schrumpfung zu variieren, haben wir den Stichprobengrößenparameter im Wen-Stephens-Schätzer geändert (tatsächliche Stichprobengröße: 1.006). a, Mittlerer quadratischer Fehler zwischen dem Wen-Stephens-Schätzer und der inversen LDGM-Präzisionsmatrix. Die gepunktete Linie bezeichnet den mittleren MSE zwischen der LD-Probenkorrelationsmatrix und der LDGM-Präzisionsmatrix-Inversen. b: Mittlerer quadratischer Fehler zwischen dem Wen-Stephens-Schätzer und der Stichprobenkorrelationsmatrix. Die Werte sind größer als die entsprechenden Zahlen in a für Stichprobenparameter bis zu 40 und kleiner für Stichprobenparameter von 201 oder höher. c, Anzahl der Einträge ungleich Null pro SNP im Wen-Stephens-Schätzer. Korrelationen mit einem Absolutwert von weniger als 1 × 10−8 werden auf Null gesetzt (im Einklang mit der Originalarbeit), was bei kleinen Werten des Stichprobengrößenparameters zu einer leicht erhöhten Sparsity führt. Bei größeren Parameterwerten liegen innerhalb von LD-Blöcken keine SNP-Paare unter dem Schwellenwert, aber dieser Ansatz kann dennoch verwendet werden, um eine dünnbesetzte, gebänderte Diagonalmatrix zu erzeugen, wenn die Verwendung diskreter Blöcke nicht erwünscht ist. Etwas mehr Sparsität kann durch Lockerung des 1 × 10−8-Schwellenwerts erreicht werden, jedoch nicht ohne einen erhöhten Fehler zu verursachen. In allen Diagrammen entsprechen der untere Whisker, das untere Scharnier, die Mitte, das obere Scharnier und der obere Whisker (unteres Scharnier − 1,5× Interquartilbereich (IQR)) und das 25. Perzentil, der Median, das 75. Perzentil und (oberes Scharnier + 1,5× IQR). ), jeweils.
Der Vergleich wurde in EUR nur auf Chromosom 22 (20 LD-Blöcke) durchgeführt und wir berücksichtigten unterschiedliche k-Werte. a: Um die Genauigkeit der Rang-k-Näherung an die LD-Korrelationsmatrix zu quantifizieren, haben wir deren MSE bei verschiedenen k-Werten berechnet. k = 10 entspricht am ehesten der Dichte der LDGM-Präzisionsmatrix, einer symmetrischen Matrix mit 20 Einträgen ungleich Null pro SNP (10 pro SNP im oberen Dreieck). Der MSE bei k = 10 war etwa dreimal höher als der der LDGM-Präzisionsmatrix; am ähnlichsten war es bei k = 50. MSE ist immer Null, wenn k größer oder gleich der Stichprobengröße ist (d. h. wenn k = 1.006). b, Um die Genauigkeit der Rang-k-Approximation an die LD-Präzisionsmatrix zu quantifizieren, haben wir das alternative MSE-Verhältnis berechnet, das quantifiziert, ob die ungefähre Präzisionsmatrix multipliziert mit der Korrelationsmatrix nahe an der Identität liegt (siehe Erweiterte Daten Abb. 2 und). Ergänzende Anmerkung). Nach dieser Metrik schneidet das LDGM selbst bei k = 500 viel besser ab als eine Rang-k-Näherung. c, Wir haben den MSE zwischen der Rang-k-Näherung und der Umkehrung der LDGM-Präzisionsmatrix berechnet. Dieser war nie wesentlich kleiner als der MSE der LDGM-Präzisionsmatrix invers zur Probenkorrelationsmatrix. In allen Diagrammen entsprechen der untere Whisker, das untere Scharnier, die Mitte, das obere Scharnier und der obere Whisker (unteres Scharnier − 1,5× Interquartilbereich (IQR)) und das 25. Perzentil, der Median, das 75. Perzentil und (oberes Scharnier + 1,5× IQR). ), jeweils.
Für jeden LD-Block auf Chromosom 22 (n = 20 LD-Blöcke) teilen wir die 1000 EUR-Haploid-Genomproben zufällig in zwei gleich große Teilmengen auf. Wir haben eine LDGM-Präzisionsmatrix aus einer der beiden Teilmengen berechnet (die LDGM wurde aus allen Proben in 1000 Genomen erstellt). Wir haben den MSE für drei Vergleiche berechnet: die Präzisionsmatrix gegenüber der Korrelationsmatrix aus derselben Stichprobe; die Präzisionsmatrix gegenüber der Korrelationsmatrix der gegenüberliegenden Stichprobe; und die Korrelationsmatrix einer Stichprobe im Vergleich zur Korrelationsmatrix der gegenüberliegenden Stichprobe. Der untere Whisker, das untere Scharnier, das mittlere, das obere Scharnier und der obere Whisker entsprechen (unteres Scharnier − 1,5× Interquartilbereich (IQR)) bzw. dem 25. Perzentil, dem Median, dem 75. Perzentil und (oberes Scharnier + 1,5× IQR).
a,b: In 1000 Genomes EUR-Daten von Chromosom 22 vergleichen wir unser abgeleitetes LDGM (abgeleitet aus Baumsequenzen) mit einem LDGM mit gebänderter Diagonale, einem LDGM mit R2-Schwelle und einem LDGM mit gebänderter Diagonale und einer großen Bande für 20 LD-Blöcke . a, MSE im Vergleich zu Kontroll-LDGMs. b, Dichte versus Kontroll-LDGMS. Für das erste gebänderte LDGM wurde die Bandgröße so gewählt, dass sie der Anzahl der Kanten mit einem Pfadgewicht von weniger als 4 in unserem auf Baumsequenzen basierenden LDGM für jeden LD-Block entspricht (ungefähr 50 Kanten pro SNP). Für den r2-Schwellenwert LDGM wurde der Schwellenwert so gewählt, dass er die gleiche Anzahl von Kanten erzeugt. Für das große banddiagonale LDGM haben wir eine Bandgröße verwendet, die der Anzahl der Kanten mit einem Pfadgewicht von weniger als 8 (ungefähr 300 Kanten pro SNP) entsprach. Für jedes LDGM haben wir Präzisionsmatrizen mit einem L1-Strafwert von 0,1 berechnet und den mittleren quadratischen Fehler (a) und die Anzahl der Kanten pro SNP in der Präzisionsmatrix (b) berechnet. In allen Diagrammen entsprechen der untere Whisker, das untere Scharnier, die Mitte, das obere Scharnier und der obere Whisker (unteres Scharnier − 1,5× Interquartilbereich (IQR)) und das 25. Perzentil, der Median, das 75. Perzentil und (oberes Scharnier + 1,5× IQR). ), jeweils.
Für die 20 EUR LDGM-Präzisionsmatrizen auf Chromosom 22 haben wir SNPs anhand ihrer Nebenallelfrequenz in EUR in drei Bins unterteilt. Jeder Behälter enthielt eine ähnliche Anzahl von SNPs. a, MSE über Paare von SNPs (i, j), wobei SNP i die angegebene Allelfrequenz hat (und SNP j möglicherweise oder nicht). b, Durchschnittliche Anzahl von Nachbarn pro SNP in jedem MAF-Bin (einschließlich Kanten mit SNPs, die sich nicht im Bin befinden). In allen Diagrammen entsprechen der untere Whisker, das untere Scharnier, die Mitte, das obere Scharnier und der obere Whisker (unteres Scharnier − 1,5× Interquartilbereich (IQR)) und das 25. Perzentil, der Median, das 75. Perzentil und (oberes Scharnier + 1,5× IQR) , jeweils.
Anzeige: Auf den 20 LD-Blöcken der EUR-Daten des Chromosoms 22 haben wir den Pfadentfernungsschwellenwert (a, b) und die L1-Strafe (c, d) variiert. Unsere Standardparametereinstellungen sind ein Distanzschwellenwert von 4 und ein L1-Strafwert von 0,1. Die Laufzeit der Präzisionsmatrixinferenz variiert auch mit den Parametereinstellungen, wobei die Laufzeit für Einstellungen, die eine höhere Dichte erzeugen, länger ist. In allen Diagrammen entsprechen der untere Whisker, das untere Scharnier, die Mitte, das obere Scharnier und der obere Whisker (unteres Scharnier − 1,5× Interquartilbereich (IQR)) und das 25. Perzentil, der Median, das 75. Perzentil und (oberes Scharnier + 1,5× IQR). ), jeweils.
Die Mutationsrate an CpG-Stellen ist um mehr als eine Größenordnung höher als an Nicht-CpG-Stellen und weist daher eine höhere Rate wiederkehrender Mutationen auf (Wohns, 2022). Um zu bewerten, wie sich die Nichtberücksichtigung wiederkehrender Mutationen auf die Gesamtgenauigkeit auswirkt (siehe Methoden), haben wir die MSE von CpG-Stellen im Vergleich zu Nicht-CpG-Stellen auf den 40 LD-Blöcken der Chromosomen 21 und 22 zwischen der LDGM-Präzisionsmatrix und den Probenkorrelationsmatrizen untersucht. Der untere Whisker, das untere Scharnier, das mittlere, das obere Scharnier und der obere Whisker entsprechen (unteres Scharnier − 1,5× Interquartilbereich (IQR)) bzw. dem 25. Perzentil, dem Median, dem 75. Perzentil und (oberes Scharnier + 1,5× IQR). Numerische Ergebnisse finden Sie in der Ergänzungstabelle 13.
Die ersten fünf Boxplots geben die Laufzeit für die Präzisionsmatrixinferenz für jede Abstammungsgruppe an; Der sechste gibt die Laufzeit zum Ableiten des LDGM aus der ursprünglichen Baumsequenz an. Für den LDGM-Inferenzschritt haben wir 5 Rechenthreads verwendet (1 für den Präzisionsmatrix-Inferenzschritt). Die Laufzeit variiert je nach LD-Block und Abstammungsgruppe aufgrund der unterschiedlichen Anzahl von SNPs. Der untere Whisker, das untere Scharnier, das mittlere, das obere Scharnier und der obere Whisker entsprechen (unteres Scharnier − 1,5× Interquartilbereich (IQR)) bzw. dem 25. Perzentil, dem Median, dem 75. Perzentil und (oberes Scharnier + 1,5× IQR). Numerische Ergebnisse finden Sie in der Ergänzungstabelle 4.
Ergänzende Anmerkung, Abb. 1–8 und Tabellenüberschriften.
Ergänzungstabellen 1–15.
Springer Nature oder sein Lizenzgeber (z. B. eine Gesellschaft oder ein anderer Partner) besitzen die ausschließlichen Rechte an diesem Artikel im Rahmen einer Veröffentlichungsvereinbarung mit dem Autor bzw. den Autoren oder anderen Rechteinhabern. Die Selbstarchivierung der akzeptierten Manuskriptversion dieses Artikels durch den Autor unterliegt ausschließlich den Bedingungen dieser Veröffentlichungsvereinbarung und geltendem Recht.
Nachdrucke und Genehmigungen
Salehi Nowbandegani, P., Wohns, AW, Ballard, JL et al. Äußerst spärliche Modelle des Verknüpfungsungleichgewichts in Studien zu ursprunglich unterschiedlichen Assoziationen. Nat Genet (2023). https://doi.org/10.1038/s41588-023-01487-8
Zitat herunterladen
Eingegangen: 29. August 2022
Angenommen: 24. Juli 2023
Veröffentlicht: 28. August 2023
DOI: https://doi.org/10.1038/s41588-023-01487-8
Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:
Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.
Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt