ANWENDUNGSBEREICH: Vorhersage zukünftiger Diagnosen bei Arztbesuchen mithilfe elektronischer Gesundheitsakten
Scientific Reports Band 13, Artikelnummer: 11005 (2023) Diesen Artikel zitieren
338 Zugriffe
3 Altmetrisch
Details zu den Metriken
Wir schlagen ein interpretierbares und skalierbares Modell vor, um wahrscheinliche Diagnosen bei einer Begegnung auf der Grundlage früherer Diagnosen und Laborergebnisse vorherzusagen. Dieses Modell soll Ärzten den Umgang mit der elektronischen Gesundheitsakte (EHR) erleichtern. Um dies zu erreichen, haben wir retrospektiv EHR-Daten von 2.701.522 Patienten bei Stanford Healthcare über einen Zeitraum von Januar 2008 bis Dezember 2016 gesammelt und deidentifiziert. Eine bevölkerungsbasierte Stichprobe von Patienten umfasste 524.198 Personen (44 % M, 56 % F) mit Es wurden mehrere Begegnungen mit mindestens einem häufig vorkommenden Diagnosecode ausgewählt. Es wurde ein kalibriertes Modell entwickelt, um ICD-10-Diagnosecodes bei einer Begegnung auf der Grundlage früherer Diagnosen und Laborergebnisse vorherzusagen, wobei eine auf binärer Relevanz basierende Multi-Label-Modellierungsstrategie zum Einsatz kam. Als Basisklassifikator wurden logistische Regression und Zufallswälder getestet, und es wurden mehrere Zeitfenster zur Aggregation vergangener Diagnosen und Labore getestet. Dieser Modellierungsansatz wurde mit einer auf einem wiederkehrenden neuronalen Netzwerk basierenden Deep-Learning-Methode verglichen. Das beste Modell verwendete Random Forest als Basisklassifikator und integrierte demografische Merkmale, Diagnosecodes und Laborergebnisse. Das beste Modell wurde kalibriert und seine Leistung war in Bezug auf verschiedene Metriken vergleichbar oder besser als bestehende Methoden, einschließlich eines mittleren AUROC von 0,904 (IQR [0,838, 0,954]) über 583 Krankheiten. Bei der Vorhersage des ersten Auftretens einer Krankheitsbezeichnung für einen Patienten betrug der mittlere AUROC mit dem besten Modell 0,796 (IQR [0,737, 0,868]). Unser Modellierungsansatz schnitt vergleichbar mit der getesteten Deep-Learning-Methode ab und übertraf ihn in Bezug auf AUROC (p < 0,001), schnitt jedoch in Bezug auf AUPRC (p < 0,001) schlechter ab. Die Interpretation des Modells zeigte, dass das Modell sinnvolle Funktionen nutzt und viele interessante Zusammenhänge zwischen Diagnosen und Laborergebnissen hervorhebt. Wir kommen zu dem Schluss, dass das Multi-Label-Modell eine vergleichbare Leistung wie das RNN-basierte Deep-Learning-Modell bietet und gleichzeitig Einfachheit und möglicherweise bessere Interpretierbarkeit bietet. Während das Modell anhand von Daten einer einzelnen Institution trainiert und validiert wurde, ist es aufgrund seiner Einfachheit, Interpretierbarkeit und Leistung ein vielversprechender Kandidat für den Einsatz.
Die weit verbreitete Einführung elektronischer Gesundheitsakten (EHR) bietet ein großes Potenzial für das Lernen und Anwenden von Datenströmen aus der realen Welt und belastet gleichzeitig die Ärzte mit bürokratischer Dokumentationsarbeit, die sie von der direkten Patientenversorgung abhält. Hausärzte verbringen möglicherweise bis zur Hälfte ihres Arbeitstages mit der Interaktion mit der EHR1, wodurch die für die Patientenversorgung aufgewendete Zeit reduziert wird2. Darüber hinaus kann der Dokumentationsaufwand die Zufriedenheit der Ärzte verringern und sogar zu einem Burnout führen3. Darüber hinaus sind EHR-Daten häufig verzerrt4 und weisen den Nachteil fehlender und unvollständiger Daten5,6 auf. Hier möchten wir Methoden des maschinellen Lernens entwickeln, um diese zentralen Herausforderungen anzugehen und das Potenzial von EHRs im Rahmen ambulanter Arztbesuche auszuschöpfen.
Der Schwerpunkt unserer Arbeit liegt auf der Vorhersage wahrscheinlicher Diagnosen für Patienten aus der Krankengeschichte. In den letzten Jahren gab es eine Reihe von Arbeiten zur Vorhersage von Diagnosen und Patientenergebnissen aus der Krankengeschichte der Vergangenheit, die aus EHRs gewonnen wurden7,8,9. Der Schwerpunkt unserer Arbeit liegt ausschließlich auf ambulanten Besuchen. Methodisch haben sich die jüngsten Arbeiten stark auf Deep-Learning-Ansätze konzentriert10; Hier schlagen wir jedoch klassische Modelle des maschinellen Lernens wie die logistische Regression und Random Forests vor, die eine viel bessere Interpretierbarkeit sowie Modularität und Skalierbarkeit bieten. Anstatt uns schließlich auf nur eine oder wenige Krankheiten zu konzentrieren11, evaluieren wir diese Modelle für ein breites Spektrum von Krankheiten mit einem angemessenen Granularitätsgrad und vorbehaltlich Datenbeschränkungen. Dies liegt daran, dass Patienten in der Ambulanz häufig an mehreren chronischen und akuten Erkrankungen leiden und einzelne Krankheitsmodelle zwar sehr nützlich sind, es jedoch schnell mühsam wird, mehrere unterschiedliche Modelle zu pflegen und aussagekräftige Vorhersagen zu erhalten. Wir präsentieren einen einheitlichen Ansatz zur Modellierung des breiten Praxisspektrums in der Ambulanz.
Ein wichtiger Gesichtspunkt bei der maschinellen Lernanalyse von EHRs ist die Interpretierbarkeit. Mit Interpretierbarkeit12 meinen wir nicht nur die Post-hoc-Erklärbarkeit von Vorhersagen, sondern auch algorithmische Transparenz und Modellzerlegbarkeit, wodurch jeder Schritt des Inferenzprozesses, einschließlich der Eingaben, Parameter und Berechnungen, von Menschen interpretiert werden kann. Dies steht im Gegensatz zu Deep-Learning-Modellen, die nachträglich erklärbar sein können, z. B. mithilfe additiver Shapley-Erklärungen13, aber hinsichtlich der Parameter und Rechenschritte während der Inferenz immer noch „Black Boxes“ sind und möglicherweise nicht für den klinischen Einsatz geeignet sind14. Interpretierbare Modelle B. lineare Modelle und Entscheidungsbäume, verhalten sich vorhersehbar, sind in der Regel robuster und ermöglichen eine gründliche Untersuchung, wenn Vorurteile oder Diskrepanzen beobachtet werden, wodurch Vertrauen unter Ärzten geschaffen wird.
Wir schlagen vor, maschinelles Lernen zu nutzen, um die Belastung für Ärzte zu verringern, indem wir ein Modell für maschinelles Lernen entwickeln, das die wahrscheinliche Ursache eines Praxisbesuchs anhand fehlender oder unvollständiger EHR-Daten aus ambulanten Praxisbesuchen vorhersagen kann. Bei diesem Ansatz beschränken wir uns nicht auf ein einzelnes Krankheitsgebiet, sondern streben vielmehr die Entwicklung eines breit anwendbaren Instruments an. Zu diesem Zweck haben wir SCOPE (SCalable One-vs-all PrEdictor) entwickelt, eine Inferenzmaschine, die auf einem interpretierbaren Modell des maschinellen Lernens basiert und wahrscheinliche Diagnosen für einen Praxisbesuch auf der Grundlage der Krankengeschichte des Patienten in der Vergangenheit vorhersagt. Vor dem Besuch, der als Vorbesuch definiert wird, sagt SCOPE die wahrscheinlichen Diagnosen für einen Patienten auf der Grundlage der Daten seiner vorherigen Besuche voraus und erläutert seine Vorhersagen durch Hervorhebung der für seine Vorhersagen verantwortlichen Merkmale. Dies kann den Ärzten helfen, den Eingriff effizienter zu planen und ihnen möglicherweise Zeit und Mühe zu sparen. In der Dokumentationsphase nach dem Besuch kann das Modell wie ein Empfehlungssystem fungieren und Ärzten dabei helfen, die Diagnosen für den Besuch auszufüllen. Dadurch kann die Wahrscheinlichkeit fehlender oder unvollständiger Diagnosedatensätze verringert werden. Unter Verwendung eines auf binärer Relevanz basierenden Multi-Label-Modellierungsansatzes haben wir ein Modell entwickelt, das erweiterbar und interpretierbar ist und eine hochmoderne Vorhersageleistung auf einem großen EHR-Datensatz zeigt, der von Krankenhäusern und Kliniken in Stanford erhalten wurde. Wir zeigen, dass diese Modelle mindestens genauso gut abschneiden wie die beliebten Deep-Learning-Methoden15,16,17,18.
Diese Studie wurde vom Stanford IRB gemäß dem Protokoll IRB-50033 „Machine Learning of Electronic Medical Records for Precision Medicine“ genehmigt. Das IRB verzichtete auf die Zustimmung zu dieser Studie. Für diese Studie wurden die EHR-Daten von 2.701.522 Patienten bei Stanford Healthcare mit 55.068.909 Begegnungen über einen Zeitraum von Januar 2008 bis Dezember 2016 nachträglich gesammelt und gemäß den genehmigten IRB-Richtlinien deidentifiziert. Wir haben alle Begegnungen ausgewählt, bei denen es sich um abgeschlossene Praxisbesuche mit einem „häufigen“ (bei mindestens 500 Patienten vorhandenen) ICD-10-Diagnosecode handelte (siehe Abb. 1). Die gesamte Patientengruppe wurde in eine Schulung (60 %), a Validierung (20 %) und ein Testsatz (20 %). Alle Modelle werden auf dem Trainingssatz trainiert; die Leistung des Validierungssatzes wird für die Modellauswahl oder die Auswahl von Modellierungsparametern wie dem Aggregationsfenster verwendet. Der Testsatz wird nur verwendet zur abschließenden Leistungsbeurteilung.
Kohortenauswahl für diese Studie.
Die Ausgabeetiketten bei jeder Begegnung waren die entsprechenden ICD-10-Diagnosecodes. Die ICD-10-Codes beginnen mit einem Buchstaben (Buchstabenpräfix), der den Krankheitstyp oder das betroffene System grob kategorisiert (Ergänzungstabelle 1); Beispielsweise entsprechen Codes, die mit I beginnen, Erkrankungen des Kreislaufsystems. Wir haben Codes ausgeschlossen, die mit R, U, V, W, Um die große Kardinalität aller möglichen ICD-10-Diagnosecodes zu vermeiden, haben wir Codes nach ihren dreistelligen Präfixen gruppiert. Beispielsweise wird allen Codes, die mit I25 beginnen, die gleiche Bezeichnung I25 zugewiesen. Jede Bezeichnung wird anhand des Chronic Condition Indicator für ICD-10-CM19 außerdem als akut oder chronisch gekennzeichnet.
Um die wahrscheinlichen Diagnosen bei einer Begegnung vorherzusagen, haben wir die Patientendaten (Alter und Geschlecht), frühere Diagnosecodes und Laborergebnisse berücksichtigt. Wir haben vier Zeitfenster für Diagnosecodes berücksichtigt: 90, 180, 365 und 3650 Tage, und vier Zeitfenster für Laborergebnisse: 30, 90, 180 und 365 Tage. Wir haben Modelle basierend auf Diagnosecodes und Laborergebnissen individuell für jedes der jeweiligen Aggregationsfenster erstellt. Die besten Zeitfenster wurden sowohl für Diagnosecodes als auch für Laborergebnisse ausgewählt und im nächsten Schritt für die multimodale Funktionsintegration verwendet.
Wir haben eine auf binärer Relevanz basierende Multi-Label-Klassifizierungsstrategie übernommen, die entweder logistische Regression (LR) oder Random Forest (RF) als Basisklassifikator verwendet. In diesem Rahmen trainieren wir \(L\) verschiedene logistische Regressions- oder Zufallswaldmodelle \({M}_{l}\), eines für jedes Label \(l, l=1,\dots , L\), basierend auf einem vorverarbeiteten Datensatz \({X}_{l}\), der aus demselben Feature-Set \(X\) erhalten wurde. Während der Inferenz werden die Eingabemerkmale für jede Beschriftung entsprechend vorverarbeitet und das entsprechende Modell sagt anhand der Eingabe das Vorhandensein oder Fehlen der Beschriftung voraus. In unserem Fall umfasst die Vorverarbeitung für das Training für die LR-Modelle einen Schritt der Mehrheitsunterabtastung (1:1 positives zu negatives Verhältnis), gefolgt von einem maximalen absoluten Skalierer, gefolgt von einem logistischen Regressionsklassifikator mit einem \({l} _{1}\) oder \({l}_{2}\) Strafe. Die Verarbeitungspipeline für die RF-Modelle besteht aus dem Hauptschritt der Unterabtastung, gefolgt von einem Zufallswaldklassifikator.
Nachdem wir die besten Zeitfenster sowohl für Diagnosecodes als auch für Labormerkmale ausgewählt hatten, verwendeten wir eine frühe Integrationsstrategie, bei der die jeweiligen Merkmalsvektoren zu einem längeren Vektor verkettet werden, um Merkmale aus mehreren Modalitäten (z. B. Demografie, Diagnosecodes und Laborergebnisse) zu kombinieren ). Das beste Modell wird aus den verschiedenen Kombinationen von Schätzern (LR oder RF) und Eingabemodalitäten ausgewählt. Um die Wirksamkeit verschiedener Modelle zu bewerten und zu vergleichen, verwenden wir hauptsächlich die Fläche unter der Receiver Operating Characteristics Curve (AUROC), da sie unempfindlich gegenüber unterschiedlichen Klassenungleichgewichten zwischen verschiedenen Labels ist. Für das endgültige Modell verwenden wir auch andere Metriken, einschließlich der Fläche unter der Precision Recall Curve (AUPRC), Recall\(@\)k (Einzelheiten siehe Zusatzinformationen) und Coverage Error, und bewerten seine Leistung für De-novo-Vorhersagen, d. h , die Leistung bei der Vorhersage des ersten Auftretens einer bestimmten Bezeichnung. Hierzu berücksichtigen wir nur Begegnungen bis zum ersten Auftreten einer bestimmten Bezeichnung für jeden Patienten. Nachfolgende Vorkommen der Bezeichnung (die möglicherweise einfacher vorherzusagen sind) werden daher bei der Bewertung der Leistung des Modells in diesem Fall nicht berücksichtigt. Abschließend wurde das Modell mithilfe der isotonischen Regression20 am Trainingssatz kalibriert und mithilfe des SHAP-Frameworks (SHapley Additive exPlanations)13 interpretiert.
Wir haben die in Choi et al.15 vorgeschlagene Deep-Learning-Architektur implementiert. Es wurde für das gleiche Problem der Vorhersage zukünftiger Diagnosen für ein breites Spektrum von Krankheiten im ambulanten Bereich entwickelt, und daher können wir die Leistung unseres Modellierungsansatzes direkt damit vergleichen. Um einen fairen Vergleich zu gewährleisten, haben wir das Deep-Learning-Modell (DL) trainiert, um zukünftige Diagnosen nur anhand vergangener Diagnosecodes vorherzusagen, und es mit Multi-Label-Klassifikatoren verglichen, die LR und RF als Basisklassifikatoren verwenden, die nur auf Diagnosecodes trainiert wurden. Wir haben die leistungsstärkste Modellarchitektur von Choi et al.15 als Referenz übernommen: ein RNN mit zwei verborgenen Schichten, und mit verschiedenen Einbettungsdimensionen (d. h. 100, 500, 1000, 1500 und 2000) experimentiert, wobei die Anzahl vergangener Begegnungen berücksichtigt wurde die Eingabe (10 oder 20) und Initialisierung der Einbettungsschicht mit zufälligen vs. Skip-gram21-Einbettungen. Wir haben die Leistung des leistungsstärksten DL-Modells mit den vorgeschlagenen LR- und RF-basierten Pipelines verglichen.
Die meisten in diesem Dokument durchgeführten Modellierungsaufgaben, einschließlich der Bereinigung der Daten, der Entwicklung der LR- und RF-Modelle sowie der Modellkalibrierung und -interpretation, wurden in Python 3.6 unter Verwendung verschiedener Pakete durchgeführt, darunter numpy22, pandas23, scikit-learn24, matplotlib25, imbalanced- learn26, pint und WorldCloud. Die statistische Analyse und Darstellung wurde in R durchgeführt. Der Wilcoxon-Signed-Rang-Test27 wird zum Vergleich zwischen Modellen verwendet, sofern nicht anders angegeben. Insbesondere wurde für mehrere Plots das Paket ggpubr verwendet.
Von den 2.701.522 Patienten in den ursprünglichen Daten hatten 919.069 Patienten einen abgeschlossenen Praxisbesuch. Durch das Entfernen von Begegnungen und Patienten ohne ICD-10-Diagnosecodes reduzierte sich die Anzahl der Patienten auf 752.734. Zu diesem Zeitpunkt gab es 24.617 eindeutige ICD-10-Codes. Durch den Wegfall seltener Codes (die bei weniger als 500 Patienten auftreten) und von Patienten mit nur einem Vorfall verringerte sich die Anzahl der Patienten auf 524.198 und die Anzahl der ICD-10-Codes auf 2045 (zusammenfassende Statistiken der ausgewählten Kohorte finden Sie in Tabelle 1).
Die ursprünglichen Labordaten für die ausgewählten 524.198 Patienten enthielten 13.891 eindeutige Labornamen. Nachdem wir die Labornamen harmonisiert und die seltenen Labore (die bei weniger als 500 Patienten auftraten) entfernt hatten, hatten wir am Ende 1504 Labore, bestehend aus 356 nichtnumerischen und 1148 numerischen Laboren. Die Werte für jedes dieser 1504 Labore wurden harmonisiert, um konsistente Einheiten für numerische Labore und binäre Werte für die nichtnumerischen Labore zu haben; Insgesamt wurden während dieses Harmonisierungsprozesses weniger als 5 % der Laborergebnisinstanzen gelöscht. Was die Ausgabeetiketten betrifft, so umfasst die endgültige Kohorte von 1460 relevanten dreistelligen ICD-10-Codes (nach dem Weglassen der R- und U- bis Z-Codes) 583 Etiketten.
Für Diagnosecodes haben wir vier Zeitfenster für die Aggregation getestet: 90, 180, 365 und 3650 Tage. Für die Laborergebnisse betrugen die vier Zeitfenster 30, 90, 180 und 365 Tage (ergänzende Abbildung 1). In beiden Fällen verbesserte die Vergrößerung der Länge der Aggregationsfenster die Gesamtleistung von AUROC (p \(<0,001\)) im Validierungssatz erheblich. Daher haben wir die längsten Aggregationsfenster gewählt: 3650 Tage für Diagnosecodes und 365 Tage für die Laborergebnisse zur weiteren Modellentwicklung.
Modelle wurden unter Verwendung alleiniger Diagnosecodes (Diag), alleiniger Laborergebnisse (Labs), einer Kombination aus Laborergebnissen und Diagnosecodes (LabsDiag) und der Kombination aus Laborergebnissen, Diagnosecodes und demografischen Merkmalen (LabsDiagDemo) entwickelt (ergänzende Abbildung 2). . Die LabsDiagDemo-Modelle schneiden im Hinblick auf den durchschnittlichen AUROC am besten ab. Sowohl für LR als auch für RF führt die ausschließliche Verwendung von Diagnosecodes zu einer deutlich besseren Leistung als die ausschließliche Verwendung von Laborergebnissen (mittlerer AUROC 0,896 vs. 0,758, p \(<0,001\)). Für LR verbessert die Kombination der Diagnosecodes und Laborergebnisse die AUROC-Leistung geringfügig weiter von 0,893 auf 0,894 (ergänzende Abbildung 2). Für RF ist die Leistung von LabsDiag jedoch statistisch vergleichbar (bei p \(=0,05\)) mit der von Diag. Durch das Hinzufügen der demografischen Merkmale wird die Leistung des Validierungssatzes für LR- und RF-Modelle leicht, aber deutlich verbessert (0,899 gegenüber 0,894 und 0,906 gegenüber 0,904, ergänzende Abbildung 2). Daher nutzen wir die Kombination aus Diagnosecodes, Laborergebnissen und demografischen Merkmalen (LabsDiagDemo) für die weitere Modellentwicklung und -analyse.
Die auf Diag, Labs, LabsDiag und LabsDiagDemo entwickelten LR- und RF-Modelle wurden hinsichtlich der AUROC-Leistung verglichen (Abb. 2). Auf LabsDiagDemo übertrifft RF LR deutlich, sowohl insgesamt (Median AUROC 0,906 vs. 0,899, p \(<0,001\)) als auch für die meisten einzelnen Buchstabenpräfixe (Tabelle 2). Daher wird RF als bester Ansatz für die anschließende Modellentwicklung und -analyse ausgewählt.
Violindiagramme, die den AUROC-Leistungsvergleich zwischen logistischer Regression (LR) und Random Forest (RF) mit unterschiedlichen Eingaben zeigen: nur Diagnosecodes (Diag), nur Laborergebnisse (Labs), Integration von Diagnosecodes und Laborergebnissen (LabsDiag) und Integration von Diagnosecodes, Laborergebnisse und demografische Merkmale (LabsDiagDemo). Die durch einen gepaarten Wilcoxon-Signed-Rank-Test erhaltenen p-Werte (oben in den Diagrammen) zeigen, dass RF LR in jedem Fall deutlich übertrifft.
Als nächstes wird die RF-Pipeline verwendet, um kalibrierte Modelle mithilfe einer isotonischen Regression mit fünffacher Kreuzvalidierung des Trainingssatzes zu entwickeln. Das kalibrierte Modell wurde zur Vorhersage der Validierungs- und Testsätze verwendet. Das Modell zeigt für die meisten Etiketten eine gute Kalibrierung (ergänzende Abbildung 3).
Das RF-basierte Multi-Label-Modell ist im Wesentlichen eine Sammlung unabhängiger RF-Modelle, eines für jedes Krankheitslabel; Um Vorhersagen für eine bestimmte Bezeichnung zu interpretieren, reicht es daher aus, nur das entsprechende Modell zu berücksichtigen. Jedes RF-Modell ist ein Ensemble von Entscheidungsbäumen, die algorithmisch transparent sind, d. h. während der Inferenz kann der Vorhersagepfad, bestehend aus mehreren binären Vergleichen, aus den Eingaben verfolgt werden (die ohne Vorverarbeitung oder Einbettung trivial interpretierbar sind). Dies ist ganz anders als bei Deep-Learning-Modellen, bei denen der Inferenzpfad nicht sinnvoll interpretiert oder nachverfolgt werden kann.
Die Bedeutung von Merkmalen auf Kapitelebene für einige ausgewählte Fälle wurde mithilfe von Wortwolken visualisiert (ergänzende Abbildung 4). Für mehrere Buchstabenpräfixe wie C: Neoplasien, F: Geistes- und Verhaltensstörungen, I: Erkrankungen des Kreislaufsystems und J: Erkrankungen des Atmungssystems können wir beobachten, dass diagnostische Codes als wichtige Merkmale für jedes Buchstabenpräfix eine herausragende Rolle spielen; insbesondere Codes, die zum gleichen Buchstabenpräfix gehören.
Wir haben auch wichtige Funktionen (basierend auf dem SHAP-Framework, Einzelheiten siehe Zusatzinformationen) für einzelne Etiketten visualisiert (Ergänzende Abbildung 5). Zu den wichtigen Merkmalen gehören beispielsweise bei Lungenkrebs die Vorgeschichte von Lungenkrebs, andere Anomalien in der Lunge, das Alter, das Vorhandensein von Glukosemessungen sowie das Blutbild. Bei Lungenkrebspatienten werden routinemäßig Blutbilduntersuchungen angeordnet, um den allgemeinen Gesundheitszustand zu überwachen und Behandlungsentscheidungen zu erleichtern.
Als nächstes erscheinen bei einer bipolaren Störung eine Vorgeschichte einer bipolaren Störung und das Alter als wichtige Merkmale. Darüber hinaus sehen wir Codes für mehrere verwandte Störungen wie schwere depressive Störungen, Angststörungen, Bluthochdruck und Schlaflosigkeit, die bekanntermaßen mit einer bipolaren Störung verbunden sind28,29. Insbesondere sehen wir auch Tests auf Lithium, Trizyklika und Valproinsäure, die zur Behandlung von bipolaren und depressiven Störungen eingesetzt werden.
Bei Herzinsuffizienz kommen neben einer Herzinsuffizienz in der Vorgeschichte vor allem Alters- und natriuretische Peptidtests (BNP und NT-proBNP) zur Diagnose einer Herzinsuffizienz zum Einsatz. Wir können auch mehrere Faktoren beobachten, die bekanntermaßen mit einer höheren Inzidenz von Herzinsuffizienz verbunden sind: Vorhofflimmern30, atherosklerotische Herzkrankheit und höheres QRSD-Intervall31, höhere Herzfrequenz32, größere Verteilungsbreite der roten Blutkörperchen33, niedrigere geschätzte globuläre Filtrationsrate (eGFR) 34 und Bluthochdruck, der häufig eine Vorstufe einer Herzinsuffizienz ist35.
Schließlich erscheinen bei der chronisch obstruktiven Lungenerkrankung (COPD) Codes, die auf eine Vorgeschichte von COPD, Nikotinabhängigkeit, Asthma oder Atemnot hinweisen, als wichtige Merkmale. Darüber hinaus beobachten wir den bekannten Zusammenhang von COPD mit chronischer Nierenerkrankung36 durch Labortests der Nierenfunktion wie eGFR, Blut-Harnstoff-Stickstoff (BUN) und Kreatinin sowie Herzerkrankungen wie Arteriosklerose und Herzinsuffizienz37. Insgesamt wählt das Modell aussagekräftige und interpretierbare Merkmale zur Vorhersage dieser Diagnosen aus.
Wir verglichen die Leistung unseres Modellierungsansatzes mit dem von Choi et al. vorgeschlagenen Deep Learning.15 In Bezug auf die Gesamtleistung von AUROC über alle Labels hinweg übertreffen sowohl die LR- als auch die RF-Multilabel-Klassifikatoren, die auf Diagnosecodes trainiert wurden, nur das beste Deep-Learning-Modell ( p \(<0,001, \mathrm{Daten nicht angezeigt}\)). In Bezug auf AUPRC schneidet das DL-Modell jedoch über alle Buchstabenpräfixe hinweg deutlich besser ab (p \(<0,001, \mathrm{Daten nicht angezeigt}\)).
Bei De-novo-Vorhersagen ist die Situation umgekehrt: Die gesamte AUROC-Leistung des DL-Modells ist über alle Buchstabenpräfixe hinweg besser (p \(<0,001\), Abb. 3, ergänzende Abb. 6) als die LR- und RF-basierten Modelle; allerdings ist die AUPRC-Leistung deutlich schlechter (p \(<0,001\)).
Violindiagramme, die die kapitelweise AUPRC-Leistung von DL vs. LR vs. RF anhand von Diagnosecodes für De-novo-Vorhersagen zeigen. Die Zahlen über den Diagrammen geben die p-Werte an, die durch einen gepaarten Wilcoxon-Signed-Rank-Test mit der Alternativhypothese erhalten wurden, dass DL bei Überalterung besser ist.
Als nächstes wurde die Leistung des kalibrierten Modells anhand der Validierungs- und Testsätze anhand von AUROC (Abb. 4) und AUPRC (Abb. 5) bewertet und Gesamt- und De-novo-Vorhersagen verglichen. Wir beobachten, dass die Vorhersageleistung des Modells bei Gesamtvorhersagen besser ist als bei De-novo-Begegnungen (Abb. 4, 5). Dieser Unterschied in der AUPRC kann auf ein erhöhtes Klassenungleichgewicht zurückgeführt werden; Wenn für eine Kennzeichnung nur De-novo-Begegnungen berücksichtigt werden, sinkt die Prävalenz und die AUPRC nimmt entsprechend ab. Das Modell schneidet auch bei chronischen Krankheiten im Vergleich zu akuten Krankheiten deutlich besser ab (mittlerer Gesamt-AUROC 0,934 vs. 0,848, p \(<0,001\)). Die Gesamtleistung von AUROC bei chronischen Krankheiten wie Neubildungen sowie Geistes- und Verhaltensstörungen ist der Leistung bei Buchstabenpräfixen mit akuteren Krankheiten wie bestimmten infektiösen und parasitären Krankheiten, Verletzungen, Vergiftungen und bestimmten anderen Folgen äußerer Ursachen überlegen.
Violindiagramme, die die kapitelweise AUROC-Leistung des kalibrierten Modells in den Validierungs- und Testsätzen für alle Begegnungen (insgesamt) und De-novo-Begegnungen zeigen.
Streudiagramme, die die kapitelweise AUPRC-Leistung des kalibrierten Modells in den Validierungs- und Testsätzen als Funktion der Prävalenz für alle Begegnungen (insgesamt) und De-novo-Begegnungen zeigen.
Als Nächstes verglichen wir die RF- und DL-Modelle mit zwei früheren Studien, in denen DL verwendet wurde: Choi et al.15 und Rashidian et al.11 In Bezug auf die Recall\(@k\)-Metrik schneidet das RF-Modell mit den in berichteten Ergebnissen ähnlich ab die von Choi et al. auf ihre Daten. Allerdings schneidet ihr DL-Modell, das mit Diagnosecodes auf Stanford-Daten trainiert wurde, schlechter ab (Tabelle 3). Zweitens verglichen wir unsere Ergebnisse für drei von Rashidian et al. untersuchte Krankheiten – in jedem Fall übertrifft die AUROC-Leistung des RF-Modells die von Rashidian et al. berichteten Ergebnisse sowie das auf Stanford-Daten trainierte DL-Modell.
In diesem Artikel haben wir SCOPE entwickelt, ein Modell zur Vorhersage von ICD-10-Diagnosecodes für einen Patienten bei einer bestimmten Begegnung, basierend auf der Demografie des Patienten, früheren Diagnosen und Labortestergebnissen. Wir haben einen auf binärer Relevanz basierenden Multi-Label-Modellierungsansatz gewählt, der leicht erweiterbar ist und es uns ermöglicht, die Modelle für jedes einzelne Label separat zu untersuchen und zu interpretieren. SCOPE zeigte im durchgehaltenen Testsatz eine gute Kalibrierung und schnitt mit anderen Modellen in der Literatur vergleichbar oder sogar besser ab. Das endgültige Modell, SCOPE, war ein auf binärer Relevanz basierender Klassifikator mit einem RF, der auf die Verkettung aggregierter Diagnosecodes, Laborergebnisse und demografischer Merkmale trainiert wurde.
Das vorgeschlagene Modell sagt dreistellige Präfixe von ICD-10-Codes anstelle des vollständigen Codes voraus. Für den praktischen Einsatz stellen wir uns einen Human-in-the-Loop-Aufbau vor, bei dem das Modell das dreistellige Code-Präfix vorschlägt und der Arzt das entsprechende Suffix hinzufügt. Diese Wahl bietet mehrere Vorteile. Erstens ist es bei vielen Codes nicht möglich, den genauen Code allein auf der Grundlage der Krankengeschichte in der Vergangenheit genau anzugeben – beispielsweise geben die Codes unter F31 (bipolare Störung) den Schweregrad der Erkrankung zum aktuellen Zeitpunkt an und erfordern eine Beurteilung durch den Arzt basierend auf anderen Faktoren wie aktuellen Symptomen. Zweitens kann der genaue ICD-10-Abrechnungscode, der in einer Situation verwendet wird, je nach subjektiver Meinung des Arztes und den Konventionen der medizinischen Einrichtung variieren – das dreistellige Präfix ist gegenüber solchen Abweichungen robuster und das Modell lässt sich wahrscheinlich besser verallgemeinern. Aus technischer Sicht ist es schließlich von Vorteil, die Kardinalität der Zielbezeichnungen zu reduzieren und eine bessere Leistung zu erzielen.
Unsere Arbeit ähnelt im Geiste mehreren vorhandenen Arbeiten in der Literatur. Mit der weit verbreiteten Einführung von EHR und der Verfügbarkeit großer Datensätze wurden Deep-Learning-Ansätze für die meisten EHR-basierten Modellierungs- und Vorhersageaufgaben verwendet, wie z. B. das Erlernen der Patienten- oder Kontextdarstellung16,18, Ergebnisvorhersage7,8,38,39,40 und Vorhersage zukünftiger Diagnosen11,17,41 in den letzten Jahren10,42,43. Insbesondere verwendeten Choi et al.15 ein Modell eines rekurrenten neuronalen Netzwerks (RNN), um Diagnosecodes aus früheren Diagnosecodes und aus der EHR erhaltenen Medikamentendaten vorherzusagen, und zeigten, dass es ein grundlegendes logistisches Regressionsmodell übertraf. Tatsächlich haben wir in unseren ersten Experimenten herausgefunden, dass eine naive logistische Regression bei der Vorhersageaufgabe keine gute Leistung erbringt. Im Gegensatz dazu stellen wir fest, dass eine auf binärer Relevanz basierende Multi-Label-Strategie mit logistischer Regression als Basismodell das RNN-Modell von Choi et al. übertrifft.15 Wir nehmen an, dass diese Ungleichheit durch zwei Faktoren verursacht wird: erstens das Ungleichgewicht der hohen Klassen für die unterschiedlichen Codes, die sich nachteilig auf die Vorhersageleistung auswirken können44,45, und zweitens weisen unterschiedliche Codes sehr unterschiedliche Prävalenzraten auf, was die Leistung bei selteneren Krankheiten wahrscheinlich unverhältnismäßig beeinträchtigt.
Wir verwenden einen konzeptionell einfachen, auf binärer Relevanz basierenden Klassifikator, der eine logistische Regression und eine zufällige Gesamtstruktur-Pipeline-Basis testet. Der auf binärer Relevanz basierende Ansatz ist nicht nur eine natürliche Wahl für die Modellierung von Multi-Label-Ausgaben, sondern bietet auch mehrere zusätzliche Vorteile. Erstens ermöglicht es uns, der Tatsache Rechnung zu tragen, dass verschiedene Etiketten eine sehr unterschiedliche Prävalenz haben. Um das Klassenungleichgewicht zu bekämpfen, verwenden wir die Mehrheitsunterabtastung, wodurch sich auch der Rechenaufwand verringert. Außerdem können wir jedes Modell unabhängig auf der Grundlage der Verbreitung des entsprechenden Labels kalibrieren. Ein weiterer Vorteil des auf binärer Relevanz basierenden Ansatzes besteht darin, dass das Modell problemlos erweitert werden kann, um zusätzliche relevante Labels aufzunehmen. Wenn neue Ziellabels eingeführt werden (z. B. aufgrund der Verfügbarkeit neuer Daten im Laufe der Zeit), müssen wir nur ein zusätzliches Modell trainieren für jedes neue Etikett. Auch wenn sich die Prävalenz einer einzelnen Bezeichnung mit der Zeit ändert (viele Krankheiten weisen beispielsweise ein saisonales Muster auf), können wir nur das entsprechende Modell neu kalibrieren. Im Wesentlichen ermöglicht uns der auf binärer Relevanz basierende Ansatz, SCOPE einfach und effizient zu aktualisieren.
Ein weiterer wichtiger Gesichtspunkt bei der Entwicklung von SCOPE war die Interpretierbarkeit, insbesondere im Zusammenhang mit der Transparenz12. Logistische Regression und Random Forests sind theoretisch gut verstanden und offensichtlich algorithmisch transparenter für Deep-Learning-Modelle wie RNNs. Wir haben uns auch um die Wahrung der Zerlegbarkeit bemüht, was mit der Idee zusammenhängt, dass jede Komponente des Modells, einschließlich der Eingaben, Parameter und Rechenschritte, verständlich sein sollte. Zu diesem Zweck haben wir die frühe Feature-Integrationsstrategie der Verkettung von Features übernommen, die aus verschiedenen Modalitäten stammen, eine umfangreiche Feature-Vorverarbeitung oder Feature-Engineering vermieden und uns dafür entschieden, keine Deep-Learning-basierten Feature-Einbettungen zu verwenden. Durch diese Auswahl wurde sichergestellt, dass jede Eingabe in SCOPE für den Benutzer interpretierbar ist. Schließlich verbessert der auf binärer Relevanz basierende Ansatz die Post-hoc-Interpretierbarkeit erheblich, was sich auf die Erklärungen oder Kontextinformationen wie die Bedeutung von Merkmalen bezieht, die Einblicke in das trainierte Modell geben. Da wir für jedes Etikett ein separates Modell haben, können wir durch die separate Post-hoc-Interpretation jedes Modells ableiten, wie die Funktionen bei der Vorhersage des einzelnen Etiketts interagieren. Während der Begriff und die Bedeutung der Interpretierbarkeit von Modellen Gegenstand einiger Debatten sind46,47, glauben wir, dass Transparenz die Einführung von Modellen für maschinelles Lernen in der Klinik erleichtern kann. Es kann auch die Angst vor Sprödigkeit verringern, die insbesondere bei Deep-Learning-Modellen vorherrscht, wo kleine Störungen der Eingabe in Randfällen zu völlig unterschiedlichen Vorhersagen führen können48.
Interpretierbare Modelle sind besonders attraktiv, wenn sie nicht unter Leistungseinbußen leiden. Glücklicherweise scheint dies bei SCOPE der Fall zu sein, das basierend auf unseren Ergebnissen mit vorhandenen Modellen eine gleichwertige oder bessere Leistung erbringt. Insbesondere stellen wir fest, dass unsere Ergebnisse in Bezug auf die Erinnerung\(@k\) den besten Ergebnissen von Choi et al.15 (Tabelle 3) ebenbürtig sind. Auch in Bezug auf AUROC auf einzelnen Etiketten erzielt unser Modell bessere Ergebnisse als die von Rashidian et al.11 berichteten und das von Choi et al.15 vorgeschlagene Deep-Learning-Modell, wenn es nur auf Diagnosecodes trainiert wird.
Unsere Arbeit schlägt auch mehrere Wege für zukünftige Forschung vor. Zunächst wurde SCOPE anhand eines einzigen Datensatzes trainiert, validiert und getestet, der vom Stanford-Krankenhaus und den Stanford-Kliniken erhalten wurde. Während die Modellinterpretation zeigt, dass die wichtigen Merkmale sinnvoll sind, haben wir weder die Leistung dieses Modells anhand externer Datensätze bewertet, noch haben wir versucht, aus klinischer Sicht kausale Zusammenhänge zwischen den identifizierten wichtigen Merkmalen und den vorhergesagten Diagnosen zu validieren oder herzustellen. Leider gibt es unseres Wissens nach keine öffentlich zugänglichen EHR-Datensätze, die Praxisbesuche verfolgen (im Gegensatz zu Krankenhausaufenthalten/Intensivstationsbesuchen, wie dies bei MIMIC49 der Fall ist). Obwohl das Modell mit mehr als \(2,5\) Millionen Patienten begann, wurde es für 583 Diagnosecodes entwickelt, was nur etwa 40 % aller relevanten dreistelligen ICD-10-Codes abdeckt. Dies weist darauf hin, dass viele Codes selten sind und wahrscheinlich mehr Daten erforderlich sind, um Modelle zu entwickeln, um sie abzudecken. Wir haben seltene Codes in unserem Modellierungsansatz weggelassen. Wir stellen jedoch fest, dass dies die Nützlichkeit unseres Modells nicht beeinträchtigt, da diese Codes recht selten sind und bei weniger als 500 (von > 500.000) Patienten oder weniger als 0,1 % unserer Kohorte auftraten. Schließlich können EHR-Daten unvollständig und verzerrt sein4 und auf ihnen entwickelte Modelle können anfällig für diese Verzerrung sein.
Zusammenfassend haben wir herausgefunden, dass SCOPE, ein RF-Modell, das Diagnosecodes und Laborergebnisse verwendet, künftige Diagnosen bei ambulanten Besuchen genauso gut oder besser als gängige Deep-Learning-Benchmarks vorhersagen kann, jedoch mit einer besseren Interpretierbarkeit der beitragenden Funktionen. Das Versprechen von SCOPE besteht darin, dass es durch die Vorhersage der wahrscheinlichen Diagnosen für einen Patienten auf der Grundlage der Krankengeschichte in der Vergangenheit den Ärzten bei der Vorbereitung vor dem Besuch helfen oder ihnen beim Ausfüllen der Dokumentation nach dem Besuch helfen kann und dabei möglicherweise die Inzidenz reduzieren kann fehlender oder unvollständiger Einträge in den EHRs.
Die von Stanford Healthcare erhaltenen EHR-Daten können aufgrund von HIPAA-Problemen nicht veröffentlicht werden und Datenanfragen sollten an den entsprechenden Autor gerichtet werden.
Arndt, BG et al. Verbunden mit der EHR: Beurteilung der Arbeitsbelastung des Hausarztes mithilfe von EHR-Ereignisprotokolldaten und Zeitbewegungsbeobachtungen. Ann. Fam. Med. 15(5), 419–426. https://doi.org/10.1370/afm.2121 (2017).
Artikel PubMed PubMed Central Google Scholar
Joukes, E., Abu-Hanna, A., Cornet, R. & De Keiser, NF Zeitaufwand für spezielle Patientenpflege- und Dokumentationsaufgaben vor und nach der Einführung einer strukturierten und standardisierten elektronischen Gesundheitsakte. Appl. Klin. Informieren. 9(1), 46–53. https://doi.org/10.1055/s-0037-1615747 (2018).
Artikel PubMed PubMed Central Google Scholar
Shanafelt, TD et al. Zusammenhang zwischen Bürobelastung und Merkmalen der elektronischen Umgebung mit Burnout bei Ärzten und beruflicher Zufriedenheit. Mayo Clin. Proz. 91(7), 836–848. https://doi.org/10.1016/j.mayocp.2016.05.007 (2016).
Artikel PubMed Google Scholar
Verheij, RA, Curcin, V., Delaney, BC & McGilchrist, MM Mögliche Ursachen für Verzerrungen bei der Nutzung und Wiederverwendung elektronischer Gesundheitsaktendaten in der Primärversorgung. J. Med. Internet Res. 20(5), e185. https://doi.org/10.2196/jmir.9134 (2018).
Artikel PubMed PubMed Central Google Scholar
Kharrazi, H., Wang, C. & Scharfstein, D. Prospektive EHR-basierte klinische Studien: Die Herausforderung fehlender Daten. J. Gen. Praktikant. Med. 29(7), 976–978. https://doi.org/10.1007/s11606-014-2883-0 (2014).
Artikel PubMed PubMed Central Google Scholar
Horsky, J., Drucker, EA & Ramelson, HZ Genauigkeit und Vollständigkeit der klinischen Kodierung mit ICD-10 für ambulante Besuche. AMIA Annu. Symp. Proz. AMIA Symp. 2017, 912–920 (2017).
PubMed Google Scholar
Rajkomar, A. et al. Skalierbares und genaues Deep Learning mit elektronischen Gesundheitsakten. NPJ-Ziffer. Med. 1(1), 18. https://doi.org/10.1038/s41746-018-0029-1 (2018).
Artikel PubMed PubMed Central Google Scholar
Hilton, CB et al. Personalisierte Vorhersagen der Patientenergebnisse während und nach dem Krankenhausaufenthalt mithilfe künstlicher Intelligenz. NPJ-Ziffer. Med. 3(1), 1–8. https://doi.org/10.1038/s41746-020-0249-z (2020).
Artikel Google Scholar
Nguyen, P., Tran, T., Wickramasinghe, N. & Venkatesh, S. Deepr: Ein Faltungsnetz für Krankenakten. IEEE J. Biomed. Gesundheitsinformationen. 21(1), 22–30. https://doi.org/10.1109/JBHI.2016.2633963 (2017).
Artikel PubMed Google Scholar
Shickel, B., Tighe, PJ, Bihorac, A. & Rashidi, P. Deep EHR: Eine Übersicht über die jüngsten Fortschritte bei Deep-Learning-Techniken für die Analyse elektronischer Gesundheitsakten (EHR). IEEE J. Biomed. Gesundheitsinformationen. 22(5), 1589–1604. https://doi.org/10.1109/JBHI.2017.2767063 (2018).
Artikel PubMed Google Scholar
Rashidian, S. et al. Deep Learning zu elektronischen Gesundheitsakten zur Verbesserung der Genauigkeit der Krankheitskodierung. AMIA Jt. Summits Transl. Wissenschaft. Proz. AMIA Jt. Summits Transl. Wissenschaft. 2019, 620–629 (2019).
Google Scholar
Lipton, ZC Der Mythos der Modellinterpretierbarkeit. Warteschlange 16(3), 31–57. https://doi.org/10.1145/3236386.3241340 (2018).
Artikel Google Scholar
Lundberg, SM, Allen, PG & Lee, S.-I. Ein einheitlicher Ansatz zur Interpretation von Modellvorhersagen. Adv. Neuronale Inf. Verfahren. Syst. 30, 4765–4774 (2017).
Google Scholar
Rudin, C. Hören Sie auf, Black-Box-Modelle für maschinelles Lernen für Entscheidungen mit hohem Risiko zu erklären, und verwenden Sie stattdessen interpretierbare Modelle. Nat. Mach. Intel. 1(5), 206–215. https://doi.org/10.1038/s42256-019-0048-x (2019).
Artikel PubMed PubMed Central Google Scholar
Choi, E., Bahadori, MT, Schütz, A., Stewart, WF & Sun, J. Doctor AI: Vorhersage klinischer Ereignisse über wiederkehrende neuronale Netze. JMLR-Workshop-Konferenz. Proz. 56, 301–318 (2016).
PubMed PubMed Central Google Scholar
Choi, E., Bahadori, MT, Searles, E., et al. Mehrschichtiges Repräsentationslernen für medizinische Konzepte. In Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Bd. 13–17. August 2016, 1495–1504 (Association for Computing Machinery, 2016). https://doi.org/10.1145/2939672.2939823.
Choi, E., Bahadori, MT, Sun, J., Kulas, J., Schütz, A., Stewart, W. RETAIN: Ein interpretierbares Vorhersagemodell für das Gesundheitswesen unter Verwendung des Umkehrzeit-Aufmerksamkeitsmechanismus. In Advances in Neural Information Processing Systems 29. (Hrsg. Lee, DD, Sugiyama, M., Luxburg, UV, Guyon, I., Garnett, R.) 3504–3512 (Curran Associates, Inc., 2016). http://papers.nips.cc/paper/6321-retain-an-interpretable-predictive-model-for-healthcare-using-reverse-time-attention-mechanism.pdf.
Miotto, R., Li, L., Kidd, BA & Dudley, JT Tiefer Patient: Eine unbeaufsichtigte Darstellung, um die Zukunft von Patienten anhand der elektronischen Gesundheitsakten vorherzusagen. Wissenschaft. Rep. 6(1), 26094. https://doi.org/10.1038/srep26094 (2016).
Artikel ADS CAS PubMed PubMed Central Google Scholar
Chronic Condition Indicator (CCI) für ICD-10-CM (Beta-Version). (Agentur für Gesundheitsforschung und Qualität, 2018). https://www.hcup-us.ahrq.gov/toolssoftware/chronic_icd10/chronic_icd10.jsp (abgerufen am 15. Juli 2020).
Chakravarti, N. Isotonische Medianregression: Ein linearer Programmieransatz. Mathe Oper Res. 14, 303–308. https://doi.org/10.2307/3689709 (1989).
Artikel MathSciNet MATH Google Scholar
Mikolov, T., Chen, K., Corrado, G., Dean, J. Verteilte Darstellungen von Wörtern und Phrasen und ihre Kompositionalität arXiv: 1310. 4546v1 [cs. CL] 16. Okt. 2013. arXiv Prepr arXiv13104546 (2013).
Harris, CR et al. Array-Programmierung mit NumPy. Natur 585(7825), 357–362. https://doi.org/10.1038/s41586-020-2649-2 (2020).
Artikel ADS CAS PubMed PubMed Central Google Scholar
McKinney, W., Team, PD Pandas – Leistungsstarkes Python-Datenanalyse-Toolkit (2015).
Pedregosa, F. et al. Scikit-learn: Maschinelles Lernen in Python. J. Mach. Lernen. Res. 12, 2825–2830 (2011).
MathSciNet MATH Google Scholar
Hunter, JD Matplotlib: Eine 2D-Grafikumgebung. Berechnen. Wissenschaft. Ing. 9(3), 90–95. https://doi.org/10.1109/MCSE.2007.55 (2007).
Artikel Google Scholar
Lemaître, G., Nogueira, F. & Aridas, CK Imbalanced-learn: Eine Python-Toolbox, um den Fluch unausgeglichener Datensätze beim maschinellen Lernen zu bekämpfen. J. Mach. Lernen. Res. 18(17), 1–5 (2000).
Google Scholar
Wilcoxon, F. Individuelle Vergleiche nach Ranking-Methoden. Biometr. Stier. 1(6), 80–83. https://doi.org/10.2307/3001968 (1945).
Artikel Google Scholar
Harvey, AG, Talbot, LS & Gershon, A. Schlafstörung bei bipolarer Störung über die gesamte Lebensspanne. Klin. Psychol. Wissenschaft. Üben. 16(2), 256–277. https://doi.org/10.1111/j.1468-2850.2009.01164.x (2009).
Artikel Google Scholar
Ayerbe, L. et al. Hypertonierisiko und klinische Versorgung bei Patienten mit bipolarer Störung oder Schizophrenie; Eine systematische Überprüfung und Metaanalyse. J. Affektstörung. 225, 665–670. https://doi.org/10.1016/j.jad.2017.09.002 (2018).
Artikel PubMed Google Scholar
Middlekauff, HR, Stevenson, WG & Stevenson, LW Prognostische Bedeutung von Vorhofflimmern bei fortgeschrittener Herzinsuffizienz: Eine Studie mit 390 Patienten. Auflage 84(1), 40–48. https://doi.org/10.1161/01.CIR.84.1.40 (1991).
Artikel CAS PubMed Google Scholar
Ilkhanoff, L. et al. Zusammenhang der QRS-Dauer mit der Struktur und Funktion des linken Ventrikels und dem Risiko einer Herzinsuffizienz bei Erwachsenen mittleren und höheren Alters: Die multiethnische Studie über Atherosklerose (MESA). EUR. J. Herzinsuffizienz. 14(11), 1285–1292. https://doi.org/10.1093/eurjhf/hfs112 (2012).
Artikel PubMed PubMed Central Google Scholar
Nanchen, D. et al. Ruheherzfrequenz und das Risiko einer Herzinsuffizienz bei gesunden Erwachsenen, die Rotterdam-Studie. Zirkel. Hören Sie scheitern. 6(3), 403–410. https://doi.org/10.1161/CIRCHEARTFAILURE.112.000171 (2013).
Artikel CAS Google Scholar
Felker, GM et al. Verteilungsbreite der roten Blutkörperchen als neuer prognostischer Marker bei Herzinsuffizienz. Daten aus dem CHARM-Programm und der Duke-Datenbank. Marmelade. Slg. Cardiol. 50(1), 40–47. https://doi.org/10.1016/j.jacc.2007.02.067 (2007).
Artikel PubMed Google Scholar
Vestberg, D. et al. Verminderte eGFR als Risikofaktor für Herzinsuffizienz bei 13.781 Personen mit Typ-1-Diabetes. J. Diabetes Sci. Technol. 10(1), 131–136. https://doi.org/10.1177/1932296815596174 (2016).
Artikel CAS Google Scholar
Messerli, FH, Rimoldi, SF & Bangalore, S. Der Übergang von Bluthochdruck zur Herzinsuffizienz: Zeitgenössisches Update. JACC Hörfehler. 5(8), 543–551. https://doi.org/10.1016/j.jchf.2017.04.012 (2017).
Artikel Google Scholar
Gaddam, S., Gunukula, SK, Lohr, JW & Arora, P. Prävalenz chronischer Nierenerkrankungen bei Patienten mit chronisch obstruktiver Lungenerkrankung: Eine systematische Überprüfung und Metaanalyse. BMC Pulm. Med. 16(1), 158. https://doi.org/10.1186/s12890-016-0315-0 (2016).
Artikel PubMed PubMed Central Google Scholar
de Díez, JM, Morgan, JC & García, RJ Der Zusammenhang zwischen COPD und Herzinsuffizienzrisiko: Eine Übersicht. Int. J. COPD. 8, 305–312. https://doi.org/10.2147/COPD.S31236 (2013).
Artikel CAS Google Scholar
Jin, B. et al. Vorhersage des Risikos einer Herzinsuffizienz mit sequenzieller EHR-Datenmodellierung. IEEE-Zugriff. 6, 9256–9261. https://doi.org/10.1109/ACCESS.2017.2789324 (2018).
Artikel Google Scholar
Che, Z., Purushotham, S., Cho, K., Sontag, D. & Liu, Y. Rekurrente neuronale Netze für multivariate Zeitreihen mit fehlenden Werten. Wissenschaft. Rep. 8(1), 6085. https://doi.org/10.1038/s41598-018-24271-9 (2018).
Artikel ADS CAS PubMed PubMed Central Google Scholar
Aczon, M., Ledbetter, D., Ho, L., et al. Dynamische Vorhersagen des Mortalitätsrisikos in der pädiatrischen Intensivpflege mithilfe rekurrenter neuronaler Netze. Januar 2017. http://arxiv.org/abs/1701.06675 (abgerufen am 24. Juli 2019).
Choi, E., Bahadori, MT, Schütz, A., Stewart, WF, Sun, J. Doctor AI: Vorhersage klinischer Ereignisse über wiederkehrende neuronale Netze. November 2015. http://arxiv.org/abs/1511.05942 (abgerufen am 24. Juli 2019).
Miotto, R., Wang, F., Wang, S., Jiang, X. & Dudley, JT Deep Learning für das Gesundheitswesen: Rückblick, Chancen und Herausforderungen. Kurzes Bioinform. 19(6), 1236–1246. https://doi.org/10.1093/bib/bbx044 (2017).
Artikel PubMed Central Google Scholar
Ayala Solares, JR et al. Deep Learning für elektronische Gesundheitsakten: Eine vergleichende Überprüfung mehrerer tiefer neuronaler Architekturen. J. Biomed. Informieren. 101, 103337. https://doi.org/10.1016/j.jbi.2019.103337 (2020).
Artikel PubMed Google Scholar
Japkowicz, N., Stephen, S. Das Klassenungleichgewichtsproblem: Eine systematische Studie. Intell DATA Anal. 2002:449. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.711.8214 (abgerufen am 8. Juli 2020).
He, H. & Garcia, EA Lernen aus unausgeglichenen Daten. IEEE Trans. Wissen. Daten-Ing. 21(9), 1263–1284. https://doi.org/10.1109/TKDE.2008.239 (2009).
Artikel Google Scholar
Jia, X., Ren, L. & Cai, J. Die klinische Implementierung von KI-Technologien erfordert interpretierbare KI-Modelle. Med. Physik. 47(1), 1–4. https://doi.org/10.1002/mp.13891 (2020).
Artikel CAS PubMed Google Scholar
Ahmad, MA, Teredesai, A., Eckert, C. Interpretierbares maschinelles Lernen im Gesundheitswesen. In Proceedings – 2018 IEEE International Conference on Healthcare Informatics, ICHI 2018 447 (Institute of Electrical and Electronics Engineers Inc., 2018). https://doi.org/10.1109/ICHI.2018.00095.
Finlayson, SG et al. Kontroverse Angriffe auf medizinisches maschinelles Lernen. Wissenschaft (80-). 363(6433), 1287. https://doi.org/10.1126/science.aaw4399 (2019).
Artikel ADS CAS Google Scholar
Johnson, AEW et al. MIMIC-III, eine frei zugängliche Datenbank für die Intensivpflege. Wissenschaft. Daten. 3(1), 1–9. https://doi.org/10.1038/sdata.2016.35 (2016).
Artikel CAS Google Scholar
Referenzen herunterladen
Wir danken Abhishek Roushan und Justin Pyron für die erste Sondierungsarbeit zu Beginn dieses Projekts. Auch von den Gesprächen mit Chris Scheers und Long Fu haben wir enorm profitiert. Wir danken auch Dr. Ron Li für seine hilfreichen Vorschläge und Kommentare. Diese Forschung nutzte Daten oder Dienste von STARR, „STAnford Medicine Research Data Repository“, einem klinischen Data Warehouse mit Live-Epic-Daten von Stanford Health Care (SHC), der University Healthcare Alliance (UHA) und der Packard Children's Health Alliance (PCHA). Kliniken und andere Hilfsdaten aus Krankenhausanwendungen wie Radiologie-PACS. Die STARR-Plattform wird vom IT-Team von Stanford Medicine Research entwickelt und betrieben und durch das Forschungsbüro der Stanford School of Medicine ermöglicht.
Diese Arbeit wurde teilweise durch ein Stipendium von Nividien Inc. an die Stanford University, Center for Biomedical Informatics and Information Technology, National Cancer Institute (Stipendium Nr. R01 CA260271) unterstützt.
Abteilung für Medizin, Stanford Center for Biomedical Informatics, Stanford University, 1265 Welch Rd, Palo Alto, CA, 94305, USA
Pritam Mukherjee, Marie Humbert-Droz, Jonathan H. Chen und Olivier Gevaert
Abteilung für biomedizinische Datenwissenschaft, Stanford University, Palo Alto, CA, USA
Olivier Gevaert
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Konzeption: PM, JC, OG, Bereitstellung von Daten: OG, Datenanalyse und Interpretation: PM, JC, MH-D., OG, Schreiben: PM, OG, Rechenressource: OG
Korrespondenz mit Olivier Gevaert.
Die Autoren geben an, dass keine Interessenkonflikte bestehen.
Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.
Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.
Nachdrucke und Genehmigungen
Mukherjee, P., Humbert-Droz, M., Chen, JH et al. ANWENDUNGSBEREICH: Vorhersage zukünftiger Diagnosen bei Arztbesuchen mithilfe elektronischer Gesundheitsakten. Sci Rep 13, 11005 (2023). https://doi.org/10.1038/s41598-023-38257-9
Zitat herunterladen
Eingegangen: 28. Januar 2023
Angenommen: 05. Juli 2023
Veröffentlicht: 07. Juli 2023
DOI: https://doi.org/10.1038/s41598-023-38257-9
Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:
Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.
Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt
Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.