-
Notifications
You must be signed in to change notification settings - Fork 0
Datenmanagementplan
Projekt ID | mapcov_2024-01-14 - 2024-02-22 |
---|---|
Projektname | MAP-Cov Projekt |
Projektfrage | Wie hängt die Bevölkerungsdichte mit dem Covid-19-Verlauf zusammen? Welcher Zusammenhang besteht zwischen Wohnort und Beatmung während der Covid-19-Erkrankung? |
Projektbeschreibung mit Datensatzbeschreibung | Im geplanten Projekt soll die Wahrscheinlichkeit an Covid-19 zu erkranken, retrospektiv auf Basis von synthetischen Daten untersucht werden. Ein besonderes Augenmerk soll dabei auf den Wohnort der Patienten gelegt werden. Zu diesem Zweck werden wir auf die Bevölkerungszahlen der Counties von Massachusetts zurückgreifen, welche unter World Population Review bereitgestellt wurden. Obwohl es sich um synthetische Daten handelt, werden wir die Daten so behandeln, wie auch mit sensitiven Patientendaten umgegangen wird. |
Projektlaufzeit (Beginn/Ende) | Projekt: 2024-01-08 bis 2024-02-18 Datenerhebung: bereits abgeschlossen |
Forschungsförderer und –programm bzw. Eigenfinanzierung | Graduate School Rhein-Neckar Forschungsprogramm: Master BIDS |
Projektleiter ICON | Maximilian Fünfgeld |
Studienleiter (Principal Investigator), falls bekannt ORCID | Jan-Erik Weixler Christiane Vieweg Ute Mauer Alissia Kuhl (0009-0002-1281-8603) |
Datenmanager | Jan-Erik Weixler Christiane Vieweg Ute Mauer Alissia Kuhl |
Zuständige Ethikkommission,Votum | Medizinische Fakultät Mannheim, Forschungsgebäude, Haus 42 - Ebene 3 Positives Votum der Ethikkommission |
Relevante Policies (falls vorhanden) | Research Data Policy:Richtlinien für das Management von Forschungsdaten Z.B. DIZ Geschäftsordnung/Nutzungsordnung |
Zu beachtende Vorgaben von Dritten, optional | Das Projekt erfolgt ohne die Unterstützung Dritter |
Geplantes Publikationsdatum / Zeitraum der Datenpublikation | 18.02.2024 |
Geplante Kosten (falls Kosten nicht durch Dritte getragen werden, z.B. für Datenmanagement (FAIRe Daten), Archivierung) | |
Datum der Erstellung/Änderung DMP, Version | 17-01-2024 Version 1.0 (Erstellung) 24-01-2024 Version 1.1 (Integration in das Github Wiki) |
Zu den Verantwortlichkeiten der Datenmanager zählt die Organisation des Datenmanagements und der sicheren Speicherung und Langzeitarchivierung der generierten digitalen Forschungsdaten.
Das Projekt ist so aufgebaut, damit es den FAIR-Kriterien entspricht. Das Akronym FAIR steht für Findable (Auffindbar), Accessible (Zugänglich), Interoperable (Interoperabel) und Reusable (Wiederverwendbar). Weitere Informationen dazu finden sich bei der GO FAIR-Initiative
Für unsere Forschungsfrage wurden die Daten für Krankenhäuser und Arztpraxen in dem US-County Massachusetts erhoben. Es wurden die medizinischen Daten der Patienten während der Covid-19 Pandemie 2020 abgefragt. Vor der Erhebung der Daten hat jeder Patient schriftlich sein Einveständnis zur Erfassung, Verarbeitung und Speicherung der Daten gegeben.
Zusätzlich wurden frei verfügbare Bevölkerungsdaten verwendet.
Beschreibung der Forschungsdaten
Es handelt sich um Patientendaten bzw. frei verfügbare Bevölkerungsdaten. Damit die Daten keiner natürlichen Person zuzuordnen sind, werden keine Klarnamen erfasst sondern lediglich eine generierte Patienten-Id. Dadurch wird der US-Datenschutz und der Schutz der Perönlichkeitsrechte gewährleistet.
Zur Beantwortung der Forschungsfrage wurden zunächst die Stammdaten der Patienten erfasst. Für diese Patienten wurden unter anderem die Besuche in medizinischen Einrichtungen, die dortigen Behandlungen und Diagnosen und relevante Laborwerte erfasst. Die erfassten Daten wurden, sofern möglich, nach gängigen Codierungssysteme vereinheitlicht. In den vorliegenden Datensätzen vor allem SNOMED, SNOMED-CT und LOINC. Eine ausführliche Beschreibung der erhobenen Daten findet sich im Bereich Data Dictonary.
Maßnahmen zur Qualitätssicherung
Die Qualität der Daten wird auf Plausibilität überprüft. Während der Verarbeitung werden die Daten auf die relevanten Datensätze begrenzt und diese bereinigt. Dabei werden beispielsweise Datensätze herausgefiltert, bei denen das Todesdatum der Patienten vor dem ersten Auftreten des Coronavirus liegt. Eine ausführliche Beschreibung der Prozesse findet sich im Bereich 'Transformation' des ETL-Prozess
Datenorganisation inklusive Versionierung
Die Quelldaten liegen gesammelt in einem Ordner vor und werden gemeinsam veröffentlicht. Jede Datei ist nach den Angaben im Data Dictonary benannt. Mit einer eindeutigen Benennung der Dateien werden die Auffindbarkeit der Daten und damit auch deren Nachnutzbarkeit verbessert (FAIR).
Die Daten liegen im csv Format vor. Generierte Daten werden ebenfalls als csv oder als SQL-Datenbank gespeichert. Die Skripte des ETL-Prozess werden mit der frei verfügbaren Sprache Python und den zugehörigen Packeten durchgeführt. Der Code aller Verarbeitungschritte ist in GitHub öffentlich zu finden.
Da für keine der Datenformate und Skripte eine proprietäre Software benötigt wird, ist die Interoperabilität gegeben (FAIR).
Zugriffssicherheit
Als medizinische und damit persönlich sensiblen Daten, unterliegen die Daten strengen Datenschutzrichtlinien. Nur durch sorgfältige Anonymisierung der Patienten können die Daten und Ergebnisse einem breiteren Publikum zugänglich gemacht werden. Für diese Zwecke wurde ebenfalls eine Datenschutz-Folgeabschätzung erstellt.
Damit entspricht der Datensatz den FAIR- Prinzipen in Bezug auf die Zugänglichkeit.
Zur Verarbeitung der Daten wurden die frei verfügbaren Programmiersprachen Python und SQL verwendet. Die Verarbeitungsschritte sind in einem Google ColabBook implementiert worden, welchem ein Jupyter Notebook zugrunde liegt. Für graphischen Darstellungen wurden Mermaid, Miro und Lucid.app verwendet. Die statistische Analyse erfolgte ebenfalls mit Python. Eine Auflistung der verwendeten Bibliotheken findet sich im Abschnitt Datendokumentation und Metadaten. Die durchgeführten Skripte sind in diesem GitHub Repository zu finden.
Verarbeitungsschritte der Rohdaten
Die Rohdaten werden zunächst in einem shared Space gespeichert. Der Ordner ist nur für die Projektforscher einsehbar, da die Daten bereits anonymisiert vorliegen.
Aus allen vorhandenen Rohdaten wird eine SQL Datenbank erstellt. Dort sind die Daten über die Schlüssel bereits in Bezug zueinander gesetzt. Nun beginnt ein ETL-Prozess, um die Daten für die Analyse vorzubereiten.
Die Verarbeitung der Daten wird in einem Data Warehouse stattfinden. Dabei werden nur die für die Forschungsfragen relevanten Datentabellen extrahiert. Das verkleinert die Datenbank. Das Datawarehouse ist eine Kopie der ursprünglichen Datenbank. Dadurch können die Daten jederzeit aktualisiert werden aber die Auswertung bezieht sich auf einen festen Datensatz. Zudem wird eine negativer Einfluss auf die Geschwindigkeit der Datenverarbeitung in der Ursprungstabelle umgangen, wenn die Analysen in dem Datawarehouse durchgeführt werden.
Auf Basis des Data Warehouse können SQL-Abfragen gestellt werden. Diese dienen dazu sich einen generellen Überblick über die vorliegenden Daten zu verschaffen. Daraus resultieren die endgültigen Abfragen und Kriterien zur Beantwortung der Forschungsfragen.
Damit die Daten auswertbar werden, ist eine Transformation notwendig. Nach der Transormaton werden die Daten auf Basis des Sternschemas in das Factsheet geladen. Das Factsheet beinhaltet im gewissen Maße Redundanzen, die zugunsten der Rechengeschwindigkeit (Vermeidung von zu vielen Joins) in Kauf genommen werden. Die Details sind im ETL-Prozess zu finden.
Analyse und Darstellung
Die Analyse erfolgt mithilfe von Python und seinen Erweiterungsmodulen wie Matplot.lib, pandas und numpy. Die Daten werden graphisch dargestellt und zudem statistisch ausgewertet. Zur Auswertung der Forschungsfragen werden Heatmaps und der Chi-Quadrat Test (nach Pearson) genutzt. Bei dem Ergebnis ist vor allem der p-Wert zu beachten. Bei einem p-Wert kleiner als 0,05 ist ein Zusammenhang zwischen den untersuchten Parametern gegeben.
Technische und organisatorische Schutzmaßnahmen der Daten
Speicherung und Backup werden während der Projektlaufzeit durch alle Studienleiter sichergestellt. Das Backup erfolgt kontinuierlich auf dem bereitgestellten Server und extern einmal wöchentlich.
Zur Einschätzung der geeigneten Schutzmaßnahmen wurde eine Datenschutz-Folgeabschätzung erstellt. Dort sind technische und organisatorische Datenschutzmechanismen beschrieben.
Langzeitarchivierung
Wie in den Regeln zur guten wissenschaftlichen Praxis der deutschen Forschungsgesellschaft vorgesehen, werden die Forschungsdaten und der Code für deren Auswertung mindestens 10 Jahre archiviert. Die Langzeitarchivierung erfolgt über GitHub Repository. Zusätzlich werden die Projektergebnisse und alle relevanten Forschungsdaten für 10 Jahre verschlüsselt auf einer externen Festplatte abgelegt
Die zu erwartende Gesamtgröße beträgt maximal 20 GB.
Zusätzlich werden alle Daten intern in einem shared Space mit Identitätskontrolle abgelegt.
Eine Dokumentation der Forschungsdaten und damit verbundenen Metadaten für die (Roh-) Datensätze, der Transformationen sowie der Ergebnisse wird angefertigt und im GitHub Repository gespeichert. Eine gute Metadatenorganisation sorgt für eine bessere Nachnutzbarkeit der Daten, da diese besser in den Kontext eingeordnet werden können (FAIR).
Folgende Dateien werden erstellt unter Beschreibung der benutzten Datenelemente und Formate und Metadaten:
Auflistung aller relevanten (Roh-) Datensätze Die relevanten Dateien werden in einem Data dictinoary und in einem Sternschema übersichtlich dargestellt.
Auflistung aller relevanten Methoden und Programme
- Google ColabBook
- Python mit seinen Erweiterungsmodulen (inkl. verwendeten Versionen)
Python 3.10.12
Pandas: 1.5.3
Numpy: 1.25.2
sqlite3: 2.6.0
seaborn: 0.13.1
matplotlib: 3.7.1
Folium: 0.14.0
- SQL als Anfragesprache
Die verwendeten Bevölkerungsdaten sind öffentlich verfügbar und wurden von World Population Review zur Verfügung gestellt.
Die erfassten Daten unterliegen dem Datenschutz, da es sich um sensible Daten handelt. Daher werden diese Daten nicht frei zur Verfügung gestellt. Lediglich die Skirpte, mit denen der ETL Prozess und die Analyse durchgeführt wurde, sind im Repository von GitHub frei verügbar. Dort ist ebenfalls eine Beschreibung zur Reproduzierbarkeit vorhanden.
Zugriff auf die verwendeten Daten kann nur nach schriftlichem Antrag gewährt werden. In dem Antrag sollte das Anliegen und ggf. eine bestehende Forschungsfrage ausführlich beschrieben werden. Nach der Prüfung des Antrags druch die Projektleiter kann eine Freigabe erfolgen. Dazu wird der Ordner mit den Daten bei Google Drive mit dem Antragssteller geteilt.
In Publikationen werden die Daten lediglich in gesammelter Form veröffentlich, sodass keine Rückschlüsse auf einzelne Patienten möglich sein wird.
Liegen bei den contributors von synthea Copyright 2017-2023 The MITRE Corporation
Licensed under the Apache License, Version 2.0
Lizenztyp: Creative Commons CC BY Lizenz.
Relevante Policies
Bei der Nutzung und Verarbeitung von Daten ist immer auf Research Data Policy:
Richtlinien für das Management von Forschungsdaten
Z.B. DIZ Geschäftsordnung/Nutzungsordnung
Weitere Vorgaben von Dritten sind nicht zu beachten.