Skip to content

Das Repository liefert Informationen zu Entstehung und Struktur des bundesweiten klinischen Krebsregisterdatensatzes des ZfKD. Der Datensatz ist nicht öffentlich zugänglich, kann aber auf Antrag für wissenschaftliche Forschungszwecke genutzt werden.

License

Notifications You must be signed in to change notification settings

robert-koch-institut/Bundesweiter_klinischer_Krebsregisterdatensatz-Datenschema_und_Klassifikationen

Repository files navigation

Dokumentation

Bundesweiter klinischer Krebsregisterdatensatz - Datenschema und Klassifikationen




Stefan Meisegeier¹, Maren Imhoff¹, Karsten Berg¹, & Klaus Kraywinkel¹


  ¹ Robert Koch-Institut | ZfKD - Zentrum für Krebsregisterdaten


Zitieren
Meisegeier, S., Imhoff, M., Berg, K., & Kraywinkel, K. (2024). Bundesweiter klinischer Krebsregisterdatensatz - Datenschema und Klassifikationen [Data set]. Zenodo. https://doi.org/10.5281/zenodo.10022040



Zusammenfassung
In diesem Strukturdatensatz werden begleitende Informationen zu Struktur und Klassifikationen des bundesweiten Datensatzes des Zentrums für Krebsregisterdaten (ZfKD) am Robert Koch-Institut sowie Beispieldaten bereitgestellt. Dieser klinische Krebsregisterdatensatz ist nicht öffentlich zugänglich, kann jedoch auf Antrag für wissenschaftliche Forschung bereitgestellt werden. Er enthält Daten zu neu auftretenden Krebsfällen, die von medizinischen Einrichtungen an die Krebsregister der Bundesländer gemeldet und von dort an das ZfKD übermittelt werden. Die Datenerfassung basiert auf dem Bundeskrebsregisterdatengesetz sowie den entsprechenden Landesgesetze.


Inhaltsverzeichnis


Einleitung

Die Krebsregistrierung in Deutschland erfolgt auf der Basis von Landesgesetzen. Diese verpflichten medizinische Einrichtungen (v. a. niedergelassene Ärztinnen und Ärzte, pathologische Institute, Kliniken, Screening-Einheiten), neu auftretende Krebsfälle und definierte Ereignisse im Krankheits- bzw. Behandlungsverlauf an das zuständige Krebsregister zu melden.

Die Krebsregister der Bundesländer wiederum übermitteln nach Vorgabe des Bundeskrebsregisterdatengesetzes (BKRG) einmal jährlich Angaben zu neu erfassten Erkrankungsfällen an das Zentrum für Krebsregisterdaten (ZfKD) am Robert Koch-Institut. Das ZfKD prüft die Qualität der Daten, führt sie zu einem bundesweiten Datensatz zusammen und stellt sie auf Antrag für wissenschaftliche Forschungsprojekte zur Verfügung.

In diesem Repository werden begleitende Informationen zur Struktur des bundesweiten ZfKD-Datensatzes bereitgestellt. Ein weiteres wesentliches Element der Krebsregisterdaten stellen Klassifikationen dar - Referenztabellen für Variablen des Datensatzes und ihre definierten Ausprägungen. Diese Tabellen werden durch beteiligte Akteure kontinuierlich harmonisiert.

Note

Der ZfKD-Datensatz ist nicht öffentlich zugänglich, kann aber auf Antrag für wissenschaftliche Forschungszwecke genutzt werden. Bitte verwenden Sie für Fragen zur Antragstellung die E-Mail-Adresse des ZfKD: krebsdaten@rki.de oder das auf der Internetseite des ZfKD bereitgestellte Kontaktformular. Informationen zum gesetzlichen Auftrag, zu Methoden und Veröffentlichungen des ZfKD erhalten Sie ebenfalls auf den Internetseiten des ZfKD. Bitte beachten Sie, dass das ZfKD an den Daten, die von den Krebsregistern übermittelt wurden, keine Änderungen vornimmt.

Informationen zum Entstehungskontext des ZfKD-Datensatzes

Für die Erhebung klinischer Krebsregisterdaten wurde mit dem Krebsfrüherkennungs- und -registergesetz (KFRG) im § 65c Fünftes Buch Sozialgesetzbuch (SGB V) ein bundesrechtlicher Rahmen geschaffen. Die von den klinischen Krebsregistern zu erfassenden Angaben werden in dem von der Arbeitsgemeinschaft Deutscher Tumorzentren (ADT) und der Gesellschaft der epidemiologischen Krebsregister in Deutschland (GEKID, jetzt DKR e.V.) erarbeiteten onkologischen Basisdatensatz (oBDS) spezifiziert und regelmäßig überarbeitet. Die letzte Anpassung des oBDS wurde am 12. Juli 2021 im Bundesanzeiger publiziert. Einmal jährlich übermitteln die Krebsregister Daten nach Maßgabe des Bundeskrebsregisterdatengesetzes (BKRG) an das ZfKD.

Seit der Novellierung des BKRG durch das Gesetz zur Zusammenführung von Krebsregisterdaten enthalten die ans ZfKD übermittelten Daten auch klinische Angaben, u. a. zum Krankheitsverlauf und zur Behandlung (ab Diagnosejahr 2020).

Die Inhalte und die Struktur der ans ZfKD zu übermittelnden Daten wurden in einer AG mit Vertretern des ZfKD und der Krebsregister abgestimmt, dabei diente der oBDS und das novellierte Bundeskrebsregisterdatengesetz (§ 5) als Arbeitsgrundlage.

Das Arbeitsergebnis ist das hier beschriebene, für die Datenübermittlung ans ZfKD zu verwendende XML-Schema (alternativ als oBDS-RKI oder ZfKD-Lieferdatensatz bezeichnet, siehe dazu Struktur des bundesweiten klinischen Krebsregisterdatensatzes).

Umfassende Informationen zur Krebsregistrierung sind hier verfügbar: Manual der klinischen und epidemiologischen Krebsregistrierung (Veröffentlichung 2019)

Administrative und organisatorische Angaben

Das Zentrum für Krebsregisterdaten (ZfKD) des RKI ist zuständig für die bundesweite Krebsberichterstattung und stellt Dritten auf Antrag Daten für überregionale Forschungsprojekte zur Verfügung. Es prüft die Qualität der von den Krebsregistern übermittelten Daten und gibt den Krebsregistern diesbezüglich Rückmeldung.

Inhaltliche Fragen zur Datenerhebung, Datenauswertung und Datenkuration können direkt an das ZfKD gestellt werden (E-Mail-Adresse für Anfragen: krebsdaten@rki.de).

Datenübermittlung an das ZfKD

Das 2009 verabschiedete BKRG regelt die jährliche Zusammenführung der wesentlichen Daten aus den Krebsregistern am ZfKD. Die Übermittlung erfolgt jeweils am Jahresende und enthält Informationen zu allen Fällen, die bis zum Ende des vorherigen Kalenderjahres diagnostiziert wurden, so dass auch Nachmeldungen und Korrekturen sowie Informationen zum Follow-up (z. B. Sterbefälle und Wegzüge) früherer Erkrankungsfälle enthalten sind.

Vor der Novellierung des BKRG in 2021 wurde lediglich der deutlich kleinere epidemiologische Datensatz (mit Angaben zur Diagnose und zum Sterbezeitpunkt) an das ZfKD übermittelt. Dieser Datensatz wird bundesweit seit 2009 erfasst. Die Mehrzahl der Bundesländer hat zwischen 1998 und 2007 mit der landesweiten Erfassung begonnen.

Seit der Datenlieferung zum 31. Dezember 2022 und rückwirkend ab dem Diagnosejahr 2020 liefern die Krebsregister auch klinische Angaben. Die am ZfKD vorliegenden Daten enthalten allerdings nicht den gesamten Datenbestand der Register, beispielsweise sind keine Angaben zu den behandelnden Einrichtungen verfügbar.

Außerdem sind die Daten in den Krebsregistern bearbeitet worden: So wurden Meldungen aus verschiedenen Quellen zum gleichen Erkrankungsfall zusammengeführt und weitgehend um Widersprüche bereinigt („best-of“). Der Datensatz des ZfKD ist daher fall- und nicht meldungsbasiert, mehrere Tumorerkrankungen derselben Person können anhand einer von den Registern einmal vergebenen Personidentifikationsnummer zugeordnet werden. Die Übermittlung der Daten an das ZfKD erfolgt nach dem Wohnortprinzip (zum Zeitpunkt der Diagnose), so dass Doppelmeldungen weitgehend ausgeschlossen sind. Zwischen den Bundesländern erfolgt ein regelmäßiger Austausch von Daten, die außerhalb des Wohnortbundeslandes der Erkrankten erhoben und zunächst an das Krebsregister des Behandlungsortes gemeldet wurden.

💡 Eine fallweise Verknüpfung (Record Linkage) der am ZfKD vorliegenden Daten mit externen Datensätzen (Studien, Krankenkassen) ist nicht möglich.

Struktur des bundesweiten klinischen Krebsregisterdatensatzes

Der klinische Datensatz wird als oBDS-RKI bezeichnet. Die Bezeichnung geht zurück auf den zwischen ADT, GEKID und Plattform § 65c abgestimmten einheitlichen onkologischen Basisdatensatz (oBDS), der für die Entwicklung des oBDS-RKI als Vorlage und Arbeitsgrundlage diente (siehe Informationen zum Datensatz und Entstehungskontext).

Weil er die Struktur und Inhalte der von den Landeskrebsregistern ans ZfKD zu liefernden Daten definiert, wird der oBDS-RKI auch als ZfKD-Lieferdatensatz bezeichnet.

Datenschema

Das Datenschema umfasst mehr als 120 Variablen, die verschiedenen Elementen zugeordnet sind. Die klinischen Daten können nicht in einer einfachen „Rechtecktabelle“ wiedergegeben werden, da sie zum Teil komplexe Krankheitsverläufe abbilden. Im klinischen Datensatz sind die Daten daher in einem verschachtelten XML-Schema strukturiert.

Der klinische Datensatz wird durch folgende Elemente gegliedert:

  • Die Person bildet die grundlegende Einheit im Datensatz.
  • Der Person zugeordnet ist mindestens ein Element Tumor.
  • Das Element Tumor enthält ein verpflichtendes Element Primärdiagnose. Dieses enthält u. a. Angaben zum Tumorstadium, zur Histologie und Lokalisation des Tumors.
  • Darüber hinaus sind dem Element Tumor mehrere optionale Elemente zugeordnet, in denen Angaben zur Behandlung (Elemente OP, ST und SYST) und zu Folgeereignissen (Element Folgeereignis) wie Remissionen und Rezidiven erfasst werden können.

Bestimmte Variablen sind Pflichtangaben, z. B. das Geburtsdatum, der Inzidenzort und der Diagnoseschlüssel. Viele Angaben sind optional, z. B. die den Elementen cTNM und pTNM zugeordneten Variablen (T-Kategorie, UICC-Stadium, m-Suffix usw.). Einige Angaben sind nur unter der Bedingung verpflichtend, dass das übergeordnete, optionale Element verwendet wird: Beispielsweise ist das Element Histologie optional. Wird jedoch in der zugehörigen Variable Morphologie ein Eintrag vorgenommen, ist auch eine Angabe zum Grading verpflichtend. Angaben zur Zahl untersuchter Lymphknoten bleiben optional.

Bei Auswertungen ist zu beachten, dass optionale Inhalte möglicherweise nicht gleichermaßen aus allen Bundesländern vorliegen.

Die Elemente Primärdiagnose, Folgeereignis, OP, ST und SYST können mehrfach verwendet werden, so dass auch komplexe Krankheitsverläufe abgebildet werden können. Die Inhalte eines Elements können in ein tabellarisches Format überführt und über eine fallbezogene Nummer mit anderen Tabellen aus dem Datensatz verknüpft werden. Auf diese Weise entsteht ein auswertbares Format, in dem die bewilligten Daten an den Datenempfänger übermittelt werden können..

Abbildung: Vereinfachtes Datenschema (mit ausgewählten Variablen). Quelle: krebsdaten.de.

Abbildung: Vereinfachtes Datenschema (mit ausgewählten Variablen). Quelle: krebsdaten.de.

Downloads

Das Datenschema wird in verschiedenen Formaten zum Download angeboten:

Datei Beschreibung Download
XML-Schema Die XML-Schema-Definition .xsd als eindeutige, vollständige und maschinenlesbare Repräsentation des gesamten Schemas mit allen Details. 💾
XLSX-Schema Variablen und mögliche Ausprägungen in tabellarischer Darstellung als .xlsx. 💾
TXT-Schema Variablen und mögliche Ausprägungen in stark vereinfachter textueller Darstellung zur erleichterten Erkennung von Änderungen. 💾
PDF-Schema (Abbildung) Die grafische Darstellung des XML-Schemas als .pdf. Aufgrund der Komplexität des Gesamtschemas sind nicht alle Elemente abgebildet. Hinweise zur Notation des XML-Schemas sind hier zu finden. 💾
PDF-Schema (Liste) Optisch gestaltete und "druckerfreundliche" Kurzübersicht zu Variablen und möglichen Ausprägungen als .pdf. 💾

XML-Schema des Datensatzes

Eine vollständige und maschinenlesbare Repräsentation des gesamten Datenschemas mit allen Details wird über das XML-Schema bereitgestellt.

XML (Extensible Markup Language)-Schemata definieren den erlaubten Aufbau der ihnen zugeordneten XML-Dokumente. XML ist eine Auszeichnungssprache mit definierter Struktur und Syntax. XML-Dokumente sind textbasiert und repräsentieren Daten in einer hierarchischen und strukturierten Weise. Der Hauptzweck von XML besteht darin, Daten so zu beschreiben, dass sie sowohl für Menschen als auch für Maschinen leicht verständlich und interpretierbar sind.

Ein XML-Schema, oft auch als XSD (XML Schema Definition) bezeichnet, bietet einen Rahmen zur Beschreibung der Struktur und Datentypen eines XML-Dokuments. XML-Schemata legen fest, welche Elemente und Attribute in einem XML-Dokument erscheinen können, wie diese strukturiert und organisiert sind und welche Datentypen sie enthalten können. XML-Schemata können dazu verwendet werden, um XML-Dokumente zu validieren. Hierbei wird überprüft, ob ein XML-Dokument der im Schema definierten Struktur entspricht.

Detaillierte technische Informationen zum abgestimmten XML-Schema sind auf der Internetseite der Plattform § 65c abrufbar (bis Version 3.0.0.8a_RKI).

Protokollierte Änderungen am Datenschema sind in den beigefügten Release Notes der Versionen zu finden.

Abbildung: Übersicht zum XML-Schema des klinischen Datensatzes Die obenstehende Abbildung veranschaulicht die Struktur des klinischen Datensatzes.

Abbildung: Übersicht zum XML-Schema des klinischen Datensatzes. Quelle: eigene Darstellung.

Klassifikationen

Die im Datenschema verwendeten Klassifikationen erfahren regelmäßige Änderungen. Damit die jeweiligen Arbeitsstände in automatisierten Prozessen abgerufen werden können, sind die Klassifikationen in einem eigenen, englischsprachigen Repository zur Verfügung gestellt. Die dem Datenschema entsprechenden Referenztabellen sind im Repository unter docs/readme-tables.md verfügbar.

https://gitlab.opencode.de/robert-koch-institut/zentrum-fuer-krebsregisterdaten/cancerdata-references

Beispieldaten

Um die beim ZfKD beantragbaren Daten praktisch einschätzen zu können werden konforme Beispieldaten zur Verfügung gestellt, und können in Form einer transportablen Datenbank abgerufen werden. Die Struktur dieser Beispieldaten ist exakt deckungsgleich mit den klinischen Krebsregisterdaten. Eine detaillierte Darstellung der dazu verwendeten Tabellen und Relationen erklärt, wie die Daten verknüpft werden können.

https://gitlab.opencode.de/robert-koch-institut/zentrum-fuer-krebsregisterdaten/cancerdata-generator

Metadaten

Zur Erhöhung der Auffindbarkeit sind die bereitgestellten Daten mit Metadaten beschrieben. Über GitHub Actions werden Metadaten an die entsprechenden Plattformen verteilt. Für jede Plattform existiert eine spezifische Metadatendatei, diese ist im Metadatenordner hinterlegt:

Metadaten/

Versionierung und DOI-Vergabe erfolgen über Zenodo.org. Die für den Import in Zenodo bereitgestellten Metadaten sind in der zenodo.json hinterlegt. Die Dokumentation der einzelnen Metadatenvariablen ist unter https://developers.zenodo.org/#representation nachlesbar.

Metadaten/zenodo.json

In der zenodo.json ist neben dem Publikationsdatum ("publication_date") auch der Datenstand in folgendem Format enthalten (Beispiel):

  "dates": [
    {
      "start": "2023-09-11T15:00:21+02:00",
      "end": "2023-09-11T15:00:21+02:00",
      "type": "Collected",
      "description": "Date when the Dataset was created"
    }
  ],

Hinweise zur Nachnutzung der Daten

Offene Forschungsdaten des RKI werden auf Zenodo.org, GitHub.com, OpenCoDE und Edoc.rki.de bereitgestellt:

Lizenz

Der Datensatz "Bundesweiter klinischer Krebsregisterdatensatz - Datenschema und Klassifikationen" ist lizenziert unter der Creative Commons Namensnennung 4.0 International Public License | CC-BY 4.0 International.

Die im Datensatz bereitgestellten Daten sind, unter Bedingung der Namensnennung des Robert Koch-Instituts als Quelle, frei verfügbar. Das bedeutet, jede Person hat das Recht die Daten zu verarbeiten und zu verändern, Derivate des Datensatzes zu erstellen und sie für kommerzielle und nicht kommerzielle Zwecke zu nutzen. Weitere Informationen zur Lizenz finden sich in der LICENSE bzw. LIZENZ Datei des Datensatzes.

About

Das Repository liefert Informationen zu Entstehung und Struktur des bundesweiten klinischen Krebsregisterdatensatzes des ZfKD. Der Datensatz ist nicht öffentlich zugänglich, kann aber auf Antrag für wissenschaftliche Forschungszwecke genutzt werden.

Topics

Resources

License

Stars

Watchers

Forks

Contributors 7