Landesbetrieb IT.NRW
Statistik und IT-Dienstleistungen  

Experimentelle Statistik – Neue Methode

Kerndichteschätzer zur Veröffentlichung von Karten mit georeferenzierten Daten der amtlichen Statistik

Die Methode der Kerndichteschätzung wird als alternatives Verfahren zur Geheimhaltung von georeferenzierten amtlich-statistischen Daten erprobt.

Ziel des Projekts

Durch die Speicherung des geografischen Bezugs amtlich-statistischer Daten (in geografischen Gitterzellen) eröffnet sich ein großes Potenzial für eine anschauliche Präsentation von Informationen auf kleinräumiger Ebene in Kartenform. Die bislang gängigen Methoden zur Sicherstellung der statistischen Geheimhaltung, wie z. B. die Zellsperrung, führen jedoch häufig dazu, dass ein größerer Teil der Gitterzellen vor der Veröffentlichung gesperrt werden muss. Gegebenenfalls führt dies zu freien Flächen in der Kartendarstellung. Aus Sicht der Nutzerinnen und Nutzer amtlich-statistischer Daten ist dies oftmals unbefriedigend.

Ziel dieses Projektes ist es, mit der Kerndichteschätzung (KDE) eine neue Methode für die Geheimhaltung kleinräumiger Daten auf Basis von Gitterzellen als Alternative zur Geheimhaltung durch Zellsperrung zu erproben. Damit soll eine Veröffentlichung von Karten ermöglicht werden, in denen Einzelangaben geschützt sind, ohne die Informationen in einer Vielzahl von Zellen sperren zu müssen.

Die an­imierte Grafik zur Ver­ortung von Nieder­lassungen zeigt an­schaulich den In­for­mations­gewinn, den eine Karte auf Basis einer KDE gegenüber einer Karte generieren kann, bei der gering besetzte Zellen gesperrt werden müssten, um Einzelangaben zu schützen.

Das Angebot der amtlichen Statistik an kleinräumigen Daten zur Weiterverarbeitung und Visualisierung in intuitiv interpretierbaren Karten soll mittels dieser Methode perspektivisch ausgeweitet werden.

Im Gegensatz zur bislang als Methode zur Sicherstellung der statistischen Geheimhaltung von georeferenzierten Daten angewendeten Zellsperrung werden bei einer Kerndichteschätzung nicht die einzelnen Datenpunkte in einer Gitterzelle gezählt. Stattdessen wird jeder Gitterzelle ein Volumenwert – die sogenannte „Kerndichte“ einer Gitterzelle – zugewiesen. Die Kerndichte korrespondiert dabei mit der tatsächlichen Anzahl an Datenpunkten innerhalb und in der unmittelbaren Nähe (innerhalb einer definierten Bandbreite) der jeweiligen Gitterzelle. Da keine expliziten Originalfallzahlen ausgewiesen werden, können Einzelangaben von Personen oder Unternehmen auf diese Weise geschützt werden, ohne dass eine Sperrung von Gitterzellen notwendig ist. Anschließend werden die Werte in einen Farbcode übersetzt. Anhand des Farbtons und seiner Intensität in der Gitterzelle lassen sich in den für unser Anwendungsbeispiel erstellten Karten regionale Verdichtungen von Niederlassungen auf einen Blick identifizieren (visualisiert in der animierten Grafik oben). Insbesondere enthält jede Gitterzelle eine Information bzgl. der Anzahl an Niederlassungen.

Im Projekt werden unterschiedliche Kernfunktionen und Darstellungsmöglichkeiten (Größe der Gitterzellen, Klassifikationen der Merkmale) sowie eine Variation des Verfahrensparameters „Bandbreite“ im Hinblick auf die Vorgaben zur Sicherstellung der Geheimhaltung, den höchstmöglichen Informationsgehalt der Karten sowie möglichst optimaler Weiterverarbeitungsmöglichkeiten der Ergebnisse erprobt.

Detaillierte Informationen zur Methodik der Kerndichteschätzung sowie eine Diskussion zu möglichst optimalen Darstellungsformaten finden Sie hier.

Daten des Unternehmensregisters, Berichtsjahr 2019, in geografischen Gitterzellen nach den INSPIRE-Vorgaben