Promotion - entgeltliche Einschaltung

Bessere Prognosemöglichkeiten durch aktuellere Daten

4 Postings

Mag. Manuela Lenk (Statistik Austria) über Herausforderungen der Datenauswertung für die kommende Registerzählung

Die Volkszählung im nächsten Jahr wird nicht mehr als Fragebogenerhebung durchgeführt, sondern als Registerzählung. Aus über 40 Datenbanken werden anonymisierte Daten an die Statistik Austria zur Auswertung geliefert – in strukturierten oder unstrukturierten Dokumenten. Aus diesem Berg von Informationen müssen die relevanten Daten, so genannte Merkmale, für die Analysen gewonnen werden.

Frage: Wie ist der Vorbereitungsstand für die Registerzählung im kommenden Jahr?

Manuela Lenk: Das Registerzählungsgesetz sah mit dem Stichtag 31.10.2006 eine Probezählung vor. Die ist wie die Registerzählung als Vollerhebung gelaufen. Das Ziel war es, das Instrument Registerzählung zu evaluieren und festzustellen, ob es überhaupt funktioniert. In nordischen Ländern dauerte der Übergang von der Volkszählung zur Registerzählung bis zu 30 Jahre. In Österreich haben wir den Turbo eingeschaltet.

Mit der Probezählung haben wir die entsprechenden Datenbanken aufgebaut. Im Abschlussbericht an die Bundesregierung konnten wir berichten, dass sich das Instrument bewährt hat und wir die Volkszählung 2011 als Registerzählung durchführen können.

Da die Ergebnisse sehr gut waren, hat sich in einem zweiten Schritte ergeben, dass die Daten bereits für den Finanzausgleich herangezogen werden. Das heißt, wir machen jedes Jahr eine so genannte Mini-Registerzählung, in der wir die Bevölkerungszahl feststellen. Das ist das wichtigste Ergebnis, mit dem der Finanzausgleich vom Bund an die Länder und Gemeinden erfolgt.

Frage: Aus welchen Quellen erheben Sie die Informationen?

Manuela Lenk: Bei der Registerzählung erheben wir alle Merkmale, die wir auch bei traditionellen Volkszählungen erheben. Da geht es um Informationen zur Erwerbstätigkeit, zu Familien und Wohnungen. Wir haben acht Basisregister, zum Beispiel das Zentrale Melderegister, das Register des Hauptverbandes der Sozialversicherungsträger, das AMS, das Unternehmensregister, das Gebäude- und Wohnungsregister. Daneben gibt es kleinere Vergleichsregister. Insgesamt sind es über 40 Datenquellen. Das ist natürlich eine große Herausforderung. Um den Datenlieferanten das Leben zu erleichtern, schreiben wir kein bestimmtes Datenformat vor. Wir haben ganz kleine Datenlieferanten, zum Beispiel Krankenfürsorgeanstalten, die nur 90 Personen melden. Da können wir nicht verlangen, dass die Daten in ein bestimmtes Format gebracht werden.

Frage: In welchen Formaten liegen die Daten vor?

Manuela Lenk: Das sind die unterschiedlichsten Formate. Wir bekommen Excel-, TXT- oder CSV-Dateien. Vorgegeben ist nur, welche Merkmale zu liefern sind. Wir lesen die Daten ein und bringen sie in eine gemeinsame Form. Wir schlagen den Datenlieferanten natürlich schon vor, einfache Daten, wie zum Beispiel das Merkmal Geschlecht, mit 1 und 2 zu codieren. Die großen Datenlieferanten, von denen wir jedes Jahr Daten erhalten, schicken standardisierte TXT- oder CSV-Dateien, die automatisiert verarbeitet werden. Wir müssen aber alle Dateien betreuen, unabhängig davon, ob fünf Millionen Menschen drin sind oder nur 90.

Frage: Wie werden die Daten zusammengeführt?

Manuela Lenk: Das ist ein ganz wichtiger Punkt, denn hier geht es vor allem auch um den Datenschutz. Bei der Registerzählung erheben wir keine Namen und haben keine Identifikationsmöglichkeit von Einzelpersonen. Das Registerzählungsgesetz schreibt vor, dass wir mit bereichsspezifischen Personenkennzeichen (bPK) arbeiten müssen. Der Datenlieferant hat in seiner Datenbank die Personen mit Identitätsdaten. Das sendet er an die Datenschutzkommission, die mit dem Zentralen Melderegister die Personen identifiziert. Die Stammzahl wird mit einem komplizierten Algorithmus verschlüsselt und als bPK aufgebracht. Wir erhalten die Daten anonymisiert mit verschlüsselter bPK, die nicht rückführbar ist. Diese bPK verwenden wir als Unique Key, mit dem wir die Daten zusammenführen. Für eine solche Datenbank braucht man einen Unique Key.

Frage:: Welche Methoden wenden Sie für die Auswertung der Daten an?

Manuela Lenk: Im ersten Schritt bekommen wir die Rohdaten. Wir lesen sie in ein einheitliches Format ein. Im nächsten Schritt werden die Merkmale standardisiert umgewandelt und in die Datenbank eingebracht. Das Herz ist eine DB2-Datenbank, mit der wir die referentielle Integrität gewährleisten. Die Analysen machen wir mit der Statistik-Software SAS. Ganz vorsichtig geschätzt haben wir für die Probezählung ungefähr 41 Millionen Datenzeilen verarbeitet. Die Größe unseres Speichers würde ich auf 3 bis 4 Terabyte schätzen.

Was uns von anderen Registerzählungsländern unterscheidet, ist das Prinzip der Redundanz. Wir erhalten die Informationen mehrfach aus verschiedenen Quellen. Wir bilden Regeln, wir überlegen uns, aus welchem Register kommt die Information? Wir arbeiten mit Prioritäten. Prinzipiell kann man sagen in Verwaltungsregistern sind die Merkmale gut, die für die Verwaltungshandlung besonders wichtig sind, auf die kann man sich nahezu 100-prozentig verlassen.

Frage: Welche Cluster verwenden Sie für die Auswertung?

Manuela Lenk: Die Hierarchisierung auf Regionalebene ist wichtig. Volkszählungen sind die einzigen Erhebungen, die auf tief regionaler Ebene ausgewertet werden können. Andere Erhebungen wie der Mikrozensus sind bundeslandrepräsentativ.

Wir haben drei wichtige Punkte: die Volkszählung, die Gebäude- und Wohnungszählung und die Arbeitsstättenzählung. Das sind die drei Erhebungsgegenstände der Registerzählung. Das verbindende Element ist das Gebäude- und Wohnungsregister. Dort sind alle Objekte und Wohnungen mit einem numerischen Key enthalten. Das heißt, die Wohnung einer Person mit deren numerischen Key finde ich ebenso im Gebäude- und Wohnungsregister wie die Arbeitsstätte. Das Zentrale Melderegister ist unser Rückgrat für die Bevölkerungszahl, die die wichtigste Zahl unserer Erhebung ist.

Frage: Erwarten Sie sich durch die Registerzählung genauere Daten oder aktuellere Daten als mit einer Fragebogenerhebung?

Manuela Lenk: Der Punkt ist, dass wir imstande sind, nicht nur alle zehn Jahre die Daten zur Verfügung zu stellen, sondern jedes Jahr. Die Erwerbsstatistik zum Beispiel können wir bereits jährlich zur Verfügung stellen. Das ist ganz wichtig, was zum Beispiel Pendlerdaten betrifft. Pendlerdaten hat es immer nur zehnjährig gegeben.

Frage: Das Ziel ist Echtzeitdatenerhebung?

Manuela Lenk: Von Echtzeitdaten sind wir weit entfernt, weil wir die Daten, die wir benötigen, teilweise erst ein Jahr später zur Verfügung gestellt bekommen. Wir haben einen Time Lag von zirka 18 Monaten. Mit dem Qualitätsanspruch, den wir im Moment haben, geht es nicht schneller. Man kann sich vielleicht überlegen, mit geeigneten Schätzverfahren Datenquellen zu substituieren, aber es wird sicher nicht die gleiche Qualität sein wie jetzt.

Frage: Welche Rolle spielt die Qualitätssicherung?

Manuela Lenk: Qualitätssicherung ist ein ganz wichtiges Thema. Für Erhebungen wie den Mikrozensus, der eine Stichprobenerhebungen ist, gibt es gute Qualitätsindikatoren. Für die Registerzählung gibt es keinen herkömmlichen Standard. Wir entwickeln eine eigene Qualitätssicherung für die Durchführung von Statistiken, die auf Verwaltungsdaten basieren. Da sind wir international federführend tätig und schauen, dass wir spezielle und eigene Qualitätsindikatoren erstellen und entwickeln.

Frage: Was sind das für Qualitätsindikatoren?

Manuela Lenk: Da geht es um die Qualitätsbeurteilung der Verwaltungsdaten, um das zu evaluieren, was wir generiert haben. Unsere Daten werden intensiv genutzt – von politischen Stellen, vor allem aber auch von Wissenschaft und Forschung. Ziel ist, dass die Datennutzer einschätzen können, wie hoch die Qualität dessen ist, was wir Ihnen bereitstellen.

Frage: Wo erwarten Sie Schwierigkeiten mit der Registerzählung im nächsten Jahr?

Manuela Lenk: Ich erwarte, auch aufgrund der Probezählung, keine großen Schwierigkeiten. Vor eine Herausforderung stellt uns allerdings beispielsweise der Bereich Familienstatistik. Aus synthetischen Merkmalen, Familien zu generieren, ist nicht trivial. Nehmen Sie zum Beispiel eine Patchwork-Familie: Wenn beide den Familienstand verheiratet haben und in einem Haushalt leben, dann nehme ich an, dies ist ein verheiratetes Paar mit Kind. Aber wenn die nicht miteinander, sondern mit anderen Partnern verheiratet sind, wäre es eine Lebensgemeinschaft. Das erkenne ich aus den Daten nicht. Das sind natürlich keine großen Unschärfen, aber sie sind da. Unser Fokus liegt darauf, geeignete Verfahren zu entwickeln, um die Unschärfen so klein wie möglich zu halten. Das ist eine große Herausforderung.

Frage: Gibt es bessere Prognosemöglichkeiten über gesellschaftliche Entwicklungen durch die Registerzählung?

Manuela Lenk: Die gibt es auf jeden Fall. Nehmen Sie die Erwerbsstatistik, die wir jetzt jährlich durchführen können. Auf tiefer regionaler Ebene ergeben sich Prognosemöglichkeiten und wichtige Informationen für Entscheidungsträger, die man vorher so nicht gesehen hat, da man die Daten nur alle zehn Jahre zur Verfügung hatte.

  • Mag. Manuela Lenk ist Bereichsleiterin Registerzählung in der Direktion 
Bevölkerung der Statistik Austria
    foto: statistik austria

    Mag. Manuela Lenk ist Bereichsleiterin Registerzählung in der Direktion Bevölkerung der Statistik Austria

Share if you care.