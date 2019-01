Auch wenn die Post einiges über uns weiß: Schätzungen über das Wahlverhalten von Individuen sind notwendigerweise mit großer Unsicherheit behaftet

Die Post weiß nicht nur, wo wir wohnen, sondern mitunter auch einige andere Dinge, die für alle Arten von zielgruppengenauer Werbung interessant sein könnten. Wie die Rechercheplattform "Addendum" ausführlich dokumentiert, kann man sogar Daten über Parteipräferenzen von Individuen bei der Post kaufen.

Natürlich weiß die Post nicht wirklich, wer welche Partei wählt (noch dazu können sich Parteipräferenzen ja von Wahl zu Wahl ändern). Sie kann aber aus den Daten, die sie hat (siehe etwa hier), Parteipräferenzen schätzen.

Wie kann man sich das vorstellen?

Zunächst wissen wir nicht genau, über welche Individualdaten die Post in welcher Menge und – vor allem – in welcher Qualität verfügt. Titel sagen zum Beispiel etwas über den Bildungsgrad aus, aber nicht alle Akademiker werden im Postverkehr mit ihrem Titel angeschrieben.

Dennoch: Nehmen wir an, die Post besitzt eine Reihe an einigermaßen validen Informationen über Millionen von Menschen in Österreich. Um daraus Parteipräferenzen einschätzen zu können, benötigt sie zusätzlich noch Umfragedaten, in denen dieselben Informationen plus abgefragter Parteipräferenzen vorhanden sind.

Mit diesen Umfragedaten kann man ein sogenanntes Regressionsmodell schätzen – im Prinzip nichts anderes als eine mathematische Gleichung mit der Parteipräferenz auf der linken Seite und allen relevanten Charakteristika der Befragten auf der rechten (so wie es hier schon einmal für den AMS-Algorithmus zur Klassifizierung von Jobchancen beschrieben wurde). Hat man diese Gleichung einmal aufgestellt (und verfügt man über Informationen, die einigermaßen gut mit dem Wahlverhalten korrelieren), kann man einfach die Werte aus der Datenbank in die umfragebasierte Gleichung einsetzen und bekommt so für jedes Individuum Wahrscheinlichkeitswerte für die Wahl jeder Partei ausgespuckt.

Vorhersagekraft nicht überschätzen



Man sollte aber die Vorhersagekraft solcher Verfahren nicht überschätzen. Ein Beispiel dazu: Nehmen wir an, wir möchten für eine Menge an Individuen die Affinität zur ÖVP ermitteln. Zunächst bauen wir mit den öffentlich verfügbaren Autnes-Umfragedaten von 2017 ein Regressionsmodell, das uns erklärt, ob eine Person die ÖVP (Wert 1) oder eine andere Partei (Wert 0) gewählt hat. In dieses Modell speisen wir folgende Charakteristika ein: Geschlecht, Alter, Bildungsgrad, berufliche Stellung, Haushaltseinkommen, Gewerkschaftsmitgliedschaft, Gottesdienstbesuch und Gemeindegröße.

Diese Daten haben mit hoher Wahrscheinlichkeit höhere Qualität als jene der Post (oder anderer Adresshändler), weil sie nicht auf Hochschätzungen von regionalen Aggregatdaten (etwa Kaufkraft einer Gemeinde) basieren, sondern auf direkter Befragung. Zudem enthalten sie Charakteristika, die kaum ohne Befragung ermittelbar sind, aber für das Wahlverhalten äußerst relevant (etwa Gottesdienstbesuch und Gewerkschaftsmitgliedschaft). Das Modell, auf dem die Parteipräferenz-Schätzungen der Post basieren, ist also mit großer Wahrscheinlichkeit gröber und daher weniger präzis als das hier präsentierte.

Sehen wir uns an, was unser Modell an Wahrscheinlichkeiten auswirft, und überprüfen wir, ob es überhaupt innerhalb derselben Befragungsdaten, auf denen es basiert, die ÖVP-Präferenz gut vorhersagen kann. Im Gegensatz zu dieser In-Sample-Vorhersage muss die Post eine (anspruchsvollere) Out-of-Sample-Vorhersage machen.

Die Grafik zeigt die Verteilung der vorhergesagten Wahrscheinlichkeiten der ÖVP-Wahl (in Bandbreiten von zehn Prozentpunkten) für die tatsächlichen ÖVP-Wähler und die Wähler anderer Parteien. In beiden Gruppen gibt es sehr große Varianz. Sowohl tatsächliche Türkis-Wähler als auch andere Wähler weisen eine extrem hohe Bandbreite an modellbasierten Wahrscheinlichkeiten auf, die ÖVP zu wählen.

Natürlich haben die (laut Umfrage) echten ÖVP-Wähler im Durchschnitt eine höhere vorhergesagte Wahrscheinlichkeit, die ÖVP zu wählen als die Nicht-ÖVP-Wähler (andernfalls wäre kein Charakteristikum in unserem Modell mit ÖVP-Präferenz korreliert). Aber ein gewisser Teil der Nicht-ÖVP-Wähler weist relativ hohe ÖVP-Wahlwahrscheinlichkeiten auf, während ein noch viel größerer Teil der ÖVP-Wähler sehr geringe Werte zugewiesen bekommt. Rund zwei Drittel (!) aller tatsächlichen Türkis-Wähler haben laut dem Modell vorhergesagte ÖVP-Wahlwahrscheinlichkeiten von unter 50 Prozent.

Was lernen wir daraus?

Ja, die Post kann aus ihren Datenbeständen eine Schätzung über die Parteipräferenzen von Individuen erstellen, die zumindest ein gutes Stück besser ist als pures Raten. Nach allem, was wir wissen, liegen der Post aber nicht allzu viele extrem stark mit Wahlverhalten korrelierte Variablen vor. Am wertvollsten ist wohl die Adresse selbst – immerhin wird im Tiroler Hinterhornbach ganz anders gewählt als im burgenländischen Tschanigraben. Diese Adressdaten stehen aber ohnehin allen Parteien über das Wählerverzeichnis zur Verfügung. Darüber hinaus ist die Vorhersagekraft des statistischen Modells zur Schätzung der Parteipräferenzen wohl begrenzt.

Bei der politischen Zielgruppenwerbung kocht die Post also auch nur mit Wasser.