Auf der Suche nach den verborgenen Mustern

5. Dezember 2014, 19:28
posten

Vom Onlinekauf bis zum Wetter: Hagenberger Forscher verbessern Prognosen auf Basis großer Datenmengen

Hagenberg - "Kunden, die diesen Artikel gekauft haben, kauften auch ..." - Das automatische Empfehlungssystem des Onlinehändlers Amazon schließt aus einer Vielzahl bisheriger Transaktionsdaten, welche Produkte die Besucher des Onlinestores interessieren könnten. Für Hilda Kosorus, Computerwissenschafterin am zur Johannes-Kepler-Universität gehörenden Institute of Application Oriented Knowledge Processing (FAW) im Softwarepark Hagenberg, ist eine solche automatische Empfehlung ein Ergebnis einer "sequenziellen Ereignisvorhersage".

Sequenzielle Daten können die Einkäufe von Kunden in einem Onlineshop, eine DNA-Sequenz in der Bioinformatik oder Behandlungsdaten eines Patienten sein. Mit der Bezeichnung wird eine beliebige Reihenfolge von Ereignissen zusammengefasst. Sie können, müssen aber nicht ein zeitliches Nacheinander abbilden.

Kosorus sucht in den Datenreihen nach bestimmten, möglichst aussagekräftigen Regelmäßigkeiten und Mustern. Sie sollen helfen, das den Daten zugrunde liegende Geschehen besser zu verstehen. Das Ziel sind möglichst exakte Vorhersagen. Kosorus hat nun einige Ideen für neue Hilfsmittel, die die Analyse von sequenziellen Daten verbessern sollen.

"Viele Forschungsarbeiten haben gezeigt, dass man Muster in Daten besser erkennen kann, wenn man zusätzliches Wissen miteinbezieht", so die Forscherin. Das Berücksichtigen solcher "semantischer Abhängigkeiten", die einen Kontext bereitstellen, würde im Fall eines Empfehlungssystems wie bei Amazon bedeuten, etwa Wohnort oder Geschlecht des Kunden mit in die Analyse aufzunehmen. Oder auch Kontext zum gekauften Produkt: etwa das Wissen, dass ein bestimmter Akku zu einem Notebook passt.

In einem neuen Projekt beschäftigt sich Kosorus mit medizinischen Sequenzdaten über Symptome, Diagnosen und die Reihenfolge von Behandlungen eines Patienten. "In diesem Fall lautet die Aufgabe, eine Vorhersage über einen zukünftigen Verlauf der Krankheit abzugeben", sagt Kosorus. Lebensbedingungen oder Ernährung des Patienten wären hier zusätzliches Wissen, das als Kontext mit den Basisdaten verbunden werden könnte. Ärzte sollen auf relevante Muster in den Daten aufmerksam gemacht werden, um ihre Behandlung auf zusätzliche Daten stützen zu können.

Eine Schwierigkeit bei ihren Analysen sei, nicht einfach nur die häufigsten und auffälligsten Muster zu erkennen, sondern die tatsächlich bedeutsamen - auch wenn diese vielleicht versteckt sind, erklärt Kosorus. "Wenn jemand immer Brot und Milch zusammen einkauft, ist das nicht interessant." Interessant wäre vielleicht, wenn Kunden, die kein Brot kaufen, auch gewissen Milchprodukten aus dem Weg gehen.

Ein Werkzeug, das der Wissenschafterin bei ihrer Arbeit hilft, ist den meisten Computeranwendern bekannt: Datenkompression - Programme, die größere Datenmengen zu kleineren Paketen zusammenfassen, ohne dass vom ursprünglichen Informationsgehalt etwas verlorengeht. Die dahinterliegende informationstheoretische Methode, auf die Kosorus zurückgreift, nennt man Minimum Description Length (MDL). "Je mehr Regelmäßigkeiten in den Daten sind, desto besser kann ich sie komprimieren. Die beste Beschreibung für eine Datenmenge ist also jene, die die Daten am besten komprimiert", sagt die Forscherin. "Es ist dasselbe Prinzip."

Kein Spionage-Tool

Gibt solche Forschung Unternehmen nicht noch bessere Methoden in die Hand, um ihre Kunden auszuspionieren? "Bei mir geht es nicht um Wirtschaft, sondern darum, Benutzern zu helfen. Wo meine Methoden eingesetzt werden, kann ich nicht beeinflussen", so Kosorus. Einerseits könnte die Datenanalyse für personalisierte Werbung im Netz eingesetzt werden, andererseits könnte sie auch die Wettervorhersage verbessern. Gerade das sei, sagt Kosorus, aber "sehr komplex". (pum, DER STANDARD, 3.12.2014)

  • Hilda Kosorus (28) verbessert Analysen großer Datenmengen.
    foto: privat

    Hilda Kosorus (28) verbessert Analysen großer Datenmengen.

Share if you care.