Tauchgänge im tiefen Web

27. Februar 2009, 15:02
posten

Auch wenn Atlantis ein Mythos bleibt, sollen die verborgenen Tiefen des Web besser erschlossen werden. Denn Suchmaschinen kratzen derzeit nur etwa ein Drittel des gesamten öffentlichen Informationsbestandes.

Vor ein paar Tagen schien ein der großen Geheimnisse der Menschheit enträtselt: Nachdem Google Earth die Topografie der Meeresböden in seine Karten einbezog, vermeinte ein britischer Luftfahrtsingenieur die Spuren von Atlantis westlich von Afrika entdeckt zu haben (Bild). Das geometrische Muster, das die von Plato beschriebene mythische Stadt sein sollte, führte zu einer Welle an Internet-Postings. Die Erklärung ist jedoch profaner: Es sind Artifakte, die beim Abtasten des Meeresbodens durch Sonar entstehen, erklärte der für Meere verantwortliche Google-Manager Steve Miller der New York Times.

"Atlantis"

Das Echo der Sonare bietet genauere Daten, aber sie erzeugen eine Art Gittermuster der Abtastbewegung; durch den Abgleich mit weniger genauen Satellitendaten werden diese üblicherweise geglättet. Nur dort, wo "Atlantis" hätte sein sollen, "stimmten die Bilder nicht genau überein", sagte Miller.

Aber auch wenn sich in den Tiefen des Webs keine versunkene Insel finden lässt, die größten Informationsschätze sind noch verborgen. Zwar indizierte Google im Vorjahr die billionste Seite, und die Suchroboter von Yahoo und Microsoft durchwühlen Tag für Tag ähnlich große Datenberge.

Aber die Crawlers und Spiders, die Webseiten durchforsten, kratzen bestenfalls das obere Drittel der öffentlichen Inhalte des Internets, schätzen Experten. Millionen von an das Web angeschlossene Datenbanken, wie Flugdaten, Hotelbuchungen, Museumskataloge, Forschungsergebnisse oder Finanzinformationen, können von den Suchrobotern nicht erfasst werden. Der billigste Flug von A nach B, das billigste Hotel, der günstigste Handytarif, die Inhalte von Katalogen: All diese Antworten erschließen sich nur dem, der präzise Fragen zu stellen vermag.

"Deep Peep"

Viele Suchende kennen dies, etwa wenn sie einen Flug buchen wollen: Dann ist es nötig, die jeweilige Airline-Seiten aufzusuchen, um Auskunft zu erhalten. Oder sich eines speziellen Dienstes zu bedienen (wie Expedia oder Checkfelix), der seinerseits eine Maske für die Suchabfrage anbietet, und diese parallel an mehrere Sites abschickt und die Ergebnisse in einer Ansicht zusammenfasst. Klassische Suchmaschinen wie Google scheitern jedoch an solchen Aufgaben.

Eine Reihe von Projekten versucht sich mit Tauchgängen in diesen Informationsmeeren: Google Deep Web; Kosmix (ein von Amazon-Chef Jeff Bezos finanziertes Startup); "Deep Peep" an der Universität Utah.

Im Kern folgen diese Projekte einem ähnlichen Ansatz: Stößt ein Suchrobot auf ein Datenbankformular (das von normalem Text auf Webseiten unterschieden werden kann), versucht das Programm deren Inhalt durch Analyse des Umfelds zu erfassen. Dann beginnt die Suchmaschine zu raten und bombardiert die Datenbank mit passenden Stichwörtern (etwa bei einer Kunstdatenbank "Van Gogh", "Cezanne", "Picasso" usw.), bis aus den Antworten die Inhalte rekonstruieren können.

Webseiten eröffnet dies neue Möglichkeiten. Zu Gesundheitsartikeln in Medien könnten Links zu den Daten in Gesundheitsdatenbanken hergestellt werden, bei Reiseberichten könnten die billigsten Flug- und Hotelangebote gehoben werden. "Im Kern geht es um die Verbindung auseinander liegender Information", zitiert die New York Times dem Computerwissenschafter Mike Bergmann, der den Begriff "Deep Web" kreiert hat. (spu)

 

Share if you care.