Herkunft der Daten | URL Auskunft

URLauskunft.de ist ein Hobbyprojekt aus dem Bereich Information-Retrieval. Durch das Erfassen der Startseiteninhalte von möglichst vielen Domains versuche ich Fragestellungen rund um den Qualitätszustand des deutschsprachigen Internets zu beantworten. Die dabei anfallenden Daten möchte ich interessierten Besuchern hier kostenlos zur Verfügung stellen.

Herkunft / Datenquellen

Einige Daten werden von URLauskunft.de im Rahmen eines normalen Crawlings erhoben, einige zusätzliche Daten werden über externe Dienstleister bereitgestellt.

Die Daten werden nach besten Wissen und Gewissen erhoben und ausgewertet - dennoch können Fehler passieren. Wenn Sie nicht möchten, das eine bereits erstellte Auswertung weiterhin angezeigt wird, können Sie uns am besten über den "Entfernen Link" am Ende der jeweiligen Auswertung erreichen. Dadurch erhalten wir direkt alle notwendigen Informationen.

Eigene Aufrufe von Webseiten

Wir rufen für ausgewählte Domains die Startseite auf. Sofern vorhanden wird ebenfalls das Favicon sowie die robots.txt Datei geladen und ein Bildschirmfoto angefertigt. Die Software von Urlauskunft.de lädt keine weiteren Inhalte von den einzelnen Domains. Im Zuge des Verbindungsaufbaus werden auch die DNS Informationen der jeweils untersuchten Domain angefragt.

Die Daten werden etwa quartalsweise aktualisiert. Dies bedeutet, dass eine Domain ca. 4 x pro Jahr auf der Startseite vom URLauskunft Crawler besucht wird.

Externe Daten zum Online-Marketing und Betreiber

Über die API von Manhattan-Tool wird URLauskunft mit Daten zu Suchmaschinen-Rankings und Anzeigenschaltungen versorgt. Über die API von Manhattan werden ebenfalls die Daten zum Betreiber der Webseite erhoben.

Social Media Daten (Anzahl Likes & Shares)

Daten zu den Shares und Likes werden über die jeweiligen APIs von Twitter, Facebook und Google+ bereit gestellt. Dabei wird die URL der Startseite geprüft. Diese kann, sofern Umleitungen erfolgen, vom reinen Domainnamen abweichen.

Fehler in der Auswertung

Fehler in einer Auswertung sind möglich. Manchmal sind Adressen unvorteilhaft aufgebaut, z.B. mit schlecht zu erkennender Session ID. In diesem Fall würde dann z.B. für die falsche Unterseite bei den Sozialen Netzwerken nach der Anzahl an Likes gefragt. Bei Seiten die rein aus einem Frameset bestehen wird die Seite bei nahezu jedem Test versagen, da Framesets nicht weiter verfolgt werden.

Die Software wird kontinuierlich weiterentwickelt. Mit neuen Versionen und frischen Daten werden jeweils viele Fehler ausgebessert. Wenn Sie die Anzeige eines Eintrags unterbinden möchten, dann nutzen Sie bitte den "Entfernen Link" am Ende des jeweiligen Seitenreports.

Verwendung der gezeigten Daten

Grundsätzlich sind alle gezeigten Daten frei und kostenlos nutzbar. Ihr könnt aus den gezeigten Seiten PDFs, Screenshots, Text-Kopien oder sonstwas anlegen. Auch die Screenshot könnt ihr frei verwenden. Sofern sich eure Crawler benehmen könnt ihr die Seiten auch Scrapen. Eine bitte habe ich jedoch: egal wie ihr dabei vorgeht, bitte nicht wie Irre auf den Server einhämmern. Wenn ihr Interesse an den Endergebnissen in größerer Zahl habt, kontaktiert mich bitte vorab.

Wenn Ihr Erkenntnisse in euren Projekten weiterverarbeitet, würde ich mich über eine Erwähnung freuen.