XING kauft einen Bot


Anfang des Jahres kauf XING für über 6 Millionen Euro ICJobs und somit einen Bot / Crawler, der, so liest man zumindest, Stellenangebote indiziert.

Was macht der Bot?

Was auch immer dieser 6 Millionen schwere Bot macht, ist nicht einfach zu sagen. Er indiziert Webseiten, soviel steht fest. Was er genau auf diesen sucht, erklärt Jobbörse selbst wie folgt:

Das Geheimnis hinter Jobbörse.com ist ein neues semantisches und hocheffizientes Analyse-Verfahren, welches Daten beim Crawlen in strukturierter Form extrahiert. Der iCcrawler arbeitet damit formatunabhängig und äußerst traffic-schonend. So lassen sich sowohl das Surface Web, als auch das Deep Web durchsuchen. Selbstverständlich arbeiten wir an intelligenten Matchingverfahren, um Bewerber und Unternehmen noch besser zusammenzuführen.

Das Deep Web könnte also auch nach Jobs durchsucht werden!? Warum sollte man das tun? Werden irgendwo Jobs als Waffenhändler ausgeschrieben?

Laut der Pressemitteilung vom Januar werden »aktuell« 15 Millionen Seiten durchsucht, was ca. dem aktuellen Stand an .de Domains entspricht. Das Surface Web ist also gerade mal angekratzt und man spricht schon vom Deep Web?

»Hocheffizient« und »semantisch« ist es also noch dazu.

In der Realität sieht das allerdings anders aus …

Was macht er nicht … die Realität

Als Referenz haben wir uns mal eine Seite angesehen, die auch in der Tat Stellenangebote enthält.

Ingesamt hat der jobbörse Bot an einem Tag hier nahezu 5000 Dateien indiziert, die Stellenangebote hat er aber bis heute nicht gefunden, obwohl diese relativ einfach zu finden sind: Stellenangebote in der URL, im Titel, im H1 Tag und natürlich diverse Hinweise im Content selbt, das es sich hierbei um ein Stellenangebot handelt (»Ausbildungsplatz«, »Bewerbung« usw. usw.). Etwas das sogar ein nicht JS fähiger Crawler ohne Probleme finden dürfte.

»Hocheffizient« und »semantisch« klingt das nicht, oder? Es erinnert mich an den Witz mit dem Jäger und dem Bär, wo der Bär am Ende sagt »Zum Jagen bist Du aber nicht hier, oder?«.

Gutes Benehmen

Auch wenn sich die Besuche des Bots einfach identifzieren lassen, fehlt leider ein Link zu mehr Informationen. Als User Agent ist lediglich

Mozilla/5.0 (X11; U; Linux Core i7-4980HQ; de; rv:32.0; compatible; Jobboerse.com; http://www.xn–jobbrse-d1a.com) Gecko/20100401 Firefox/24.0

gesetzt und auf der Seite www.jobboerse.com findet man keinerlei technische Informationen.

Fragt man Google lässt sich zumindest das alte Dokument für Webmaster finden, das allerdings, auch Monate nach der Übernahme durch XING, noch auf »ICCrawler - iCjobs« gemünzt ist.

Man sieht das er (der Bot) über unterschiedliche IP Adressen daher kommt, die scheinbar alle zum AS Bereich der PlusServer AG gehören. Beispiele für genutze IP Adressen sind: 188.138.41.208, 188.138.41.172 oder 85.25.236.93.

Eine Mail an [email protected] kommt nur mit einem Auto Reply zurück, der besagt, das die zuständige Dame gerade im Urlaub ist und Mails nicht weitergeleitet werden.

Schaut man sich die Facebook Seite von ICJobs an, findet man auch hier einen [Hinweis]((https://www.facebook.com/iCjobs/posts/838461552877041), das auch andere das Benehmen nicht ganz korrekt finden. Scheinbar bleiben aber solche Hinweise, wie auch meine E-Mail an den Support, unbeantwortet.

Technologie Fazit

Jobs bzw. Stellenanzeigen wollen gefunden werden. Niemand versteckt seine Stellenanzeigen, versieht sie mit einem Captcha oder ähnliches. Auch braucht man hier keine semantische Magie: Stellenanzeigen, Jöbbörse, Stellenangebote und ein paar mehr ähnliche Suchbegriffe sollten hier schnell zum Ergebis führen. Sind die entsprechenden URLs einmal gefunden, müssen eigentlich auch nur diese wieder indiziert werden. Der Jobbörse Bot hingegen indiziert alles noch einmal, auch die Unterseiten einer Webseite, die keine Stellenanzeigen aufweisen.

Um Berufe und Orte zu identifizieren bedarf es nicht mal NLP (Natural Language Processing), ein einfaches Dictionary (eine Liste aller bekannten Berufe und Orte) sollte zum Abgleich reichen.

Die Aufgabe klingt also nicht schwer und bedarf auch keiner bahnbrechenden Technolgie. Jeder Open Source crawler kann diese Aufgabe lösen. Um eine gewisse Menge an Seiten zu indizieren benötigt man ein paar Server und der Traffic will auch bezahlt sein, aber an sich lässt sich ein ähnlich gearteter Bot relativ schnell selber entwickeln.

Wenn man dann auch noch so manche Screenshots auf der jobbörse Seite sieht, die eine 404 Seite zeigen, die scheinbar nicht vom Bot als solche erkannt wird, wirft dies natürlich einige Fragen auf.

Fazit

Sparen sie sich den Traffic, den der jobbörse Bot generiert und setzen sie ihn vor die Tür.

User-agent: Jobboerse.com Disallow: /

Erst Recht, weil Jobboerse.com selbst auch jeden anderen Bot aussperrt