Bester Crawler, um festzustellen, ob er mit Technologien gebaut wurde?


Joe Murray

Builtwith.com und ähnliche Dienste bieten (gegen Gebühr) Listen von Domains, die mit bestimmten Technologien wie SalesForce oder NationBuilder erstellt wurden. Es gibt einige Technologien, an denen ich interessiert bin, nach denen buildwith nicht sucht, wahrscheinlich weil sie eine zu geringe Marktpräsenz haben.

Wenn wir wissen, dass bestimmte Signaturen von Seiten, aus denen hervorgeht, dass eine Technologie für eine Website verwendet wird, wie können so viele dieser Websites am besten identifiziert werden? Wir erwarten, dass es 1000 gibt, und wir interessieren uns für diejenigen in den Top 10M-Sites nach Verkehr. (Wir glauben nicht, dass die größten Websites diese Technologie verwenden.)

Ich habe eine Liste von Open Source-Webcrawlern - http://bigdata-madesimple.com/top-50-open-source-web-crawlers-for-data-mining/ - aber mein Anwendungsfall scheint anders zu sein als viele der regulären Kriterien für Crawler, da wir nur "Treffer" von Domains mit dieser Signatur speichern möchten. Wir müssen also nicht schnell sein, aber wir müssen alle Seiten der Website überprüfen, bis ein Treffer gefunden wird. Verwenden Sie nur verantwortungsvolle Crawling-Methoden usw. Was ist am besten?

Oder anstatt einen Crawler zu optimieren und auszuführen, gibt es eine Möglichkeit, Google oder eine andere Suchmaschine dazu zu bringen, Seitenmerkmale zu finden, anstatt vom Benutzer sichtbare Inhalte, die ein besserer Ansatz wären?

Julien Nioche

Sie könnten tatsächlich einen Open-Source-Webcrawler optimieren. In dem von Ihnen geposteten Link wurden viele Ressourcen erwähnt. Wenn Sie jedoch diejenigen entfernen, die nicht verwaltet werden, und diejenigen, die nicht verteilt werden, bleiben Ihnen nicht viele übrig. Per Definition wissen Sie nicht, welche Sites die Signaturen enthalten, nach denen Sie suchen. Daher müssten Sie eine Liste der Top-10M-Sites erstellen und diese crawlen. Dies ist ein erheblicher Vorgang, der jedoch mit Tools wie z Apache Nutch oder StormCrawler (nicht in dem von Ihnen geposteten Link aufgeführt) [HAFTUNGSAUSSCHLUSS Ich bin ein Committer bei Nutch und der Autor von SC] .

Ein anderer Ansatz, der billiger und schneller wäre, wäre die Verarbeitung der CommonCrawl-Datasets . Sie stellen monatlich große Web-Crawling-Daten zur Verfügung und erledigen das Crawlen des Webs für Sie - einschließlich Höflichkeit usw. Natürlich haben ihre Datensätze keine perfekte Abdeckung, aber dies ist so gut, wie Sie es bekommen würden Wenn Sie den Crawl selbst ausführen würden. Dies ist auch eine gute Möglichkeit, Ihre ursprünglichen Annahmen und den Code zum Erkennen der Signaturen bei sehr großen Datenmengen zu überprüfen. Normalerweise empfehle ich, CC zu verarbeiten, bevor Sie mit einem Crawl in Webgröße beginnen. Die CC-Website enthält Details zu Bibliotheken und Code für deren Verarbeitung.

Was die meisten Leute tun, einschließlich mir selbst, wenn ich CC für meine Kunden verarbeite, ist, die Verarbeitung mit MapReduce zu implementieren und auf AWS EMR auszuführen. Die Kosten hängen natürlich von der Komplexität der Verarbeitung ab, aber das Hardware-Budget liegt normalerweise bei Hunderten von US-Dollar.

Hoffe das hilft

BEARBEITEN: DZone hat seitdem einen meiner Blog-Beiträge zur Verwendung von CommonCrawl erneut veröffentlicht.

Verwandte Artikel