Bester Crawler, um festzustellen, ob er mit Technologien gebaut wurde?

Joe Murray

Builtwith.com und ähnliche Dienste bieten (gegen Gebühr) Listen von Domains, die mit bestimmten Technologien wie SalesForce oder NationBuilder erstellt wurden. Es gibt einige Technologien, an denen ich interessiert bin, nach denen buildwith nicht sucht, wahrscheinlich weil sie eine zu geringe Marktpräsenz haben.

Wenn wir wissen, dass bestimmte Signaturen von Seiten, aus denen hervorgeht, dass eine Technologie für eine Website verwendet wird, wie können so viele dieser Websites am besten identifiziert werden? Wir erwarten, dass es 1000 gibt, und wir interessieren uns für diejenigen in den Top 10M-Sites nach Verkehr. (Wir glauben nicht, dass die größten Websites diese Technologie verwenden.)

Ich habe eine Liste von Open Source-Webcrawlern - http://bigdata-madesimple.com/top-50-open-source-web-crawlers-for-data-mining/ - aber mein Anwendungsfall scheint anders zu sein als viele der regulären Kriterien für Crawler, da wir nur "Treffer" von Domains mit dieser Signatur speichern möchten. Wir müssen also nicht schnell sein, aber wir müssen alle Seiten der Website überprüfen, bis ein Treffer gefunden wird. Verwenden Sie nur verantwortungsvolle Crawling-Methoden usw. Was ist am besten?

Oder anstatt einen Crawler zu optimieren und auszuführen, gibt es eine Möglichkeit, Google oder eine andere Suchmaschine dazu zu bringen, Seitenmerkmale zu finden, anstatt vom Benutzer sichtbare Inhalte, die ein besserer Ansatz wären?

Julien Nioche

Sie könnten tatsächlich einen Open-Source-Webcrawler optimieren. In dem von Ihnen geposteten Link wurden viele Ressourcen erwähnt. Wenn Sie jedoch diejenigen entfernen, die nicht verwaltet werden, und diejenigen, die nicht verteilt werden, bleiben Ihnen nicht viele übrig. Per Definition wissen Sie nicht, welche Sites die Signaturen enthalten, nach denen Sie suchen. Daher müssten Sie eine Liste der Top-10M-Sites erstellen und diese crawlen. Dies ist ein erheblicher Vorgang, der jedoch mit Tools wie z Apache Nutch oder StormCrawler (nicht in dem von Ihnen geposteten Link aufgeführt) [HAFTUNGSAUSSCHLUSS Ich bin ein Committer bei Nutch und der Autor von SC] .

Ein anderer Ansatz, der billiger und schneller wäre, wäre die Verarbeitung der CommonCrawl-Datasets . Sie stellen monatlich große Web-Crawling-Daten zur Verfügung und erledigen das Crawlen des Webs für Sie - einschließlich Höflichkeit usw. Natürlich haben ihre Datensätze keine perfekte Abdeckung, aber dies ist so gut, wie Sie es bekommen würden Wenn Sie den Crawl selbst ausführen würden. Dies ist auch eine gute Möglichkeit, Ihre ursprünglichen Annahmen und den Code zum Erkennen der Signaturen bei sehr großen Datenmengen zu überprüfen. Normalerweise empfehle ich, CC zu verarbeiten, bevor Sie mit einem Crawl in Webgröße beginnen. Die CC-Website enthält Details zu Bibliotheken und Code für deren Verarbeitung.

Was die meisten Leute tun, einschließlich mir selbst, wenn ich CC für meine Kunden verarbeite, ist, die Verarbeitung mit MapReduce zu implementieren und auf AWS EMR auszuführen. Die Kosten hängen natürlich von der Komplexität der Verarbeitung ab, aber das Hardware-Budget liegt normalerweise bei Hunderten von US-Dollar.

Hoffe das hilft

BEARBEITEN: DZone hat seitdem einen meiner Blog-Beiträge zur Verwendung von CommonCrawl erneut veröffentlicht.

Verwenden von jQuery, um festzustellen, ob ein div ein Kind mit einer bestimmten Klasse hat

Samsquanch: Ich habe ein Div #popup, das dynamisch mit mehreren Absätzen der Klasse gefüllt ist .filled-text. Ich versuche, jQuery dazu zu bringen, mir zu sagen, ob #popupeiner dieser Absätze enthalten ist. Ich habe diesen Code: $("#text-field").keydown(functi

Allgemeine Methode, um festzustellen, ob das HTML-Formular bearbeitet wurde

Sathya: Ich habe ein HTML-Formular mit Registerkarten. Beim Navigieren von einer Registerkarte zur anderen bleiben die Daten der aktuellen Registerkarte (in der Datenbank) erhalten, auch wenn keine Änderungen an den Daten vorgenommen wurden. Ich möchte den Per

Wie kann ich auf der Clientseite JavaScript verwenden, um festzustellen, ob die Seite verschlüsselt wurde?

Simon: Kann auf der Clientseite festgestellt werden, ob der Benutzer eine verschlüsselte Seite verwendet oder nicht? Anders ausgedrückt: Ich möchte wissen, ob die URL der aktuellen Seite mit http oder https beginnt. Tvanfosson: Verwenden window.location.protoc

c ++ Verwendung von select, um festzustellen, ob ein Socket geschlossen wurde

poy: Kann mir jemand ein Beispiel für die Verwendung von select () geben, um festzustellen, ob ein Client die Verbindung zu einem Socket geschlossen hat? Zu Ihrer Information. Ich benutze Linux. Vielen Dank! Erik: Das folgende Snippet prüft zunächst, ob der So

Bester Weg, um festzustellen, ob * .doc-Datei RTF mit Java oder ColdFusion ist

Anne Porosoff: Ich habe also ungefähr 4.000 Word-Dokumente, aus denen ich den Text extrahieren und in eine DB-Tabelle einfügen möchte. Dies funktioniert so lange, bis der Prozessor auf ein Dokument mit der *.docDateierweiterung stößt, jedoch feststellt, dass e

Java, der schnellste Weg, um festzustellen, ob Werte in der Hashmap mit einem Wert übereinstimmen?

Rick: Verzeihen Sie meinen Neuling in Java, da ich nicht genug Erfahrung habe, um den effizientesten Weg zu kennen. Ich habe eine Hashmap wie unten, aber sie hätte gerne 40.000 Einträge: Map <String, String> someHashmap = new HashMap <String, String> (); someH

Verwenden Sie Go, um festzustellen, ob ein Prozess / Programm beendet wurde

Joseph : Ich mache eine kleine Desktop-Webanwendung mit Go. Diese Anwendung wird als lokaler Webserver ausgeführt und ein Chrome-Fenster wird im App-Modus generiert. Das Go-Programm führt den Webserver während dieser Zeit weiter aus. Ich muss auf den Moment ac

Richtige Methode, um festzustellen, ob eine ClientObject-Eigenschaft bereits abgerufen / initialisiert wurde

Kennzeichen Wenn Sie das Clientobjektmodell von SharePoint verwenden und auf Eigenschaften zugreifen, die nicht von einem initialisiert oder bereits abgerufen wurden Context.Load(property); Context.ExecuteQuery(); Sie erhalten zum Beispiel eine: Microsoft.Sh

Gibt es eine Möglichkeit festzustellen, ob eine Aktivität mit Espresso gestartet wurde?

Javier Manzano Ich mache einen Aktivitätsübergangstest mit Espresso, aber ich weiß nicht, ob dies der beste Weg ist: public void testStartLogin() { onView(withId(R.id.register)).perform(click()); onView(withId(R.id.login_password)).check(matches(isDisp

Heiliger Gral, um festzustellen, ob der lokale Iframe geladen wurde oder nicht

Jon Freynik Erstens sehe ich diese Frage einige Male gestellt, aber keine Antworten scheinen zufriedenstellend zu sein. Was ich suche, ist, jederzeit ein Skript aufrufen zu können und festzustellen, ob ein Iframe geladen wurde oder nicht - und das Skript nicht

Grundlegendes zum Code, um mit ~~ festzustellen, ob die Zahl ungerade ist

Was ist der beste Weg, um festzustellen, ob auf ein Element eine CSS-Animation angewendet wurde?

zfs list -t snaphost, um festzustellen, ob der Pool geändert wurde

user1325696 Ich habe verwendet, zfs list -t snapshotum festzustellen, ob der Pool geändert wurde. Wenn der letzte Schnappschuss zeigte, dass er etwas Speicherplatz belegt, war ich mir sicher, dass der Pool geändert wurde und ich (eigentlich ein Skript) einen w

Wie vergleiche ich OpenType-Schriftarten mit unterschiedlicher Gewichtung, um festzustellen, ob sie gleich sind?

Thierry-Dimitri Roy Ich habe eine Reihe von OpenType-Schriftdateien mit unterschiedlichen Gewichten und Stilen (z. B. ComicSans100.otf, ComicSans200.otf, ComicSans300.otf und TimeNewRoman.otf sowie TimesNewRomanItalic.otf). Die Person, die mir diese Dateien zu

Am effizientesten, um festzustellen, ob eine Datenbanktabelle aktualisiert wurde

JianYA Ich frage mich, wie ich am effizientesten feststellen kann, ob eine DB-Tabelle aktualisiert wurde. Ich benutze Codeigniter als Framework. Bisher habe ich überlegt, einen Timer zu verwenden und alle 15 bis 20 Sekunden eine Ajax-Post-Anfrage an das Backen

Suchen Sie nach Links in HTML, um festzustellen, ob sie mit einem Array übereinstimmen

Bob Ich habe ein kleines Problem, wenn mir jemand bei der Lösung helfen kann. Grundsätzlich habe ich eine Reihe von Schlüsselwörtern, und ich würde gerne sehen, ob irgendwelche href-Links auf der Seite damit übereinstimmen. Wenn ja, fügen Sie einige CSS-Effekt

Algorithmus, um festzustellen, ob eine Adresse in einen Satz geschrieben wurde

Mathias Lykkegaard Lorenzen Ich möchte einen Algorithmus erstellen, der erkennen kann, ob eine Adresse in einem Satz geschrieben ist. Zum Beispiel, wenn ein Benutzer schreibt: "Hallo, meine Adresse ist Lincolnstreet 27, Foobarcity. Können Sie das Paket dort ab

JavaScript vergleicht ein Array mit einem Objekt von Arrays, um festzustellen, ob deren Werte übereinstimmen

Charles L. Ich habe ein Array, das ich vergleichen möchte, um festzustellen, ob sich die Werte in Array 1 in einem der Arrays innerhalb eines Objekts befinden: arr1 = [9] obj1 = {Cards: [8,5], Loans: [], Shares: [0,9,25]} Ich verwende JavaScript (ECMAScript

festzustellen, ob das Medikament in Intervallen verabreicht wurde

Getan Ich kann das nicht herausfinden, obwohl ich (angeblich) ziemlich nah dran bin. Ich möchte überprüfen, ob ein Medikament in einem 4-Stunden-Fenster verabreicht wurde. drug start stop 1 A 1 3 2 A 7 10 3 A 11 17 Medikament A wu

Regex, um festzustellen, ob die Bilddatei von Facebook heruntergeladen wurde

Vadim Berman Gibt es veröffentlichte Spezifikationen für die Art und Weise, wie Facebook seine Bild-URLs im Benutzerinhalt generiert? Ich sehe, dass es immer numerisch ist, 3 Segmente aus Ziffern hat und endet mit _ozB: 13350348_10153901013116284_1057049318676

C #, um festzustellen, ob ein Benutzer von Windows Server AD nach Microsoft Azure migriert wurde

männlich In meinem persönlichen Azure-Konto habe ich einige Benutzer von einem migriert Windows Server AD, einige wurden direkt in erstellt Azure AD, und einige Benutzer stammten von Microsoft Personal-Konten. Ich konnte diese Benutzer in einer Windows Desktop

Wie kann ich mit PowerShell zwei Textdateien vergleichen, um festzustellen, ob sie gleich sind?

Samantha JT Star Ich habe eine Überprüfung wie diese durchgeführt, um das Datum der letzten Änderung zu überprüfen: if($file1.LastWriteTime -gt $file2.LastWriteTime) { } Wie kann ich etwas Ähnliches tun, aber vergleichen, ob die Dateien gleich sind? Beachten

Schienen 4, um festzustellen, ob das Update ausgeführt wurde

Rober Ich habe diesen Code in Rails 4: mmkBase = Mmk::Base.find_or_initialize_by(id: id) mmkBase.update(name: name, city: city, country: country, address: address, region_ids: regionIds, latitude: latitude, longitude: longitude) Der C

Kann der ErrorProvider abgefragt werden, um festzustellen, ob er Fehler gesetzt hat?

B. Clay Shannon Ich habe diesen Code, um einige grundlegende Überprüfungen der geistigen Gesundheit durchzuführen, bevor ich einen Datensatz veröffentliche: if (string.IsNullOrWhiteSpace(textBoxFirstName.Text)) { errorProvider.SetError(textBoxFirstName, "E

So überprüfen Sie eine Eingabe, um festzustellen, ob sie mit einem Datensatz in der Datenbank übereinstimmt

Ryan Ich versuche, eine Eingabe zu erstellen, die die Datenbank abfragt und zurückgibt, ob ein Ergebnis in der Datenbank vorhanden ist oder nicht. Ich habe es teilweise funktioniert, aber meine Box leuchtet grün, wenn ich nur einen Buchstaben eingebe. Es wäre

Verwenden Sie sendgrid, um festzustellen, ob meine E-Mail zurückgeschickt wurde oder ob sie in meinem Code erfolgreich zugestellt wurde

Prakash Kumar Ich verwende das Sendgrid npm-Modul zum Senden von E-Mails an meine Kunden mit node.js. Jetzt habe ich hier ein Problem. Wenn ich eine E-Mail an eine nicht vorhandene E-Mail sende, wird meine E-Mail zurückgeschickt, aber in meiner Antwort auf mei

Wie vergleiche ich Benutzereingaben mit einem voreingestellten Zeichen, um festzustellen, ob sie gleich sind?

Drew Pesall Ich versuche, einen Weg zu finden, eine Zeichenfolge, die ich vom Benutzer als Eingabe erhalte, richtig zu verwenden und sie mit einem bestimmten Zeichen zu vergleichen, um zu sehen, ob sie gleich sind. Ich habe versucht, meine Benutzereingabe mit

Wie verwende ich einen Button-Klick, um festzustellen, ob ein Check-Button angeklickt/angekreuzt wurde, um eine ausführbare Datei auszuführen? (mit tkinter)

Kyle Clark Die GUI selbst funktioniert in dem Sinne, dass sie den Text und beide Kontrollkästchen anzeigt, aber wenn ich ein Kontrollkästchen abhebe und auf die Schaltfläche "Zum Starten klicken" klicke, passiert nichts. Hier ist mein Code: import tkinter impo

So konditionieren Sie einen Abfragetext, um festzustellen, ob er ein Dateifeld enthält

Panuki Dieser Code unten ermöglicht es mir, neue Daten für meine Rest-API zu erstellen, und er funktioniert einwandfrei, aber als solcher muss ich eine Datei bereitstellen, dies sollte jedoch nicht obligatorisch sein. Wie kann ich also meinen Code konditionier

Bester Crawler, um festzustellen, ob er mit Technologien gebaut wurde?

Verwandte Artikel

Liste