Combien cela coûterait-il pour construire un moteur de recherche?

Sur l’échelle de Google, Bing etc

Réponse

Le plus grand coût de fonctionnement d’un moteur de recherche de l’échelle de Google/Bing/Yahoo est dans la fourniture de nombreux groupes capables de manipuler (dizaines de) milliers charges de requêtes par seconde (qps) et le retour des réponses à quelques centaines de millisecondes.

L’index doit être répliqué parce qu’un seul exemplaire (réplique) n’est pas capable de gérer ce type de chargement. Il n’y a aucune règle dure, mais si vous avez un seul cluster gère quelques dizaines qps sûrement, puis vous faites (très) bien. Cela suppose que l’index n’est pas entièrement en mémoire vive, ce qui est le cas pour Google et quelques autres.

Il vous faudrait plusieurs centaines de tels groupements requête brassées en milliers qps.

Construire un cluster unique ne serait pas tant que ça. Évidemment, les éléments suivants sont des estimations grossières, mais ils devraient vous donner une idée.

Prendre un indice de 100 to, à 10 ko/page, d’environ 10 b pages. Si vous faites un bon travail d’indexation standard page IR signaux tels que l’ancre texte, titre, titres. TF/idf etc., ainsi que l’enlèvement de l’analyse et le spam lien décent, vous auriez un système de classe mondial, qui s’inscrirait dans, disons, 9 machines à 12 to (par exemple quatre 3 to disques de chacun).

Un tel système pourrait facilement avoir 9 * 32 = 288 Go RAM qui serait beaucoup. Un standard 1 réseau GigE devrait suffire. Le coût serait d’environ $25K, ou moins si vous décrochez un tas de vieilles machines d’eBay.

Coût majeur suivant pourrait être rampant.  Vous pouvez voir comment beaucoup il en coûterait pour ramper 1 milliard sites utilisant loué AWS serveurs/bande passante? pour se faire une idée, mais s’attendre à des dizaines de milliers de dollars pour les rampants pages 10 milliards. AWS serait un moyen plus rapide et plus facile, mais plusieurs fois plus cher que la création et le fonctionnement des robots vous-même.

Je pense que le strict minimum de tirant serait de l’ordre de 100 K $, sans compter le temps des personnes impliquées. Exemples de tels efforts Gigablast et Duckduckgo.

Greg Lindahl mentionne Blekko.com et Cuil, qui sont (étaient, pour Cuil) beaux exemples, à des niveaux opérationnels supérieurs, mais coûte encore bien en dessous les gros joueurs. Cuil, par exemple, était beaucoup plus axée sur le disque

À mon humble avis, la solution de coût le plus bas serait un moteur de recherche distribuée, comme mon précédent démarrage recherche, Wowd, Abdellah, YacY ou Majestic-12. Dans de tels systèmes, la plupart du coût est éliminé, en s’appuyant sur le CPU, RAM et disque, bande passante des utilisateurs.

Envisager un système de, dire des millions d’utilisateurs, les ressources en agrégats serait ahurissants - 100 to de RAM, 1 PB sur disque, bande passante 1Tbps. Mais c’est une autre histoire, je m’égare:)


Tags: Technologie, Développement Web, Recherche sur le Web, Moteurs de recherche, Coûts, L’Internet, Bâtiment de moteur de recherche