» » » » » » Politici de indexare ale motoarelor de căutare

Politici de indexare ale motoarelor de căutare

Există trei caracteristici importante ale webului care îl fac greu de indexat:

  • volumul foarte mare,
  • rata foarte mare de chimbări, şi
  • generarea paginilor dinamice.

Aceste caracteristici se combină producând o mare varietate de posibile URL-uri indexabile.

Volumul mare implică posibilitatea indexării de a descărca doar o fracţiune de pagini web la un moment dat, fiind deci necesar stabilirea unor priorităţi la indexare. Rata mare de schimbare presupune că atunci când robotul descarcă ultima pagină dintr-un sit web, este foarte posibil ca noi pagini să fi apărut în sit, sau ca pagini deja indexate să fi fost actualizate sau şterse.

Creşterea recentă a numărului de pagini generate de limbajele scripting pe servere crează noi dificultăţi datorită combinaţiilor nenumărate de parametri HTTP GET, dintre care numai o mică selecţie va returna conţinut unic. De exemplu, o simplă galerie foto online poate oferi trei opţiuni utilizatorului, conform parametrilor HTTP GET. Dacă există patru modalităţi de a sorta imaginile, trei mărimi diferite pentru thumbnail, două formaturi de fişiere, şi o opţiune de dezactivare a conţinutului livrat utilizatorului, atunci acelaşi conţinut poate fi accesat prin 48 URL-uri diferite, toate fiind prezente pe sit. Această combinare matematică crează o problemă pentru roboţi, întrucât ei trebuie să aleagă dintre nenumărate combinaţii pentru a extrage conţinut unic.

După cum nota Edwards et al., „Întrucât lărgimea de bandă pentru roboţi nu este nici infinită nici gratuită, este esenţial să se indexeze webul într-un mod nu numai scalabil, dar şi eficient, dacă se doreşte menţinerea unor măsurători rezonabile pentru calitate şi noutate.” [1]. Un robot trebuie să aleagă cu grijă în fiecare etapă ce pagină va vizita în continuare.

Comportarea unui robot de indexare este rezultatul unei combinaţii de politici:

  • o politică de selecţie care stabileşte ce pagini să se descarce,
  • o politică de revizitare care stabileşte după cât timp se va verifica din nou pagina pentru schimbări,
  • o politică de politeţe care stabileşte cum să se evite supraîncărcarea siturilor web, şi
  • o politică de paralelism care stabileşte modul de coordonare a roboţilor de indexare distribuiţi.

Referinţe

  1. ^ a b Edwards, J., McCurley, K. S., and Tomlin, J. A. (2001). „An adaptive model for optimizing performance of an incremental web crawler”. In Proceedings of the Tenth Conference on World Wide Web (Hong Kong: Elsevier Science): 106–113. doi:10.1145/371920.371960.

(Traducere şi adaptare din Wikipedia sub licenţa GNU)

Aveţi nevoie de un webmaster? Click AICI. Tel. 0745-526896

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *