¿Cómo es la indexación de los motores de búsqueda?

Veamos el proceso de indexación que utilizan los motores de búsqueda para almacenar información sobre las páginas web, lo que les permite devolver rápidamente resultados relevantes y de alta calidad.
¿Cuál es la necesidad de indexación de los motores de búsqueda?
¿Recuerda los tiempos anteriores a Internet, cuando había que consultar una enciclopedia para conocer el mundo y rebuscar en las Páginas Amarillas para encontrar un fontanero? Incluso en los primeros días de la web, antes de los motores de búsqueda, teníamos que buscar en directorios para recuperar información. Qué proceso más largo. ¿Cómo podíamos tener paciencia?
Los motores de búsqueda han revolucionado la recuperación de información hasta el punto de que los usuarios esperan respuestas casi instantáneas a sus consultas.
¿Qué es la indexación de los motores de búsqueda?
La indexación es el proceso por el cual los motores de búsqueda organizan la información antes de una búsqueda para permitir respuestas súper rápidas a las consultas.
La búsqueda de palabras clave y temas en páginas individuales sería un proceso muy lento para que los motores de búsqueda identificaran la información relevante. En su lugar, los motores de búsqueda (incluido Google) utilizan un índice invertido, también conocido como índice inverso.
¿Qué es un índice invertido?
Un índice invertido es un sistema en el que se compila una base de datos de elementos de texto junto con punteros a los documentos que contienen esos elementos.
A continuación, los motores de búsqueda utilizan un proceso llamado tokenización para reducir las palabras a su significado principal, reduciendo así la cantidad de recursos necesarios para almacenar y recuperar los datos. Se trata de un enfoque mucho más rápido que el de listar todos los documentos conocidos con todas las palabras clave y caracteres relevantes.
La versión en caché de una página
Además de indexar las páginas, los motores de búsqueda también pueden almacenar una versión de sólo texto altamente comprimida de un documento, incluyendo todo el HTML y los metadatos.
El documento en caché es la última instantánea de la página que ha visto el buscador.
Se puede acceder a la versión en caché de una página (en Google) haciendo clic en la pequeña flecha verde situada junto a la URL de cada resultado de búsqueda y seleccionando la opción de caché. También puede utilizar el operador de búsqueda de Google "cache:" para ver la versión en caché de la página.
Bing ofrece la misma posibilidad de ver la versión en caché de una página mediante una flecha verde hacia abajo junto a cada resultado de búsqueda, pero actualmente no admite el operador de búsqueda "cache:".
¿Qué es el PageRank?
"PageRank" es un algoritmo de Google que lleva el nombre del cofundador de Google, Larry Page (¡sí, de verdad!) Es un valor para cada página que se calcula contando el número de enlaces que apuntan a una página para determinar el valor de la página en relación con todas las demás páginas de Internet.
El valor que pasa cada enlace individual se basa en el número y el valor de los enlaces que apuntan a la página con el enlace.
El PageRank es sólo una de las muchas señales utilizadas dentro del gran algoritmo de clasificación de Google.
Inicialmente, Google proporcionó una aproximación de los valores del PageRank, pero ya no son visibles públicamente.
Aunque el PageRank es un término de Google, todos los motores de búsqueda comerciales calculan y utilizan una métrica de equidad de enlaces equivalente. Algunas herramientas SEO intentan dar una estimación del PageRank utilizando su propia lógica y cálculos.
Por ejemplo, Page Authority en las herramientas de Moz, TrustFlow en Majestic, o URL Rating en Ahrefs. DeepCrawl tiene una métrica llamada DeepRank para medir el valor de las páginas basado en los enlaces internos dentro de un sitio web.
¿Cómo fluye el PageRank a través de las páginas?
El recuento de estos enlaces y la medida de la autoridad del sitio web enlazado determinan el PageRank relativo de la página enlazada.
El PageRank se divide por igual entre todos los enlaces descubiertos de la página. Por ejemplo, si su página tiene cinco enlaces, cada enlace pasaría el 20% del PageRank de la página a través de cada enlace a las páginas de destino. Los enlaces que utilizan el atributo rel="nofollow" no pasan el PageRank.
La importancia de los backlinks
Una investigación sobre los backlinks realizada por Moz muestra que los resultados de las 50 primeras consultas de búsqueda en Google (~15.000 resultados de búsqueda), el 99,2% de ellos tenían al menos un backlink externo. Además, los SEOs califican constantemente los backlinks como uno de los factores de clasificación más importantes en las encuestas.