¿Cuáles son las características de los motores de búsqueda?

febrero 06, 2021

Los motores de búsqueda son máquinas de respuestas. Existen para descubrir, comprender y organizar el contenido de Internet con el fin de ofrecer los resultados más relevantes a las preguntas que hacen los buscadores.

Para aparecer en los resultados de búsqueda, su contenido debe ser visible para los motores de búsqueda. Es posiblemente la pieza más importante del rompecabezas del SEO: si su sitio no puede ser encontrado, no hay forma de que aparezca en las SERPs (Páginas de Resultados de los Motores de Búsqueda).

Entonces, ¿Cuáles son las características de los buscadores web?, Si lo preguntas desde el punto de vista de la implementación, entonces aquí hay algunas cosas comunes que un motor de búsqueda web hace/necesita.

Rastreo

El rastreo es el proceso de descubrimiento en el que los motores de búsqueda envían un equipo de robots (conocidos como rastreadores o arañas) para encontrar contenido nuevo y actualizado. El contenido puede variar -puede ser una página web, una imagen, un vídeo, un PDF, etc.- pero independientemente del formato, el contenido se descubre mediante enlaces.

Estos bots están preprogramados para empezar en un sitio web y recoger todos sus datos y conexiones. A continuación, se registran esas conexiones. Esa lista de conexiones en ese momento se convierte en el orden en el que el bot continuará su camino de recogida de datos. Así, una araña puede empezar en lifepacific.edu, pero los enlaces a la denominación Foursquare y a WASC en la página de inicio se convierten en los siguientes lugares a los que la araña irá después de procesar todo lo que está bajo el dominio lifepacific.edu.

Después de que la araña esté llena, o de un tiempo determinado, el bot vuelve y carga el contenido de las páginas web y todos los enlaces de vuelta al ordenador central.

Extracción de datos

La extracción de datos consiste en la recopilación de todos los datos que ha devuelto el bot. Las páginas web completas, conservadas en HTML, se almacenan en los servidores del motor de búsqueda. La versión almacenada no es la versión en vivo de la página web, lo que se ve cuando se introduce la URL en el navegador, sino una versión histórica llamada versión en caché.

Se puede indicar a los robots que vuelvan a las páginas web con frecuencia, si el contenido cambia a menudo. Así, un sitio web como BBC News pediría a los bots que volvieran a menudo debido a la frecuencia con la que cambia su contenido.

Los robots no encontrarán todo en la web. Si no hay enlaces a una página, ésta es básicamente invisible para los motores de búsqueda. Si se trata de una página web que requiere una contraseña, o se genera como resultado de una consulta, nunca será almacenada en un motor de búsqueda. Esas páginas web que nunca serán buscadas se denominan deep web o web invisible.

Indexación

La indexación es el proceso de registrar cada palabra y carácter de una página web y su ubicación. El mismo concepto se encuentra en la contraportada de un libro, donde se enumeran las palabras más importantes y en qué páginas aparecen. La versión del motor de búsqueda de la indexación es donde la palabra ocurre dentro de cualquier página y su ocurrencia en TODOS los sitios web que han sido rastreados. El índice de Google, el mayor índice de Internet conocido, llamado Big Table, es tan grande que tiene que tener índices para los índices; hay enormes cantidades de datos presentes.

El proceso de indexación, no sólo cita lugares, sino que convierte todo en números. Los ordenadores funcionan con 1's y 0's, no con el alfabeto inglés, ni con ningún otro. El proceso de convertir las palabras en números es importante, porque el proceso de búsqueda no se basa en palabras y letras, sino en las matemáticas.

Procesamiento de la consulta

La consulta, lo que usted introduce en el cuadro de búsqueda, tiene que ser convertida en números, para que el motor pueda procesar su solicitud. Sin embargo, antes de que se convierta en números, el buscador de Internet se deshará de algunos términos. La mayoría de los índices web tienen una lista de palabras de parada, palabras que no serán buscadas.

La mayoría de los rastreadores web no buscarán el, y, ello, ser, será, etc. Esas palabras cortas son sólo de relleno para el PC. En el caso de que necesites totalmente esas palabras en la búsqueda, en ese momento debes recordarlas para las comillas, o en Google añadir el signo además de antes del término.

Una vez que los términos se convierten en números, el motor calcula qué términos indexados se acercan más matemáticamente a lo que has pedido. El algoritmo es complejo, pero devuelve los elementos en función de su proximidad matemática a la consulta. Los más cercanos aparecen más arriba en la lista de resultados. Algunos motores muestran incluso un porcentaje de relevancia.