¿Cómo funcionan los motores de búsqueda?

¿Cómo funcionan los motores de búsqueda? / Tecnología explicada

Artículo actualizado por Joel Lee el 10/10/2017

Para muchos, Google es La Internet. Es el punto de partida para encontrar nuevos sitios, y podría decirse que es el invento más importante desde la propia Internet. Sin motores de búsqueda, el nuevo contenido web sería inaccesible para las masas.

¿Pero sabes cómo funcionan los motores de búsqueda?? Cada motor de búsqueda tiene tres funciones principales: rastreo (para descubrir contenido), indexación (para rastrear y almacenar contenido) y recuperación (para buscar contenido relevante cuando los usuarios consultan el motor de búsqueda).

Arrastrándose

El rastreo es donde comienza todo: la adquisición de datos sobre un sitio web.

Esto implica escanear sitios y recopilar detalles sobre cada página: títulos, imágenes, palabras clave, otras páginas vinculadas, etc. Los rastreadores diferentes también pueden buscar diferentes detalles, como los diseños de página, dónde se colocan los anuncios, si los enlaces están abarrotados, etc..

Pero, ¿cómo se rastrea un sitio web?? Un bot automatizado (llamado “araña”) visita página tras página lo más rápido posible, utilizando los enlaces de página para encontrar dónde ir a continuación. Incluso en los primeros días, las arañas de Google podían leer varios cientos de páginas por segundo. Hoy en día, es de miles.

Cuando un rastreador web visita una página, recopila todos los enlaces de la página y los agrega a su lista de las siguientes páginas para visitar. Va a la página siguiente en su lista, recoge los enlaces en ese página, y se repite. Los rastreadores web también vuelven a visitar las páginas anteriores de vez en cuando para ver si ocurrieron cambios..

Esto significa que cualquier sitio que esté vinculado desde un sitio indexado eventualmente será rastreado. Algunos sitios se rastrean con más frecuencia y otros se rastrean a mayores profundidades, pero a veces un rastreador puede darse por vencido si la jerarquía de páginas de un sitio es demasiado compleja..

Una forma de entender cómo funciona un rastreador web es construir uno usted mismo. Hemos escrito un tutorial sobre cómo crear un rastreador web básico en PHP, así que compruebe si tiene experiencia en programación..

Tenga en cuenta que las páginas se pueden marcar como “noindex,” que es como pedir a los motores de búsqueda que omitan su indexación. Las partes no indexadas de internet se conocen como “red profunda” ¿Qué es la web profunda? Es más importante de lo que piensas ¿Qué es la Web profunda? Es más importante de lo que piensa La red profunda y la red oscura suenan aterradoras y nefastas, pero los peligros han sido exagerados. ¡Esto es lo que realmente hacen y cómo puedes acceder a ellos tú mismo! Lea más, y algunos sitios, como los alojados en la red TOR, no pueden ser indexados por los motores de búsqueda. (¿Qué es TOR y enrutamiento de cebolla? ¿Qué es enrutamiento de cebolla, exactamente? [MakeUseOf explica] ¿Qué es enrutamiento de cebolla, exactamente? [MakeUseOf explica] privacidad de Internet. El anonimato era una de las características más grandes de Internet en su juventud (o una de sus peores características, dependiendo de a quién le preguntes). Dejando de lado el tipo de problemas que surgen ... Leer más)

Indexación

La indexación es cuando los datos de un rastreo se procesan y se colocan en una base de datos.

Imagínese haciendo una lista de todos los libros que posee, sus editores, sus autores, sus géneros, su número de páginas, etc. Rastrear es cuando revisa cada libro mientras que la indexación es cuando los registra en su lista.

Ahora imagine que no es solo una sala llena de libros, sino todas las bibliotecas del mundo.. Esa es una versión a pequeña escala de lo que hace Google, que almacena todos estos datos en vastos centros de datos con miles de petabytes de unidades Explicación de tamaños de memoria: Gigabytes, terabytes y petabytes en contextos de memoria de contexto explicados: gigabytes, terabytes y petabytes en contexto Es fácil ver que 500 GB son más de 100 GB. Pero, ¿cómo se comparan los diferentes tamaños? ¿Qué es un gigabyte a un terabyte? ¿Dónde encaja un petabyte? ¡Vamos a aclararlo! Lee mas .

Aquí hay un vistazo dentro de uno de los centros de datos de búsqueda de Google:

Crédito de la imagen: Google

Recuperación y Clasificación

La recuperación es cuando el motor de búsqueda procesa su consulta de búsqueda y devuelve las páginas más relevantes que coinciden con su consulta.

La mayoría de los motores de búsqueda se diferencian a través de sus métodos de recuperación: utilizan diferentes criterios para seleccionar y elegir qué páginas se adaptan mejor a lo que usted desea encontrar. Es por eso que los resultados de búsqueda varían entre Google y Bing, y por qué Wolfram Alpha es tan particularmente útil. 10 Usos geniales de Wolfram Alpha si usted lee y escribe en el idioma inglés 10 Usos geniales de Wolfram Alpha si lee y escribe en el idioma inglés Dedique un tiempo para envolver mi cabeza en torno a Wolfram Alpha y las consultas que utiliza para desentrañar esos resultados. Tienes que sumergirte profundamente en Wolfram Alpha para realmente explotarlo para… Leer más .

Los algoritmos de clasificación verifican su consulta de búsqueda miles de millones de páginas para determinar la relevancia de cada uno. Las compañías guardan sus algoritmos de clasificación como secretos patentados de la industria debido a su complejidad. Un mejor algoritmo se traduce en una mejor experiencia de búsqueda.

Tampoco quieren que los creadores web jueguen con el sistema y suban injustamente a lo más alto de los resultados de búsqueda. Si la metodología interna de un motor de búsqueda saliera a la luz, todo tipo de personas seguramente explotarían ese conocimiento en detrimento de los buscadores como usted y yo..

Crédito de la imagen: photovibes via Shutterstock

Explotación del motor de búsqueda es Es posible, por supuesto, pero ya no es tan fácil..

Originalmente, los motores de búsqueda clasificaban los sitios según la frecuencia con la que aparecían las palabras clave en una página, lo que llevó a “relleno de palabras clave” - Llenado de páginas con palabras clave-sin sentido.

Luego vino el concepto de importancia del enlace: los motores de búsqueda valoraban los sitios con muchos enlaces entrantes porque interpretaban la popularidad del sitio como relevante. Pero esto llevó a vincular el spam en toda la web. Hoy en día, los motores de búsqueda ponderan enlaces dependiendo de la “autoridad” del sitio de enlace. Los motores de búsqueda dan más valor a los enlaces de una agencia gubernamental que a los enlaces de un directorio de enlaces..

Hoy en día, los algoritmos de clasificación están más ocultos que nunca, y “posicionamiento en buscadores” Demystify SEO: 5 Guías de optimización de motores de búsqueda que lo ayudan a comenzar. Desmitificar SEO: 5 Guías de optimización de motores de búsqueda que lo ayudan a comenzar. El dominio del motor de búsqueda requiere conocimiento, experiencia y muchas pruebas y errores. Puede comenzar a aprender los fundamentos y evitar errores comunes de SEO fácilmente con la ayuda de muchas guías de SEO disponibles en la Web. Leer más no es tan importante. Los buenos rankings en los motores de búsqueda ahora provienen de contenido de alta calidad y excelentes experiencias de usuario.

¿Qué sigue para los motores de búsqueda??

Ah, ahora hay una pregunta interesante. La respuesta es “semántica”: la sentido del contenido de la página. Puede obtener más información en nuestra descripción general del marcado semántico y su impacto futuro Qué es el marcado semántico y cómo cambiará el Internet para siempre [Explicación de la tecnología] Qué es el marcado semántico y cómo cambiará el Internet para siempre [Explicación de la tecnología] Leer más .

Pero aquí está la esencia de esto..

En este momento, puede buscar “galletas sin gluten” Pero los resultados pueden devolver recetas para las cookies sin gluten. En su lugar, puede encontrar recetas de galletas regulares que dicen “Esta receta no es libre de gluten..” Tiene las palabras clave adecuadas, pero el significado equivocado.

Con la semántica, puede buscar recetas de galletas y luego eliminar ciertos ingredientes: harina, nueces, etc. También puede reducir los resultados a recetas solo con tiempos de preparación de menos de 30 minutos y revisar puntuaciones de 4/5 o más. Ese sería genial, ¿verdad? Hacia donde nos dirigimos!

¿Todavía confundido acerca de cómo funcionan los motores de búsqueda? Vea cómo Google explica el proceso:

Si encuentra esto interesante, también le gustaría aprender cómo imagen los motores de búsqueda funcionan.

Crédito de la imagen: prykhodov / Depositphotos

Explore más acerca de: Google Analytics, Búsqueda de Google, Búsqueda en la Web.