Cómo configurar correctamente Robots.txt para su sitio

Si ejecuta un sitio web 10 maneras de crear un sitio web pequeño y simple sin la exageración 10 maneras de crear un sitio web pequeño y simple sin la exageración WordPress puede ser una exageración. Como lo demuestran estos otros excelentes servicios, WordPress no es el principio de la creación de un sitio web. Si desea soluciones más simples, hay una variedad para elegir. Lea más, probablemente haya escuchado sobre un archivo robots.txt (o el “norma de exclusión de robots”). Ya sea que lo tengas o no, es hora de aprenderlo, porque este simple archivo de texto es una parte crucial de tu sitio. Puede parecer insignificante, pero puede que te sorprenda lo importante que es..

Veamos qué es un archivo robots.txt, qué hace y cómo configurarlo correctamente para su sitio..

¿Qué es un archivo robots.txt??

Para comprender cómo funciona un archivo robots.txt, necesita saber un poco sobre los motores de búsqueda ¿Cómo funcionan los motores de búsqueda? ¿Cómo funcionan los motores de búsqueda? Para muchas personas, Google es internet. Podría decirse que es el invento más importante desde la propia Internet. Y si bien los motores de búsqueda han cambiado mucho desde entonces, los principios subyacentes siguen siendo los mismos. Lee mas . La versión corta es que se envían. “rastreadores,” ¿Cuáles son los programas que rastrean el Internet para obtener información. Luego almacenan parte de esa información para poder dirigirla a la gente más adelante..

Estos rastreadores, también conocidos como “bots” o “arañas,” Encuentra páginas de miles de millones de sitios web. Los motores de búsqueda les dan instrucciones sobre dónde ir, pero los sitios web individuales también pueden comunicarse con los bots y decirles qué páginas deben ver..

La mayoría de las veces, en realidad están haciendo lo contrario, y les dicen qué páginas no debería estar mirando a Cosas como páginas administrativas, portales de back-end, páginas de categorías y etiquetas, y otras cosas que los propietarios de sitios no quieren que se muestren en los motores de búsqueda. Estas páginas aún son visibles para los usuarios y están disponibles para cualquier persona que tenga permiso (que a menudo es para todos).

Pero al decirles a esas arañas que no indexen algunas páginas, el archivo robots.txt les hace un favor a todos. Si has buscado “Hacer uso de” en un motor de búsqueda, ¿desearía que nuestras páginas administrativas se mostraran altas en los rankings? No. Eso no haría ningún bien a nadie, así que les decimos a los motores de búsqueda que no los muestren. También se puede usar para evitar que los motores de búsqueda verifiquen páginas que podrían no ayudarles a clasificar su sitio en los resultados de búsqueda..

En resumen, robots.txt le dice a los rastreadores web qué hacer.

Los rastreadores pueden ignorar robots.txt?

¿Alguna vez los rastreadores ignoran los archivos robots.txt? Sí. De hecho, muchos rastreadores hacer ignoralo. En general, sin embargo, esos rastreadores no son de motores de búsqueda de buena reputación. Son de spammers, recolectores de correo electrónico y otros tipos de robots automatizados que recorren Internet. Es importante tener esto en cuenta - usar el estándar de exclusión de robots para decirle a los bots que se mantengan alejados no es una medida de seguridad efectiva. De hecho, algunos bots podrían comienzo Con las páginas les dices que no vayan a.

Sin embargo, los motores de búsqueda funcionarán como lo indica el archivo robots.txt siempre que esté formateado correctamente..

Cómo escribir un archivo robots.txt

Hay algunas partes diferentes que entran en un archivo estándar de exclusión de robot. Voy a romper cada uno individualmente aquí.

Declaración de agente de usuario

Antes de decirle a un bot qué páginas no debería ver, debe especificar con qué bot está hablando. La mayoría de las veces, usarás una declaración simple que significa “todos los bots.” Eso se parece a esto:

Agente de usuario: *

El asterisco representa para “todos los bots.” Podrías, sin embargo, especificar páginas para ciertos bots. Para hacer eso, necesitará saber el nombre del bot para el que está estableciendo las pautas. Eso podría verse así:

User-agent: Googlebot [lista de páginas para no rastrear] User-agent: Googlebot-Image / 1.0 [lista de páginas para no rastrear] User-agent: Bingbot [lista de páginas para no rastrear]

Y así. Si descubre un bot que no desea rastrear en absoluto, también puede especificarlo..

Para encontrar los nombres de los agentes de usuario, visite useragentstring.com.

No permitir páginas

Esta es la parte principal de su archivo de exclusión de robot. Con una simple declaración, le dices a un bot o grupo de bots que no rastreen ciertas páginas. La sintaxis es fácil. Así es como no permitirías el acceso a todo en el “administración” directorio de su sitio:

No permitir: / admin /

Esa línea evitaría que los robots rastrearan yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html, y cualquier otra cosa que esté bajo el directorio de administración.

Para no permitir una sola página, simplemente especifíquelo en la línea de no permitir:

No permitir: /public/exception.html

Ahora el “excepción” La página no será arrasada, pero todo lo demás en el “público” carpeta será.

Para incluir varios directorios o páginas, simplemente enumérelos en las siguientes líneas:

No permitir: / privado / No permitir: / admin / No permitir: / cgi-bin / No permitir: / temp /

Esas cuatro líneas se aplicarán a cualquier agente de usuario que haya especificado en la parte superior de la sección.

Si desea evitar que los bots vean cualquier página de su sitio, use esto:

No permitir: /

Estableciendo diferentes estándares para los bots

Como vimos anteriormente, puedes especificar ciertas páginas para diferentes bots. Combinando los dos elementos anteriores, esto es lo que parece:

User-agent: googlebot Disallow: / admin / Disallow: / private / User-agent: bingbot Disallow: / admin / Disallow: / private / Disallow: / secret /

los “administración” y “privado” Las secciones serán invisibles en Google y Bing, pero Google verá el “secreto” directorio, mientras que Bing no lo hará.

Puede especificar reglas generales para todos los bots utilizando el agente de usuario de asterisco, y luego dar instrucciones específicas a los bots en las secciones posteriores, también.

Poniendolo todo junto

Con el conocimiento anterior, puede escribir un archivo robots.txt completo. Simplemente inicie su editor de texto favorito (somos fanáticos de Sublime 11 Sublime Text Tips para productividad y un flujo de trabajo más rápido 11 Sublime Text consejos para productividad y un flujo de trabajo más rápido Sublime Text es un editor de texto versátil y un estándar de oro para muchos programadores. los consejos se centran en la codificación eficiente, pero los usuarios en general apreciarán los atajos de teclado. Lea más aquí (en inglés) y comience a informar a los robots que no son bienvenidos en ciertas partes de su sitio.

Si desea ver un ejemplo de un archivo robots.txt, solo diríjase a cualquier sitio y añada “/robots.txt” hasta el final. Aquí hay parte del archivo robots.txt de Giant Bicycles:

Como puede ver, hay bastantes páginas que no quieren que aparezcan en los motores de búsqueda. También han incluido algunas cosas de las que aún no hemos hablado. Veamos qué más puedes hacer en tu archivo de exclusión de robots.

Localización de su sitemap

Si su archivo robots.txt le dice a bots donde no para ir, su sitemap hace lo contrario Cómo crear un sitemap XML en 4 sencillos pasos Cómo crear un sitemap XML en 4 sencillos pasos Hay dos tipos de mapas de sitio: página HTML o un archivo XML. Un mapa del sitio HTML es una sola página que muestra a los visitantes todas las páginas de un sitio web y, por lo general, tiene enlaces a esos ... Leer más y les ayuda a encontrar lo que buscan. Y mientras que los motores de búsqueda probablemente ya saben dónde está su mapa del sitio, no se pierde nada con avisarles nuevamente..

La declaración para la ubicación de un mapa del sitio es simple:

Sitemap: [URL del sitemap]

Eso es.

En nuestro propio archivo robots.txt, se ve así:

Mapa del sitio: //www.makeuseof.com/sitemap_index.xml

Eso es todo al respecto.

Configuración de un retraso de rastreo

La directiva de retraso de rastreo le dice a ciertos motores de búsqueda con qué frecuencia pueden indexar una página en su sitio. Se mide en segundos, aunque algunos motores de búsqueda lo interpretan de manera ligeramente diferente. Algunos ven un retraso de rastreo de 5, ya que les pide que esperen cinco segundos después de cada rastreo para iniciar el siguiente. Otros lo interpretan como una instrucción para rastrear solo una página cada cinco segundos.

¿Por qué le dirías a un rastreador que no rastree tanto como sea posible? Para preservar el ancho de banda 4 maneras en que Windows 10 está perdiendo su ancho de banda de Internet 4 maneras en que Windows 10 está perdiendo su ancho de banda de Internet ¿Windows 10 está perdiendo su ancho de banda de Internet? Aquí le indicamos cómo verificar y qué puede hacer para detenerlo. Lee mas . Si su servidor está teniendo dificultades para mantenerse al día con el tráfico, es posible que desee establecer un retraso de rastreo. En general, la mayoría de las personas no tienen que preocuparse por esto. Los sitios grandes de alto tráfico, sin embargo, pueden querer experimentar un poco.

Así es como establece un retraso de rastreo de ocho segundos:

Retraso de rastreo: 8

Eso es. No todos los motores de búsqueda obedecerán tu directiva. Pero no hace daño preguntar. Al igual que con el rechazo de páginas, puede establecer diferentes retrasos de rastreo para motores de búsqueda específicos.

Subiendo tu archivo robots.txt

Una vez que tenga todas las instrucciones de configuración de su archivo, puede subirlo a su sitio. Asegúrese de que sea un archivo de texto plano y que tenga el nombre robots.txt. Luego, cárguelo en su sitio para que lo pueda encontrar en yoursite.com/robots.txt.

Si usa un sistema de administración de contenido 10 Los sistemas de administración de contenido más populares en línea 10 Sistemas de administración de contenido más populares en línea Los días de las páginas HTML codificadas a mano y el dominio de CSS ya han pasado. Instale un sistema de administración de contenido (CMS) y en pocos minutos puede tener un sitio web para compartir con el mundo. Lea más como WordPress, probablemente hay una forma específica en la que tendrá que hacer esto. Debido a que difiere en cada sistema de administración de contenido, deberá consultar la documentación de su sistema..

Algunos sistemas también pueden tener interfaces en línea para cargar su archivo. Para estos, simplemente copie y pegue el archivo que creó en los pasos anteriores.

Recuerde actualizar su archivo

El último consejo que le daré es revisar ocasionalmente su archivo de exclusión de robots. Su sitio cambia y es posible que deba realizar algunos ajustes. Si nota un cambio extraño en el tráfico de su motor de búsqueda, también es una buena idea revisar el archivo. También es posible que la notación estándar pueda cambiar en el futuro. Como todo lo demás en su sitio, vale la pena revisarlo de vez en cuando.

¿De qué páginas excluye a los rastreadores de su sitio? ¿Ha notado alguna diferencia en el tráfico de motores de búsqueda? Comparte tus consejos y comentarios a continuación!

« Cómo copiar texto directamente desde un cuadro de diálogo de Windows Cómo contrarrestar las violaciones de datos 3 formas sencillas de proteger sus datos »