Robots.txt es un archivo que contiene un texto con información que dicta ciertas instrucciones a los robots de las máquinas de búsqueda, de como indexar el contenido de nuestra página web. Ya sea para indexar, omitir, re-indexar, eliminar u ordenar nuestro contenido.
Esto se hace ya que los motores de búsqueda visitan con cierta frecuencia nuestro sitio web para rastrear el contenido atreves de las popularmente conocidas arañas (Robots), que al encontrar nuevo contenido lo agregan a un índice, valorándolo y decidiendo si lo indexa en los resultados de búsqueda es decir que le dan relevancia al posicionamiento SEO de nuestra página web.
Dentro de los robots más conocidos podemos mencionar:
- El robot Googlebot: indexa el contenido para Google.
- Msnbot: indexa el contenido para Bing
- Yahoo slurp: indexa el contenido en Yahoo.
Funcionamiento Robots.txt
Su principal función es facilitar la indexación del contenido de una página web, se utiliza el archivo robots.txt, quien se encarga de dar instrucciones a las arañas sobre que contenido deben rastrear, como deben hacerlo y que contenido no debe indexar.
Este archivo no forzará de ninguna manera el comportamiento habitual de los Robots dentro del sitio, solo sirven de guía para que las arañas accedan a él. Aunque existen Robots que no siguen las instrucciones, Google, que ofrece tantas herramientas para optimizar resultados, es muy común que si lo tome en cuenta.
Ejemplo de un Robots.txt
Abre un documento de archivo de texto “.txt” en blanco y coloca estas instrucciones:
User-agent: * Disallow: /desarrollo/ Disallow: /admin/
Significado:
- User-agent: Aquí indicamos para que Robot es la indicación
- *: El asterisco indica que es una indicación para todos los Robots. Anteriormente era muy común que cada Robot tuviera sus propios protocolos, pero en la actualidad los Robots más importantes normalmente respetan las mismas indicaciones.
- Disallow: Esta indicación se refiere a prohibir el acceso a una sección del nuestro sitio, en este caso por ejemplo , estamos bloqueando el acceso a la carpeta de “/desarrollo/” que probablemente se utilice para realizar pruebas y que no nos interesa que estas pruebas se muestren al público en general. También estamos bloqueando “/admin/”, en donde probablemente se tengan archivos privados que no nos gustaría publicar.
A continuación guarda y sube el archivo a tu servidor:
Guarda el documento como robots.txt y sube el documento a la raíz de tu servidor
Para asegurar que está en línea, ingresa en tu buscador el URL: www.tunegocio.mx/robots.txt y deberás ver las indicaciones que pusiste en tu archivo.
Sobre el Autor:
Ingeniero en telecomunicaciones y asesor de proyectos IT. Apasionado de la tecnología, el marketing, las telecomunicaciones y el desarrollo de proyectos. Redactor y diseñador por pasión y convicción.