Qué es el archivo robots.txt y cómo decirle a los buscadores lo que pueden y no pueden ver ayuda a tu página web

robots-txt

Cuando tienes una página web, lo normal es que dediques muchos esfuerzos a gustarle a los buscadores para que te recompensen con mejores posiciones en sus resultados. Es algo que nos pasa a todos.

Pero, ¿sabías que hay una manera de decirles dónde pueden entrar y dónde no? Así es, por mucho poder que tengan, puedes tener la última palabra y todo gracias al archivo robots.txt.

¿En qué consiste? ¿Qué ventajas tiene? ¿Cómo puedes crear uno? Todas esas preguntas son las que contestamos en las próximas líneas.

Prepárate, hoy le dices a Google “aquí mando yo”… Y lo mejor es que te lo agradecerá. 😉

¿Qué es el archivo robots.txt?

Si vas a su página en la Wikipedia, la explicación que hay es la siguiente:

Un archivo robots.txt en un sitio web funcionará como una petición que especifica que determinados robots no hagan caso a archivos o directorios específicos en su búsqueda.

O dicho con otras palabras, se trata de un archivo que leen los robots que indexan las páginas web donde se indica que partes de esta deben ignorar. Esa es su función principal pero, como veremos más adelante, dan mucho más juego.

¿Por qué es tan importante el archivo robots.txt?

A pesar de que se trata de un archivo opcional, nuestro consejo es que tu página web cuente con él. ¿El motivo? Todas las ventajas que ofrece:

¿Qué te parece? ¿Merece o no la pena tener uno? Nosotros no tenemos ninguna duda… Un rotundo sí.

Cómo crear tu propio archivo robots.txt

Crear el archivo robots.txt no tiene complicación ninguna pero, antes de enseñarte cómo hacerlo, es importante que conozcas estos aspectos:

Una vez que esto queda claro, toca ponerse manos a la obra. Crear el archivo.txt es muy sencillo, ya que basta con abrir el bloc de notas (o cualquier otro programa similar), incluir las restricciones que quieras y guardarlo con el nombre robots.txt.

1. Comandos más importantes

La forma en que el archivo “habla” a las arañas de los buscadores debe cumplir unos requisitos que se recogen en el Robots Exclusion Protocol:

  • Debes usar solo los comandos permitidos.
  • Los robots distinguen entre minúsculas y mayúsculas, signos de puntuación y espacios por lo que hay que respetarlos.
  • Para poner un comentario, se usa la almohadilla (#).

Y ahora sí, los comandos principales son:

  • User-agent: es obligatorio y señala el robot del buscador que debe seguir la orden (puedes consultar el nombre de cada uno aquí).
  • Disallow: con este comando indicas el directorio o url que no debe ser rastreada.
  • Allow: se usa para revocar el disallow y permitir que se acceda a un a un subdirectorio de un directorio bloqueado.
  • Sitemap: en caso de que cuentes con varios de estos archivos, en este comando se indica cuál debe rastrear. Es opcional.

A parte de eso, puedes incluir en los comandos ciertos caracteres que ayudan a hilar más fino:

  • Asterisco (*): es una forma de decir que “todo vale”. Por ejemplo, si tienes las galerías de imágenes ordenadas por directorios y quiere evitar su indexación, usarías “/galeria*/”.
  • Dólar ($): se utiliza para hacer referencia al final de una dirección web. Por ejemplo, “/.aspx$” hace que no se recopilen los archivos que terminan con esa extensión.

Como ves, esto aporta unas posibilidades muy interesantes.

Ejemplo de archivo robots.txt

Llega el momento de ver “en acción” esta herramienta y para ello, hemos creado un ejemplo de archivo robots.txt que podrías usar en cualquier página web:

User-Agent: *

Disallow: /imagenes

Allow: /imagenes/fotografias/

Sitemap: https://tupaginaweb.com/sitemap.xml

Veamos qué significan cada línea:

  1. Es una forma de indicar que todos los robots deben cumplir las normas.
  2. Evitamos que rastreen un directorio concreto.
  3. Le decimos que del directorio que estaba vetado, sí que puede indexar un subdirectorio concreto.
  4. La dirección del sitemap de la página web.

Y recuerda que puedes afinar más con el uso del asterisco y del dólar.

Comprueba que el archivo robots.txt no tiene errores

Por muy opcional que sea, una vez que lo tienes, es importante tener la certeza de que hace lo que quieres que haga, algo sencillo de comprobar si conoces Google Webmasters Tools. En concreto, debes entrar en Search Console, una de las herramientas que componen la suite que la gran G pone a tu disposición.

Una vez estés dentro, tienes dos opciones (ambas en el menú de “Rastreo”):

  • Explorar como Google: basta con que hagas clic en “Obtener y procesar” para que te muestre cómo el buscador ve tu página web.
  • Probador de robots.txt: como indica su propio nombre, se trata de un lugar donde comprobar que todo está correcto dentro del archivo.

Optes por la opción que optes, es muy importante que el resultado sea de cero errores porque, si algo va mal en robots.txt, significa que tu sitio va mal.

¿Tu página web cuenta con un archivo robots.txt?

¿O es de esas en las que los buscadores entran “hasta en la cocina”? Si tienes algo que decirnos acerca del archivo robots.txt, quieres contarnos tu experiencia creándolo o tienes alguna duda, no dudes en escribirnos en los comentarios de más abajo.

Queremos que nos cuentes lo que te ronda la cabeza sobre este teman así que… ¡a por ellos! 😉