Robots.txt, WordPress y un error muy común

Robots.txt, WordPress y un error muy común

Si utilizamos el buscador para encontrar cómo crear el archivo robots.txt, nos encontraremos con cientos de recomendaciones. La mayoría son correctas pero hay una de ellas muy extendida que provoca efectos no deseados. En muchos manuales se aconseja añadir unas líneas específicas para el bot de Google sin advertir de que esta adición deja sin efecto el resto de reglas generales existentes en dicho archivo. Ese comportamiento es debido al sistema de jerarquías utilizado por Google, tal y como puede verse en el documento Especificaciones de robots.txt.:

Solo hay un grupo de registros de miembro de grupo válido para cada rastreador. El rastreador debe determinar cuál es el grupo de registros correcto buscando el grupo que tenga el agente de usuario más específico con el que exista coincidencia. El rastreador ignorará los demás grupos de registros. El orden de los grupos dentro del archivo robots.txt es irrelevante.

Robots.txt, WordPress y un error muy común

Veamos ahora cuál son esas líneas y el resultado que provocan. Todo archivo robots.txt comienza indicando a qué rastreadores (normalmente a todos) se aplican las reglas que se colocan a continuación:

User-agent: *
regla 1
regla 2
.......
regla n

El problema aparece cuando, haciendo caso de ese consejo tan extendido, añadimos un grupo específico para el bot de Google con el fin de habilitar el acceso a los archivos .css y .js:

User-Agent: Googlebot
Allow: /*.css$
Allow: /*.js$

Esto deja sin efecto el resto de reglas existentes en dicho archivo para el bot de Google por la gestión de jerarquías que utiliza. Dicho bot lee exclusivamente esas líneas (o cualesquiera otra que pongamos) y pasa por alto el resto.

No importa qué reglas añadamos sino el hecho de crear un grupo específico para Googlebot ya que éste solo leerá las reglas indicadas en dicho grupo.

Por otra parte, es necesario permitir al bot de Google acceder a ese tipo de archivos para que sus algoritmos puedan renderizan e indexar el contenido sin problemas.

¿Cuál es entonces la solución? Tenemos dos:

Duplicar, es decir, añadir el conjunto de reglas generales en cada grupo y en el del bot de Google añadir además las particulares.

User-agent: *
regla 1
regla 2
.......
regla n
User-Agent: Googlebot
regla 1
regla 2
.......
regla n
Allow: /*.css$
Allow: /*.js$

Eliminar el grupo específico para el bot de Google y añadir esas líneas a las generales.

User-agent: *
regla 1
regla 2
.......
regla n
Allow: /*.css$
Allow: /*.js$

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *