Contenidos
Un archivo robotstxt bloquea el robot de google
Ejemplo de robots.txt
Pero en primer lugar, no es necesariamente un problema si hay páginas bloqueadas por robots.txt., Puede haber sido diseñado debido a razones, tales como, desarrollador de querer bloquear las páginas innecesarias / categoría o duplicados. Entonces, ¿cuáles son las discrepancias?
Si se trata de una página con contenido significativo que realmente necesita que sus usuarios vean, entonces debe cambiar la URL. Esto es posible en los sistemas de gestión de contenidos (CMS) como WordPress, donde se puede editar el slug de una página.
En el caso de WordPress, si su archivo robots.txt forma parte de la instalación del sitio, utilice el plugin Yoast para editarlo. Si el archivo robots.txt que está causando problemas se encuentra en otro sitio que no es el suyo, debe comunicarse con los propietarios del sitio y pedirles que editen su archivo robots.txt.
Directivas Robots.txt que “dicen” que una página no debe ser indexada. Tenga en cuenta que debe permitir que la página con una directiva “noindex” sea rastreada para que los robots de los motores de búsqueda “sepan” que no debe ser indexada.
Páginas enlazadas desde otros sitios. Las páginas pueden ser indexadas si están enlazadas desde otros sitios, incluso si están prohibidas en el archivo robots.txt. En este caso, sin embargo, sólo la URL y el texto ancla aparecen en los resultados del motor de búsqueda. Así es como se muestran estas URLs en la página de resultados del motor de búsqueda (SERP):
Sintaxis de robots.txt
¿Has confirmado que el nuevo archivo se ha subido correctamente? Ha habido veces que he intentado subir un archivo por FTP al servidor, pero cuando lo he comprobado online no aparecían los cambios. Cuando entré en el panel de control de mi alojamiento, y vi mis archivos, seguía estando el archivo antiguo. Aparentemente el archivo no fue transferido correctamente por mi cliente FTP, aunque no mostraba ningún error.
Si el archivo fue subido correctamente, y puedes ver el nuevo archivo en el navegador, entonces tu archivo está siendo cacheado en otro lugar. Algunos CDN’s almacenan en caché los archivos estáticos, por lo que esto podría ser la causa si usted utiliza un CDN.
Robots.txt disallow
Bloquear páginas no públicas: A veces tienes páginas en tu sitio que no quieres que se indexen. Por ejemplo, puede tener una versión de una página en fase de pruebas. O una página de inicio de sesión. Estas páginas deben existir. Pero no quiere que personas al azar aterricen en ellas. Este es un caso en el que se utiliza robots.txt para bloquear estas páginas de los rastreadores y bots de los motores de búsqueda.
Evitar la indexación de recursos: El uso de meta directivas puede funcionar tan bien como el Robots.txt para evitar que las páginas sean indexadas. Sin embargo, las meta directivas no funcionan bien para los recursos multimedia, como los PDF y las imágenes. Ahí es donde entra en juego robots.txt.
Además, si tiene miles de páginas que desea bloquear, a veces es más fácil bloquear toda la sección de ese sitio con robots.txt en lugar de añadir manualmente una etiqueta noindex a cada página.
Fuera de estos tres casos extremos, recomiendo utilizar las meta directivas en lugar de robots.txt. Son más fáciles de implementar. Y hay menos posibilidades de que ocurra un desastre (como bloquear todo el sitio).
Comprobador de robots.txt de google
Esto ayuda a los sitios a evitar posibles problemas de seguridad y cualquier conflicto potencial que pueda dar lugar a que se indexen páginas que no tienen que aparecer en los resultados de búsqueda. Sin embargo, el archivo robots.txt también puede ser un medio eficaz.
Por ejemplo, en el ejemplo de archivo robots.txt anterior hay activos de codificación almacenados en la carpeta /cgi-bin del sitio web, por lo que añadir una línea de rechazo permite que los rastreadores observen que no hay activos dentro de esta carpeta que el sitio quiera indexar.
También puede designar dentro del archivo robots.txt los activos que desea evitar que aparezcan en los resultados de búsqueda, incluyendo imágenes específicas, archivos de vídeo y audio, así como bloquear archivos de imagen, script o estilo sin importancia (si cree que las páginas cargadas sin estos recursos no se verán afectadas significativamente por la pérdida).
Utilice el archivo robots.txt para gestionar el tráfico de rastreo y también para evitar que los archivos de imagen, vídeo y audio aparezcan en las SERP. Tenga en cuenta que esto no impedirá que otras páginas o usuarios enlacen a su imagen, vídeo o archivo de audio.