Se ha indexado aunque un archivo robotstxt la ha bloqueado

Indexado aunque bloqueado por robots.txt shopify

Su archivo robots.txt es un archivo de texto que proporciona instrucciones a los robots (rastreadores de motores de búsqueda) sobre las páginas de su sitio que deben rastrear y las que no. Al “permitir” o “no permitir” el comportamiento de los rastreadores, estás diciendo “Sí, rastrea esta página” o “No, no rastrees esta página”.
Para explicarlo mejor, echemos un vistazo al archivo robots.txt de Walmart.com. En la foto de abajo, podemos ver que Walmart está diciendo a los rastreadores que no visiten la URL “/account/” utilizando la regla disallow.
Para esta opción, tendrá que acceder a su servidor a través de FTP. Puede hacerlo con Adobe Dream Weaver y entrar con las credenciales de su sitio. Una vez que esté conectado a su servidor, siga los siguientes pasos:

Probador de robots.txt

Pero en primer lugar, no es necesariamente un problema si hay páginas bloqueadas por robots.txt., Puede haber sido diseñado debido a razones, tales como, desarrollador de querer bloquear las páginas innecesarias / categoría o duplicados. Entonces, ¿cuáles son las discrepancias?
Si se trata de una página con contenido significativo que realmente necesita que sus usuarios vean, entonces debe cambiar la URL. Esto es posible en los sistemas de gestión de contenidos (CMS) como WordPress, donde se puede editar el slug de una página.
En el caso de WordPress, si su archivo robots.txt forma parte de la instalación del sitio, utilice el plugin Yoast para editarlo. Si el archivo robots.txt que está causando problemas se encuentra en otro sitio que no es el suyo, debe comunicarse con los propietarios del sitio y pedirles que editen su archivo robots.txt.
Directivas Robots.txt que “dicen” que una página no debe ser indexada. Tenga en cuenta que debe permitir que la página con una directiva “noindex” sea rastreada para que los robots de los motores de búsqueda “sepan” que no debe ser indexada.
Páginas enlazadas desde otros sitios. Las páginas pueden ser indexadas si están enlazadas desde otros sitios, incluso si están prohibidas en el archivo robots.txt. En este caso, sin embargo, sólo la URL y el texto ancla aparecen en los resultados del motor de búsqueda. Así es como se muestran estas URLs en la página de resultados del motor de búsqueda (SERP):

Leer más  Negocios rentables en tiempos de crisis

Páginas indexadas pero bloqueadas por robots.txt google

Es posible que haya una directiva en su archivo robots.txt que impida la indexación de páginas que sí deberían estar indexadas, por ejemplo, las categorías y las etiquetas. Recuerde que las categorías y las etiquetas son URL reales de su sitio web.
Las páginas enlazadas desde otros sitios pueden ser indexadas incluso si están prohibidas en el archivo robots.txt. Cuando esto sucede, sólo el texto de anclaje y la URL aparecen en los resultados del motor de búsqueda.    Esta es una captura de pantalla de cómo aparecen estas URLs en las SERP
Suponiendo que haya creado un nuevo sitio web o incluso un nuevo contenido y haya incluido una regla “noindex” en robots.txt para evitar la indexación. O últimamente se ha inscrito en GSC hay formas de solucionar el problema de bloqueo por robots.txt:
También es posible que GSC le envíe estas notificaciones aunque no tenga un archivo robots.txt. Es posible que los CMS como WordPress ya hayan creado un archivo robots.txt, los plugins también pueden crear archivos robots.txt. Si se sobrescriben los archivos robots.txt virtuales con sus propios archivos robots.txt, esto podría causar la complicación en GSC.¿Cómo se soluciona este problema? El uso de una directiva para permitir que los bots de los motores de búsqueda rastreen su sitio web es la única forma en que los bots identificarán qué URLs indexar y cuáles ignorar.

Indexado aunque bloqueado por robots.txt squarespace

Pero en primer lugar, no es necesariamente un problema si hay páginas bloqueadas por robots.txt., Puede haber sido diseñado debido a razones, tales como, desarrollador de querer bloquear las páginas innecesarias / categoría o duplicados. Entonces, ¿cuáles son las discrepancias?
Si se trata de una página con contenido significativo que realmente necesita que sus usuarios vean, entonces debe cambiar la URL. Esto es posible en los sistemas de gestión de contenidos (CMS) como WordPress, donde se puede editar el slug de una página.
En el caso de WordPress, si su archivo robots.txt forma parte de la instalación del sitio, utilice el plugin Yoast para editarlo. Si el archivo robots.txt que está causando problemas se encuentra en otro sitio que no es el suyo, debe comunicarse con los propietarios del sitio y pedirles que editen su archivo robots.txt.
Directivas Robots.txt que “dicen” que una página no debe ser indexada. Tenga en cuenta que debe permitir que la página con una directiva “noindex” sea rastreada para que los robots de los motores de búsqueda “sepan” que no debe ser indexada.
Páginas enlazadas desde otros sitios. Las páginas pueden ser indexadas si están enlazadas desde otros sitios, incluso si están prohibidas en el archivo robots.txt. En este caso, sin embargo, sólo la URL y el texto ancla aparecen en los resultados del motor de búsqueda. Así es como se muestran estas URLs en la página de resultados del motor de búsqueda (SERP):