¿Qué es el Sitemap?
Un archivo de Sitemap es aquel que indicará a los motores de búsqueda, las páginas o URLs de una web, para que los robots de dichos buscadores rastreen toda la web de manera eficiente y correcta.
Este archivo tiene que estar subido en tu cuenta de Google Search Console, para que Google sepa que lo trabajas y lo tienes en cuenta.
Dentro de Web Master tools en la propiedad de la web, nos vamos a Rastreo >> Sitemap y ahí lo enviamos para que Google lo tenga bien a mano.
Hoy nos centramos en uno de los archivos más importantes de una web, el Sitemap. Se trata de uno de los más importantes para el correcto funcionamiento y posicionamiento de un proyecto online y muy pocos lo utilizan correctamente.
Es importante saber que se trata de un archivo que casi siempre pasa desapercibido, pero que no es complicado de utilizar si se estudia un poquito su funcionamiento.
Además tenemos grandes noticias y es que si trabajas con plataformas como WordPress, Prestashop o Magento se puede generar automáticamente con un pluging o módulo. Estos plugins cada vez son más completos por lo que son capaces de generar estos archivos de manera muy profesional. Eso sí, es necesario que cada cierto tiempo lo revisemos y no lo dejemos en el olvido.
Para evitar problemas y aprovechar al máximo todo lo que puede ofrecer un Sitemap, te enseñamos una serie de factores que probablemente desconocías.
¿Cómo mira un buscador tu web? En este caso Google
Tienes que saber que Googlebot accederá a tu web para rastrear contenidos nuevos cada poco tiempo, por lo que primero lee la información escrita en el archivo robots.txt ya que es aquel donde le indicamos al buscador los contenidos que deben ser indexados y los que no y posteriormente accederá a nuestro Sitemap.
Después de conocer los permisos que le indicamos en el Robots, Google pasará a revisar el archivo de sitemap.xml, hay que procurar que este archivo esté lo más actualizado posible, sobre todo si hablamos de una web de reciente creación.
La información que debe contener es la siguiente:
- Todas las URLs de las páginas, post y archivos visibles *Aquellas que hemos dado el visto nuevo para rastrear en el Robots.
- Etiquetas de títulos de contenido.
- Metadatos, datos estructurados y descripciones de páginas.
Todo esto estará especificado en el archivo de sitemap.xml.
¿Existen diferentes tipos de Sitemap?
Supongamos que tenemos un sitio web dinámico, en el que subimos productos o artículos o videos y que esta subida o publicación es continua, en este caso necesitaremos un Sitemap Dinámico. En el caso de que nuestra web no varíe demasiado podemos elaborar un Sitemap Estático e ir actualizándolo nosotros mismo.
Formatos en los que podemos generar un sitemap.
XML: Es el más usado y el que recomendamos que utilices, ya que tienes plugins para wordpress, prestashop o magento que te harán este archivo de manera automática.
RSS: Este formato está recomendado para aquellas páginas que tienen un feed generado que automatiza la subida de contenido, pero cuidado, se suele olvidar de añadir páginas antiguas, que son importantes pero que al no haberse generado de manera automática las pasa por alto.
TXT: Archivo creado a mano en formato txt, aquí eres tu el que manda y coloca una URL por línea.
Os dejo toda la información de Google para que tengáis más información sobre los formatos de Sitemap.
Nota: No se puedes crear archivos de Sitemap de más de 50.000 URLs y si son muchos miles e URLs es recomendable que hagas un índice de sitemap.
¿Qué URLs puedo incluir en un archivo de Sitemap?
- Aquellas que son INDEX, es decir aquellas que queremos que el buscado indexe
- Aquellas URLs que responden a un código 200
- Aquellas URLs que son canónicas
Errores básicos de Sitemap:
- Incluir en el Sitemap aquellas URLs que hemos bloqueado en el Robots.txt
Uno de los errores más comunes es incluir aquellas páginas que previamente hemos bloqueado en el Robots.txt como no indexables. Es decir, si no queremos que el buscador indexe este tipo de páginas, no debemos de ponerlas en el sitemap.
- Incluir en el Sitemap páginas que dan un 404
Si tenemos páginas que dan error 404 no las incluiremos en el Sitemap, sino que haremos una redirección hacia su página equivalente.
- Incluir URLs redireccionadas 301, 302…
Sólo incluiremos aquellas que responden a un 200.
- Incluir URls con Canonical apuntando a otra URL
Si hemos añadido en una página una etiqueta canonical que apunta hacia otra página, estamos diciendo que esa página no es la importante, sino que lo es aquella a la que apunta la etiqueta.
Para comprobar todo esto usaremos la herramienta de Screaming Frog.
En primer lugar, te recomiendo que descargues el archivo de sitemap que tienes actualmente. En el caso de que todavía no tengas archivo de Sitemap estos pasos te servirán igual.
Inicia Screaming Frog >> Mode>> List >> Upload List >> from a file >> selecciona Sitemap xml.
Analízalo y detecta los errores que pueda tener el archivo. Y si lo tienes que generar de cero, esta herramienta lo genera de manera automática, lo único que debes hacer es descargar el archivo que te muestra Screamig Frong y subirlo a tu htacces y GSC. Pero además, si no quieres complicarte la vida, actualmente la mayoría de las plataformas cuentan con Plugins que te permite generar sitemaps dinámicos estupendos y aceptados por Google.
¿Cuándo debes de revisar tu sitemap?
- Si has realizado una migración o has hecho cambios de estructura en tu web. En este caso encontrarás páginas 404 o 301.
- Si has marcado nuevas restrcciones index o no-index.
- Si has añadido el certificado de seguridad SSL. Tienes que tener en cuenta que este cambio varía todas tus URLs de http a https.
- Si te has aficionado a los “canonical” (recuerda que en el Sitemap no podemos tener páginas que apuntan a otras URLs)
Secretos del Sitemap:
Eliminar URLs de manera más rápida
En el caso de que necesites borrar fichas de productos, o has cambiado categorías por unas nuevas y ya no van a existir más deberás hacer que devuelvan un error 410.
CUIDADO: Ten presente que no se pueden borrar páginas así como así, debes asegurarte que esas páginas ya no tienen visitas, ni enlaces externos y que realmente nunca más van a volver a existir.
Estas páginas 410 las incluimos en nuestro sitemap y después de un tiempo considerable comprobamos que ya no están indexadas en Google.
Una vez estén dexindexadas las quitamos del archivo de Sitemap.
Dexindexación de URLs que no nos interesan:
Necesitamos eliminar cientos o miles de URLs que por el motivo que sea queremos que no aparezcan en los buscadores, y no queremos esperar a que el robot de Google pase por todas ellas:
Para ello añadiremos las URLs que hayamos definido como NO-INDEX en el archivo de Sitemap (si es posible, intentaremos generar una subcarpeta dentro de nuestro Sitemap que contenga únicamente estas páginas, de esta manera será mucho más sencillo su posterior borrado) y lo subiremos a GSC. Generemos con Screaming Frog el archivo o bien podemos utilizar esta herramienta gratuita.
Igual que en el caso anterior, una vez pasado un periodo de tiempo comprobaremos que estas páginas ya no están indexadas y las borraremos del Sitemap.
El archivo de Sitemap Conclusiones
Como has podido ver, el archivo de Sitemap es muy importante para que los buscadores interpreten nuestra web de manera correcta, además cuanto más específico sea nuestro archivo más sencillo será que los buscadores conozcan la importancia de cada página.
Si te empapas bien de información y empiezas a utilizar este archivo para mejorar el posicionamiento de tu web y lo aprovechas para las acciones avanzadas que hemos visto más arriba, verás cómo tu web mejora de manera exponencial.