Configuración avanzada y RegEx para Screaming Frog

El uso de un rastreador o crawler de páginas webs es imprescindible a la hora de realizar SEO Onpage y, actualmente, Screaming Frog se ha convertido en la herramienta de rastreo favorita para la mayoría de profesionales SEO, ya que permite en su versión gratuita el rastreo completo de webs pequeñas hasta 500 URLs y en su versión de pago es capaz de rastrear los sitios más grandes de Internet (si la memoria de tu ordenador te aguanta, eso sí).

En este segundo caso es vital configurar adecuadamente el rastreo, para lo que Screaming Frog nos ofrece varias posibilidades de configuración para adaptarse a nuestras necesidades, teniendo en cuenta que todo lo que se indica a continuación es para el uso en modo spider.

998989_609598522406751_261118887_n

Configuración

Antes de comenzar el rastreo es necesario ajustar el rastreador para obtener las URLs que queremos y, aunque no es muy complicada la configuración, no siempre está claro cuándo marcar cada opción disponible, por lo que a continuación detallamos las principales:

Check external links: Indica si el programa debe comprobar los enlaces externos (hacia otro dominio) que encuentre en su rastreo. Esto no hará que se rastreen también los enlaces que se encuentren en estas páginas y es especialmente útil a la hora de detectar enlaces externos rotos.

  • Check links outside folder: Si quieres comprobar sólo las URLs dentro de un directorio, asegúrate que está desmarcada esta opción.
  • Crawl all subdomains: Si el sitio web que debes rastrear tiene varios subdominios y necesitas rastrearlos todos, debes tener marcada esta opción.
  • Crawl canonicals: Esta opción es muy útil si las URLs canónicas de la web no están enlazadas directamente, ya que nos aseguramos que Screaming Frog rastreará también las URLs canónicas y podremos verificar si tienen algún problema SEO.
  • Ignore robots.txt: Con esta opción podemos elegir rastrear la web siguiendo las reglas del archivo robots.txt para hacerlo igual que lo harían los buscadores o rastrear todas las URLs, incluso las que no rastrearían los buscadores.
  • Allow cookies: Si la web necesita que el navegador del usuario admita cookies, tendrás que activar esta opción para realizar un rastreo.
  • Request Authentication. Esta opción es necesaria sólo cuando vamos a rastrear una web que pide en alguna de sus páginas autentificación de usuarios por http. Si marcamos esta opción y la web solicita dicha autentificación, Screaming Frog nos mostrará un pop-up para que pongamos el usuario y clave necesarios para continuar con el rastreo.
  • Always follow redirects. En mi opinión debería estar siempre marcada, ya que en el caso de que no lo esté, Screaming se parará al llegar a una redirección y continuará analizando el resto de páginas. Para mí, es vital conocer adónde apunta una redirección, por lo que no veo por qué habría que desactivar esta función.
  • Respect noindex. Para realizar un rastreo sólo por las páginas que indexarán los buscadores se debe activar esta función, que hará que Screaming Frog no incluya en su rastreo las páginas que contengan la meta etiqueta robots con valor “noindex”.
  • Respect Canonical. De igual modo que ocurre con la opción anterior, esta hace que Screaming se comporte como lo haría un buscador en lo que a etiquetas canonical se refiere, por lo que sólo mostraría en su rastreo las urls canonical de las urls que contengan dicha etiqueta.

post-screaming-include

Uso de expresiones regulares

Quizá la funcionalidad de la herramienta más útil a la hora de rastrear webs con millones de URLs, pero la más complicada de utilizar si no te manejas con expresiones regulares. Los apartados donde podemos introducir nuestras expresiones regulares son en los menús “Include” y “Exclude” dentro de “Configuration”.

Ahí podemos separar de forma sencilla las expresiones regulares para incluir URLs en el rastreo o excluirlas, que sería como decir “Incluye/excluye todas las URLs que cumplan…”.

Consejo: para que Screaming Frog rastree una web cuando se utiliza esta funcionalidad, la página de inicio del rastreo debe contener al menos un enlace (href) que cumpla la expresión regular introducida.

Es necesario tener en cuenta que Screaming Frog trata cada línea que introduzcamos como una expresión regular independiente y buscará URLs que cumplan al menos una de las expresiones indicadas, de tal forma que si incluimos la expresión regular «.*» en cualquier línea de la opción “Include”, Screaming Frog rastreará todas las URLs que encuentre al cumplir éstas siempre una condición de las indicadas.

Las expresiones regulares más utilizadas son las que seleccionan URLs dentro de un subdirectorio concreto o URLs que contienen un parámetro:

Regex para seleccionar todas las URLs dentro de un directorio:

http://nombre-de-dominio.com/directorio/.*

Por ejemplo:

404

Realizaría un rastreo de todas las URLs que estuvieran dentro de la carpeta /blog de Internet República.

Si el directorio se encuentra dentro de la URL y puede variar su posición, podemos utilizar la siguiente regex:

.*/directorio/.*

Regex para seleccionar URLs que contienen un parámetro:

.*?parametro.*
.*&parametro.*

De esta forma obtenemos las URLs con el parámetro que se indique tanto como si encuentra al principio de la cadena de parámetros de la URL (el cual empieza con ?, como si se encuentra detrás de otros parámetros (que se separan con &).

Reescritura de URLs

Otra de las funcionalidades avanzadas de Screaming Frog menos usadas por desconocimiento de su existencia es la de reescribir URLs (URL Rewriting), la cual nos permite cambiar las URLs que mostrará Screaming Frog en sus listados. Esta función es especialmente útil cuando queremos realizar un sitemap.xml de forma manual.

Dentro de esta función, destaca por su sencillez la de “Eliminar parámetros”, que nos permite directamente poder indicar el nombre de los parámetros que no queremos que aparezcan en nuestras URLs, y Screaming Frog los eliminará directamente de su listado, tanto el parámetro en sí como su valor.

post-screaming-url-rewriting

Los parámetros que se suelen eliminar habitualmente son los de trackeo de afiliados, analítica web o sesiones.

La segunda opción, Regex Replacement es la más potente de todas, ya que realiza reemplazos mediante expresiones regulares de una forma simplificada. Por un lado, tenemos que incluir la expresión a detectar, y por otro el valor por el que se sustituirá:

post-screaming-url-rewriting2

Un ejemplo sencillo de lo que podemos hacer con esta funcionalidad sin ni siquiera utilizar expresiones regulares es cambiar todas las URLs que estén en protocolo HTTP aparezcan en el listado como HTTPS:

Regex: http://
Replace: https://

O cambiar el dominio .com por el .com.es:

Regex: .com
Replace: .com.es

Un rastreo más eficiente

Con todo esto, es mucho más sencillo realizar rastreos eficientes, ya que no olvidemos que un uso intensivo de Screaming Frog sobrecarga los servidores, por lo que debemos configurarlo en cada rastreo para obtener sólo las URLs que necesitamos y no realizar siempre un rastreo completo de la web.

Rate this post
The following two tabs change content below.

Carlos Estévez

Ingeniero informático de formación, antes era programador web. Dirijo los departamentos de Search Marketing y analítica web de Internet República. Dejándome seducir por R y el Big Data.