Extracción de contenidos personalizados con expresiones regulares en Screaming Frog

 

Una de las últimas mejoras de Screaming Frog nos permite la extracción de código HTML en campos personalizados mediante expresiones regulares.

Estos campos personalizados pueden ser descargados en la Excel con el resto de parámetros habituales de un rastreo (title, h1, canonical, etc.).

screaming_menu

screaming_campo

Con la potencia de las expresiones regulares y nuestra imaginación podemos utilizar estos campos de extracción personalizados para sacar información relevante en nuestros rastreos.

Hay que advertir que la herramienta Screaming Frog debe ser manejada de forma responsable y utilizarla sólo para rastrear tus propios sitios (o en los que tengas autorización para ello). Si se realizan muchas peticiones simultáneas en sitios pequeños sin una buena infraestructura de hosting se puede llegar a tumbar el servidor.

¿Qué autores de un blog generan más visitas?

Creamos un filtro de extracción personalizado teniendo en cuenta el HTML en el que aparece el nombre del autor, que podría ser del estilo:

<div class="autor"><h3 class="nombre_autor" ><a href="/john-doe” class="url">John Doe</a></h3>
<div class="autor"><h3 class="nombre_autor" ><a href="/juan-nadie” class="url">Juan Nadie</a></h3>

La expresión regular para capturar el nombre sería similar a:
<div class="autor"><h3 class="nombre_autor" ><a href=".+" class="url">(.+)</a></h3>

Nota: Estas expresiones regulares son sólo orientativas, hay muchos tutoriales para aprender a manejarlas.

Si además hacemos un rastreo con Screaming Frog aplicando la funcionalidad de enlazar con Google Analytics, sacaremos, junto al resto de campos habituales, el de autor y el de sesiones de tráfico orgánico.

De esta forma, tenemos una lista de las URLs más visitadas con el autor de cada una de ellas.

Aquí un ejemplo real:

screaming_autor

¿Cuántos comentarios o críticas tiene un producto?

Aquí hay que indicar que Screaming Frog no captura el código que se genera en Javascript mediante modificación del DOM, sólo captura el contenido que hay en el código fuente.

Así pues, has de asegurarte de que el número de comentarios aparece en el HTML, no uses la opción “inspeccionar elemento” si no la de “ver código fuente”.

Por ejemplo, podemos obtener el número de críticas de restaurantes.

screaming_reviews

Aprovechamos para indicarte que las expresiones regulares son, por defecto, codiciosas, es decir, que intentarán capturar el mayor trozo de código posible que cumpla con el patrón indicado. Por este motivo has de usar en los patrones de captura expresiones donde se limite el tipo de caracteres.

Para probar una expresión regular puedes usar esta herramienta.
https://regex101.com/#pcre

Sólo has de pegar el trozo de HTML de la página que quieres extraer, hacer pruebas para ver si captura bien y usar esa expresión en el Screaming.

Trazas como comentarios HTML

Como Screaming Frog puede capturar cualquier parte del código HTML de una página, podemos usar esto para extraer comentarios o trazas que se incluyan en las páginas. Al ser comentarios HTML, ni se muestran en la página al usuario ni los robots los leen, así que no es necesario ocultarlos.

Por ejemplo, podemos crear un comentario con el tiempo que tarda en ejecutarse una consulta en BD y luego analizar las URLs más lentas.

Sólo tendríamos que generar una traza en el HTML del tipo <!-- Consulta: 0.982 ms --> con el lenguaje de programación que usemos y que sería capturada en un campo de extracción personalizado.

Y para los que no quieran aportar datos relevantes, pueden alterar el valor real usando un multiplicador K que desvirtúe el tiempo mostrado, de tal forma que aunque en el código fuente ponga que el tiempo ha sido de 0.982 ms, el tiempo real habrá sido 0.982 / K

screaming_trazas

Número de resultados en las páginas de búsqueda

Las páginas de resultados de búsqueda son de una gran utilidad para el SEO, pero siempre hay que tener la precaución de no indexar páginas que no dan resultados o que den muy pocos, ya que se corre el riesgo de que otra búsqueda distinta dé el mismo resultado.

Podemos crear una expresión regular que extraiga el número de resultados de una página de búsqueda para ver las que están enlazadas en el sitio web y no tienen resultados.

screaming_resultados

Y mucho más…

Estos han sido sólo unos ejemplos, pero las posibilidades que abre esta opción son muchos.

The following two tabs change content below.

Internet República


1 estrella2 estrellas3 estrellas4 estrellas5 estrellas (Ninguna valoración todavía)
Cargando…
Sin comentarios

Deja un comentario:

5 × 2 =