Semalt comparte una manera fácil de extraer información de sitios web

Web Scraping es un método popular para obtener contenido de sitios web. Un algoritmo especialmente programado llega a la página principal del sitio y comienza a seguir todos los enlaces internos, ensamblando los interiores de los divs que especificó. Como resultado, el archivo CSV está listo y contiene toda la información necesaria en un orden estricto. El CSV resultante se puede utilizar para el futuro creando contenido casi único. Y en general, como tabla, estos datos son de gran valor. Imagine que la lista completa de productos de un taller de construcción se presenta en una tabla. Además, para cada producto, para cada tipo y marca del producto, se rellenan todos los campos y características. Cualquier redactor que trabaje para una tienda en línea estará encantado de tener dicho archivo CSV.

Hay muchas herramientas para extraer datos de sitios web o scraping web y no se preocupe si no está familiarizado con ningún lenguaje de programación, en este artículo le mostraré una de las formas más fáciles: usar Scrapinghub.

En primer lugar, vaya a scrapinghub.com, regístrese e inicie sesión.

Se puede omitir el siguiente paso sobre su organización.

Entonces llegas a tu perfil. Necesitas crear un proyecto.

Aquí debe elegir un algoritmo (utilizaremos el algoritmo "Portia") y asignarle un nombre al proyecto. Digámoslo de alguna manera inusual. Por ejemplo, "111".

Ahora entramos en el espacio de trabajo del algoritmo donde necesita escribir la URL del sitio web del que desea extraer datos. Luego haga clic en "Nueva araña".

Iremos a la página que servirá como ejemplo. La dirección se actualiza en el encabezado. Haga clic en "Anotar esta página".

Mueva el cursor del mouse hacia la derecha para que aparezca el menú. Aquí nos interesa la pestaña "Elemento extraído", donde debe hacer clic en "Editar elementos".

Sin embargo, se muestra la lista vacía de nuestros campos. Haga clic en "+ Campo".

Aquí todo es simple: debe crear una lista de campos. Para cada elemento, debe ingresar un nombre (en este caso, un título y contenido), especificar si este campo es obligatorio ("Obligatorio") y si puede variar ("Variar"). Si especifica que un elemento es "obligatorio", el algoritmo simplemente omitirá las páginas donde no podrá completar este campo. Si no está marcado, el proceso puede durar para siempre.

Ahora simplemente haga clic en el campo que necesitamos e indique qué es:

¿Hecho? Luego, en el encabezado del sitio web, haga clic en "Guardar muestra". Después de eso, puede volver al espacio de trabajo. Ahora el algoritmo sabe cómo obtener algo, necesitamos establecer una tarea para ello. Para hacer esto, haga clic en "Publicar cambios".

Vaya al tablero de tareas, haga clic en "Ejecutar araña". Elija el sitio web, la prioridad y haga clic en "Ejecutar".

Bueno, el raspado ahora está en proceso. Su velocidad se muestra apuntando con el cursor el número de solicitudes enviadas:

La velocidad de preparar cadenas en CSV, apuntando a otro número.

Para ver una lista de artículos ya hechos, simplemente haga clic en este número. Verás algo similar:

Cuando haya terminado, el resultado se puede guardar haciendo clic en este botón:

¡Eso es! Ahora puede extraer información de sitios web sin ninguna experiencia en programación.