WebScraping (extracción de datos) de wikipedia con Pandas

Posted on jue 19 abril 2018 in Tutorial Python • Tagged with Python, Webscraping, Pandas, Wikipedia • 7 min read

Continuando con la serie de artículos sobre Pandas, en este artículo se muestra un proceso de extracción de datos web de la página que contiene información sobre los Estados de Venezuela de Wikipedia.

En los procesos anteriores de WebScraping se trabajaba practicamente a mano para indentificar las secciones del código …


Continue reading

Almacenar los datos de los eventos sismológicos de Funvisis con Python3

Posted on lun 24 julio 2017 in Tutorial de Python • Tagged with Python, Webscraping, BeautifulSoup, Request, MongoDB, Pymongo • 4 min read

En el artículo sobre la captura de datos de eventos sismológicos de funvisis solamente se trabajó el orenamiento de los datos, pero hace falta almacenar la información en una base de datos, este es el tema del artículo.

Ahora se tienen varios módulos:

  • sismux_getdata.py: Es el módulo que hace …

Continue reading

Obtener datos de eventos sismológicos de Funvisis con Python3 (segunda versión)

Posted on sáb 24 junio 2017 in Tutorial de Python • Tagged with Python, Webscraping, Request • 2 min read

El primer artículo sobre obtener los datos sismológicos de Funvisis con Python, se usó la librería python-mechanize, en este caso se usará la librería request y Python 3.*.

El código se muestra a continuación:

#!/usr/bin/env python3


#Se importa beautifulSoup

from bs4 import BeautifulSoup

#Se importa la fecha

from …

Continue reading

Obtener datos de eventos sismológicos de Funvisis con Python

Posted on vie 19 mayo 2017 in Tutorial Python • Tagged with Python, Mechanize, BeautifulSoup, Webscraping • 3 min read

Este artículo es gracias al código desarrollado por William Cabrera, donde en su blog menciona que creó un Canal en Telegram sobre los Sismos en Venezuela. El código fuente de sus scripts en php fueron la base para el código Python que se muestra en este artículo.

Gracias William por …


Continue reading

Descarga de documentos (Informes de gestión del 2015) de la página web de la Asamblea Nacional con Python.

Posted on vie 25 marzo 2016 in Tutorial Python • Tagged with Debian, Linux, Python, requests, BeautifulSoup, Webscraping • 2 min read

Retomando los artículos sobre webscraping (pueden visitarlos en el siguiente enlace).

Se tiene la página de la Asamblea Nacional, donde se alojan las memorias y cuentas del Ejecutivo Nacional, pueden visitar el sitio en el siguiente enlace.

El url es: http://www.asambleanacional.gob.ve//documento/show2/id/64 .

A …


Continue reading

Extracción de datos de páginas web con scrapy y MongoDB

Posted on vie 02 enero 2015 in Tutorial Python y Linux • Tagged with Debian, Linux, Python, Ubuntu, Webscraping • 5 min read

En el artículo anterior (Extracción de datos de páginas web con scrapy se hizo una introducción del uso de scrapy basándose en el tutorial de la página del proyecto.

Este artículo continua la serie de artículos sobre extracción de datos de páginas web (webscraping.

En el artículo anterior se extrajo …


Continue reading

Extracción de datos de páginas web con scrapy

Posted on jue 01 enero 2015 in Tutorial Python • Tagged with Debian, Linux, Python, Ubuntu, Webscraping • 6 min read

En artículos anteriores se ha tocado el tema de webscraping, ahora se usará el framework scrapy que permite automatizar la extracción de los datos.

Scrapy es un framework para el rastreo y extraccion de datos estructurados de páginas web. Los datos pueden ser usados para data mining, procesamiento de datos …


Continue reading

Webscraping con Python Mechanize y BeautifulSoup4

Posted on mar 29 octubre 2013 in Tutorial Python • Tagged with Canaima, Debian, Linux, Python, Ubuntu, Webscraping, Mechanize, Beautiful Soup • 3 min read

Ahora se utilizará a Python Mechanize con BeautifulSoup4 para extraer la información de la salida y ocultamiento del sol en Venezuela con un breve cambio para mostrar el dinamismo que se le puede dar a la extracción de datos de una página web.

En este caso se extraerá información del …


Continue reading

Extracción de datos de página web con pyquery y Python

Posted on dom 27 octubre 2013 in Tutorial Python • Tagged with Canaima, Debian, General, Linux, Python, Ubuntu, Webscraping • 1 min read

Continuando con los artículos de webscraping ahora toca el turno a pyquery.

Ya la explicación de ubicación de la información que se desea obtener fue explicada en este artículo artículo.

Pyqueary es una librería que permite hacer consultas de jquery y en documentos xml.

La idea es obtener la información …


Continue reading

Extracción de datos de páginas web con Scrapemark y Python

Posted on sáb 26 octubre 2013 in Tutorial Python • Tagged with Canaima, Debian, General, Linux, Python, Ubuntu, webscraping, Scrapermark • 2 min read

Continuando con los artículos sobre webscraping, ahora es el turno de scrapermark.

Se sigue usando como página de ejemplo timeanddate.com. Scrapermark usa expresiones regulares internamente lo que le da velocidad en la busqueda, utiliza un lenguaje parecido al HTML.

Para bajar scrapermark se puede bajar el egg o el …


Continue reading