Web Scraper - Documentación

1 Descripción

Web Scraper es una herramienta desarrollada en Python 3 que permite obtener información y detectar cambios en páginas web a través de la definición de reglas.

2 Deploy en Servidor

2.1 Conexión al servidor

Se utiliza un servidor Debian ubicado en la dirección 192.168.0.53 al cuál se deberá acceder por SSH desde una terminal Unix:

ssh scraping@192.168.0.53

Una vez ahí, nos dirigimos al directorio donde se encuentra la aplicación:

cd /home/scraping/scraper

2.2 Deploy rápido

Estando en el directorio raiz de la aplicación, podemos ejecutar el siguiente script para hacer el deploy:

./deploy.sh

Deberan ser provistas las credenciales de administrador. En ese script se ejecutan los comandos que se describen en la sección Deploy paso a paso.

3 Deploy paso a paso

Comenzamos por activar el entorno virtual, es necesario hacerlo ya que en él se encuentran instaladas todas las dependencias de la aplicación y las variables de entorno. Sabremos que está activado al ver (scraper-env) al inicio del prompt de la terminal. Para activarlo usamos:

source scraper-env/bin/activate

Teniedo el entorno listo, debemos actualizar el código con la última versión en el repositorio Git. Hacemos un pull para actualizarlo:

git pull

El código dentro del servidor no debería tocarse, por ello este comando no tendría que generar conflictos. En el caso que haya conflictos, deberá hacerse el merge que corresponda. Una vez actualizado el código, debemos empaquetar la aplicación, es importante tener en claro que debe ejecutarse con Python3, por ello el comando python debe hacer referencia a esta versión:

python setup.py install --record files.txt

Para finalizar, será necesario reiniciar el servicio scraper.service para que los cambios en la web tengan efecto. Se deberá ejecutar como root:

sudo systemctl restart scraper.service