Este repositório destina-se aos scripts de extração de dados, utilizando ferramentas e tecnologias para web scraping, como parte prática do Trabalho de Conclusão de Curso 2 em Engenharia de Software.
Todos os experimentos deste projeto foram criados e executados para fins acadêmicos, como forma de analisar ferramentas e métodos de extração de dados. Nenhum script foi ou será utilizado para denegriar a imagem da instituição fonte ou para corromper dados acessados.
-
Python3
sudo apt-get install python3 -
Pip3
sudo apt-get install python-pip -
Selenium
sudo pip3 install selenium -
WebDrivers (Chrome e Firefox)
Chrome:
https://sites.google.com/chromium.org/driver/Firefox:
https://github.com/mozilla/geckodriver/releases -
Mover os WebDrivers para a raíz da máquina
Chrome:
sudo mv chromedriver /src/binFirefox:
sudo mv geckodriver /src/bin -
Beautiful Soup
pip3 install beautifulsoup4 -
Scrapy
pip3 install scrapy
- Clone o repositório
git clone https://github.com/RafaellaJunqueira/WebScraping.git - Executar experimento 1 (Selenium)
-
Acessar o diretório do experimento:
cd SeleniumSelenium -
Executar o script:
python3 SeleniumSelenium.py
- Executar experimento 2 (Selenium + Beautiful Soup)
-
Acessar o diretório do experimento:
cd SeleniumBs4 -
Executar o script:
python3 SeleniumBs4.py
- Executar experimento 3 (Requisição em API)
-
Acessar o diretório do experimento:
cd Requests -
Executar o script:
python3 Requests.py
- Executar experimento 4 (Selenium e Scrapy)
-
Acessar o diretório do experimento:
cd SeleniumScrapy/my_scrapy -
Executar o script:
scrapy crawl stf_spider
Na raíz do projeto, executar: python3 expTimes.py
Cada experimento teve a experiência de desenvolvimento relatada desde de ponta a ponta. O documento descreve o passo a passo para atingir o resultado esperado, os desafios enfrentados e aprendizados durante o processo. Cada diretório contempla um experimento e seu respectivo memorando.