Python Scrapy Playbook筆記

從第二課開始進行安裝與專案建立。

安裝條件 (第2課)

python
venv 虛擬環境

cmd

python -m venv scrapyVenv
.scrapyVenv/Scripts/activate

scrapy

cmd

pip install scrapy

建立專案 (第3課)

使用 scrapy 創建第一個專案，使用scripy startproject project_name指令。

cmd

scripy startproject firstscraper

此時會產生一個資料夾，裡面配置文件 ( scrapy.cfg ) 及一個子資料夾 ( /firstscraper )，結構像這樣:

firstscraper
├── scrapy.cfg
└── firstscraper
    ├── __init__.py
    ├── items.py
    ├── middlewares.py
    ├── pipelines.py
    ├── settings.py
    └── spiders
        └── __init__.py

firstscraper資料夾有幾個預設的內建檔案，都有相關用途，可參考官方文件。

釋義spider資料夾(第3課)

/spider 裡面是爬蟲程式所要放置的位置，當要擷取資料時，都須放在此處，爬蟲後的資料也會放在此處，官方文件才有提到。

cmd

scrapy crawl books

善用scrapy shell

scrapy 提供一個爬取數據的選擇器 scrapy shell，只需要在指令後加入雙引號把爬取的網址包覆即可，網址一定要包覆在雙引號內喔!。

cmd

scrapy shell 'https://quotes.toscrape.com/page/1/'

接續就會看到選擇爬取的項目 scrapy_shell 這選擇器的用意是要先查出關鍵字的位置，建議搭配瀏覽器。

Vue筆記

Tkinter

爬蟲

Scrapy

Selenium

Python Scrapy Playbook筆記

安裝條件 (第2課)

建立專案 (第3課)

釋義spider資料夾(第3課)

善用scrapy shell

Scrapy

Selenium

Python Scrapy Playbook筆記 #

安裝條件 (第2課) #

建立專案 (第3課) #

釋義spider資料夾(第3課) #

善用scrapy shell #

Python Scrapy Playbook筆記

安裝條件 (第2課)

建立專案 (第3課)

釋義spider資料夾(第3課)

善用scrapy shell