selenium 網頁存檔
selenium 常作為一個除錯工具,可以模擬瀏覽器,瀏覽網頁,儲存網頁內容是非常常見的操作,筆記一下。
工作環境:
windows 10
python 3
selenium
codecs
from selenium import webdriver
import codecs
import os
def savePageSource(fName):
#用寫入模式開啟檔案並且指定檔案編碼
f = codecs.open(fName, "w+", "utf−8")
#取得網頁內容
html = driver.page_source
#把網頁內容寫入檔案
f.write(html)
f.close()
pageSource = "https://somewhere.com"
#設定 chromedriver.exe 所在的路徑,或是和這個 python 放在一起,就可以不用加 executable_path 的參數
driver = webdriver.Chrome(executable_path="C:\\chromedriver.exe")
driver.implicitly_wait(0.5)
#把瀏覽器放到最大
driver.maximize_window()
#瀏覽指定的網頁
driver.get(pageSource)
#指定要存的檔案路徑和檔名
n=os.path.join("D:\\somewhere","savePage.html")
#網頁存檔
savePageSource(n)
#關閉瀏覽器
driver.close()
driver.quit()
收工!
======================================
f = codecs.open(fName, "w+", "utf−8")
如果開啟檔案的模式是 "w" 會出現沒有這個檔案的訊息
"w+"會覆寫檔案
留言
張貼留言