selenium 網頁存檔

 selenium 常作為一個除錯工具,可以模擬瀏覽器,瀏覽網頁,儲存網頁內容是非常常見的操作,筆記一下。

工作環境:
    windows 10
    python 3
         selenium
         codecs

 

from selenium import webdriver
import codecs
import os

def savePageSource(fName):
    #用寫入模式開啟檔案並且指定檔案編碼
    f = codecs.open(fName, "w+", "utf−8")
    #取得網頁內容
    html = driver.page_source
    #把網頁內容寫入檔案
    f.write(html)
f.close()
 

pageSource = "https://somewhere.com"
#設定 chromedriver.exe 所在的路徑,或是和這個 python 放在一起,就可以不用加 executable_path 的參數
driver = webdriver.Chrome(executable_path="C:\\chromedriver.exe")
driver.implicitly_wait(0.5)
#把瀏覽器放到最大
driver.maximize_window()
#瀏覽指定的網頁
driver.get(pageSource)
#指定要存的檔案路徑和檔名
n=os.path.join("D:\\somewhere","savePage.html")
#網頁存檔
savePageSource(n)
#關閉瀏覽器
driver.close()
driver.quit()

 

收工!

 

======================================

    f = codecs.open(fName, "w+", "utf−8")

 如果開啟檔案的模式是 "w" 會出現沒有這個檔案的訊息

"w+"會覆寫檔案

 

留言

這個網誌中的熱門文章

使用 Excel 計算2個地點之間的直線距離

LINE 儲存的檔案傳到 email 不方便 很不方便 非常不方便 但是有解的筆記

合併列印標籤漏印