都還沒開始用爬蟲就卡關

 話說,只要提到抓網路資料,就會跑出一堆爬蟲Can do ...,bla bla bla,好像會寫幾行程式,馬上就會飛天,會鑽地,But...............

這次想要來點,登入網站抓資料,都還沒開工呢!要準備的東西一大堆,要爬蟲的工具,好像都是 python 的,和我不熟,接著還要 python 擴展,還要圖形辨識工具,還要 ocr 工具,還要…,還要…,有沒有搞錯,還沒開始就快累屎了

工作環境:
  Windows 10
  python 3.8.X
    selenium
    webdriver for selenium
    pytesseract
    opencv

  selenium
  opencv
  tesseract-OCR
  imagemagick

是的,想要爬網頁,先找那種不用登入的蛤,不然就得先把這些裝一裝!為什麼要影像處理的部份呢?因為要登入就要過驗證碼這關,也就是 captcha ,先把最難克服的解決掉,果然,要解決最難的問題,本身就是個大問題

先裝 python ,全部的工具裏面這個應該是最簡單的

selenium 為什麼有2個要裝呢?一個是 selenium 本身,一個是 python 要用的,都裝、都裝,省得之後夜長夢多,因為之前沒碰 python 完全不知道差在哪裏,先裝得起來再說; tesseract, opencv 同理

還要搞定編譯 opencv ,為了要處理圖形的物件,這東東可以抓出、辨識影像中的物件和它的屬性,天啊,連 c++ 都碰上了,不知道之後還要搞些什麼

然後圖形的物件,像是驗證碼找出來之後,要把圖裏面的文字認出來還是得靠ocr

後來發現處理影像讓驗證碼可供辨識的時侯, imagemagick 訊息比較多,功能也強,又多裝了一個工具,結果發現,這工具雖然已經有64位元版的了,路徑都設好了,呼叫 imagemagick 的時侯,居然出錯,只能移除,再重裝32位元版的才能行,真是折騰

折騰了一番,只把傢私傳好,不知何時能開始做菜,這些工具怎麼好像都是 linux 比較好裝的樣子啊~~

先醬子,收工!

留言

這個網誌中的熱門文章

使用 Excel 計算2個地點之間的直線距離

LINE 儲存的檔案傳到 email 不方便 很不方便 非常不方便 但是有解的筆記

Excel 巨集合併多個 Excel 檔案