都還沒開始用爬蟲就卡關
話說,只要提到抓網路資料,就會跑出一堆爬蟲Can do ...,bla bla bla,好像會寫幾行程式,馬上就會飛天,會鑽地,But...............
這次想要來點,登入網站抓資料,都還沒開工呢!要準備的東西一大堆,要爬蟲的工具,好像都是 python 的,和我不熟,接著還要 python 擴展,還要圖形辨識工具,還要 ocr 工具,還要…,還要…,有沒有搞錯,還沒開始就快累屎了
工作環境:
Windows 10
python 3.8.X
selenium
webdriver for selenium
pytesseract
opencv
selenium
opencv
tesseract-OCR
imagemagick
是的,想要爬網頁,先找那種不用登入的蛤,不然就得先把這些裝一裝!為什麼要影像處理的部份呢?因為要登入就要過驗證碼這關,也就是 captcha ,先把最難克服的解決掉,果然,要解決最難的問題,本身就是個大問題
先裝 python ,全部的工具裏面這個應該是最簡單的
selenium 為什麼有2個要裝呢?一個是 selenium 本身,一個是 python 要用的,都裝、都裝,省得之後夜長夢多,因為之前沒碰 python 完全不知道差在哪裏,先裝得起來再說; tesseract, opencv 同理
還要搞定編譯 opencv ,為了要處理圖形的物件,這東東可以抓出、辨識影像中的物件和它的屬性,天啊,連 c++ 都碰上了,不知道之後還要搞些什麼
然後圖形的物件,像是驗證碼找出來之後,要把圖裏面的文字認出來還是得靠ocr
後來發現處理影像讓驗證碼可供辨識的時侯, imagemagick 訊息比較多,功能也強,又多裝了一個工具,結果發現,這工具雖然已經有64位元版的了,路徑都設好了,呼叫 imagemagick 的時侯,居然出錯,只能移除,再重裝32位元版的才能行,真是折騰
折騰了一番,只把傢私傳好,不知何時能開始做菜,這些工具怎麼好像都是 linux 比較好裝的樣子啊~~
先醬子,收工!
留言
張貼留言