都還沒開始用爬蟲就卡關

話說，只要提到抓網路資料，就會跑出一堆爬蟲Can do ...，bla bla bla，好像會寫幾行程式，馬上就會飛天，會鑽地，But...............

這次想要來點，登入網站抓資料，都還沒開工呢！要準備的東西一大堆，要爬蟲的工具，好像都是 python 的，和我不熟，接著還要 python 擴展，還要圖形辨識工具，還要 ocr 工具，還要…，還要…，有沒有搞錯，還沒開始就快累屎了

工作環境：
Windows 10
python 3.8.X
    selenium
    webdriver for selenium
    pytesseract
    opencv
selenium
opencv
tesseract-OCR
imagemagick

是的，想要爬網頁，先找那種不用登入的蛤，不然就得先把這些裝一裝！為什麼要影像處理的部份呢？因為要登入就要過驗證碼這關，也就是 captcha ，先把最難克服的解決掉，果然，要解決最難的問題，本身就是個大問題

先裝 python ，全部的工具裏面這個應該是最簡單的

selenium 為什麼有2個要裝呢？一個是 selenium 本身，一個是 python 要用的，都裝、都裝，省得之後夜長夢多，因為之前沒碰 python 完全不知道差在哪裏，先裝得起來再說； tesseract, opencv 同理

還要搞定編譯 opencv ，為了要處理圖形的物件，這東東可以抓出、辨識影像中的物件和它的屬性，天啊，連 c++ 都碰上了，不知道之後還要搞些什麼

然後圖形的物件，像是驗證碼找出來之後，要把圖裏面的文字認出來還是得靠ocr

後來發現處理影像讓驗證碼可供辨識的時侯， imagemagick 訊息比較多，功能也強，又多裝了一個工具，結果發現，這工具雖然已經有64位元版的了，路徑都設好了，呼叫 imagemagick 的時侯，居然出錯，只能移除，再重裝32位元版的才能行，真是折騰

折騰了一番，只把傢私傳好，不知何時能開始做菜，這些工具怎麼好像都是 linux 比較好裝的樣子啊~~

先醬子，收工！

水月居幸福遊記