中文簡繁轉換兩三事 Opencc
中文簡繁轉換之前是用 convertz ,一來應用程式已經不知道放哪兒去了,二來目前網站上的範例用的都是 opencc ,不想折騰就跟風了,結果還是折騰了一下。
工作環境:
Windows 10
Anaconda
Python 3 (3.6,3.8)
opencc, hanlp
MS Visual Studio Build Tool + VC
opencc v1.1.3
OpenCC 目前是放在 https://github.com/BYVoid/OpenCC 沒有已編譯好的執行檔,如果要的話,得自已編譯,
如果要用 python 處理,安裝倒是簡單
然後就
converter.convert('汉字') # 漢字
好在之前為了要抑制 python gensim 產生的提示訊息要
在安裝時環境所需已經先裝好了 VC(v142)
因為想要使用範例中的指令方式處理資料所以自已編譯 opencc ,照著 OpenCC 說明檔
之後到 build/bin 裏面去找執行檔就行
OpenCC 的 data 裏有 config, dictionary 在轉換時會用到,要用的時侯,複製到專案的資料夾中 OpenCC 才能作用,其中設定檔要改一下,因為沒有發現所需的 osd 檔,好在 txt 檔還是有的,
s2tw.json: type: ocd 改成 type: text ; file:*****.ocd 改成 file:*****.txt
再把相對應的 txt 檔(也就是下方所指的 *****.txt)複製到專案資料夾
花了將近 111 分抓完維基的資料轉成文字檔,燙得不得了的筆電還得開電扇給它散熱 XD,INFO : finished iterating over Wikipedia corpus of 411713 documents with 95495916 positions (total 3881077 articles, 112215074 positions before pruning articles shorter than 50 words) 。
opencc 將處理完的資料轉成繁體中文又花了27分鐘,處理這個144873KB的檔案。
都編譯好 opencc 了,才發現 Hanlp 內建了簡繁轉換函式,大概像是 HanLP.s2t(text),真的是折騰啊~~
收工!
留言
張貼留言