確認語料庫corpus
自然語言處理工具
CKIP (Chinese Knowledge and Information Processing)中央研究院開發的中文自然語言處理系統👉
https://ckip.iis.sinica.edu.tw/
百度工程師開發的開源中文斷詞工具👉https://github.com/fxsjy/jieba
資料前處理(資料準備)
確認文本資料完整性與正確性
刪除無需分析的部分
清除、取代拼寫錯誤
同義詞的調整與修改
繁體、簡體轉換
準備使用者字典user_dict
準備停用詞stopwords
專業用語字詞庫
各行各業專業用語👉https://pinyin.sogou.com/dict/