去标点符号

1
new = re.sub(r'[^\u4e00-\u9fa5]', '', old)

分词

1
2
3
4
import jieba.posseg as jp
posseg = jp.cut(text)
for i in posseg:
dic = {'word': i.word, 'flag': i.flag} # flag 是词性

词性

在这里插入图片描述