返回
社会民生
Python无监督抽词 SEO如何快速正确分词
关注:
207
答案:
1
悬赏:
0
解决时间
2019-07-23 03:07
匿名
已解决
2019-07-19 11:14
最佳答案
匿名
2019-07-19 11:14
凝聚程度:两个字连续出现的概率并不是各自独立的程度。例如“上”出现的概率是1×10^-5,”床”出现的概率是1×10^-10,如果这两个字的凝聚程度低,则”上床”出现的概率应该和1×10^-15接近,但是事实上”上床”出现的概率在1×10^-11次方,远高于各自独立概率之积。所以我们可以认为“上床”是一个词。
左邻字集合熵:分出的词左边一个字的信息量,比如”巴掌”,基本只能用于”打巴掌”,“一巴掌”,“拍巴掌”,反之”过去”这个词,前面可以用“走过去”,“跑过去”,“爬过去”,“打过去”,“混过去”,“睡过去”,“死过去”,“飞过去”等等,信息熵就非常高。
0
人关注
0
人点赞
举报
评分:
分
扫一扫访问当前网页
复制链接
二维码
短信
邮件
关闭
同类知道
赞美香港的句子有哪些?
4年前
去香港的签证分为几种?
4年前
香港英文介绍
4年前
去香港带点什么东西回来好呢?
4年前
香港的消费水平是否很高?
4年前
香港公司需要交税吗
4年前
取消
我要提问
分享好友
知道首页
频道列表