WindTom 技术、生活

文本分析和自然语言处理


信息熵

信息熵能够反映知道一个事件的结果后平均会给你带来多大的信息量。

\[H=\sum (-p_{i}logp_{i})\]

\(logp_{i}\)表示信息量的大小

凝合程度

对于一个词,比如“电影院”的凝合程度就是 min{P(电影院)/[P(电)P(影院)], P(电影院)/[P(电影)P(院)]

参考资料

  1. 互联网时代的社会语言学:基于SNS的文本数据挖掘(http://www.matrix67.com/blog/archives/5044)



上一篇 Hadoop平台学习

下一篇 learning spark

Comments