数据挖掘——热点事件发现

话题发现
微博信息爬取方法
网络舆情事件和热点事件发现
- 网络热点事件发现
- 网络舆情事件发现
微博个性分析²

话题发现

热点事件发现是话题发现与跟踪技术（TDT）在实际领域中的应用。

（文章）提出两层聚类的系统设计方法，分为批处理和实时处理两个阶段。每天的批处理过程主要是对该天的语料做第一层聚类，即凝聚聚类，得到每天的微类。实时处理过程则是对某个时间段内所有天的微类，按照时间的先后顺序，做第二层聚类，即signle-pass聚类，得到一个事件列表。接着利用事件热度计算公式，对候选事件进行过滤和排序，得到最终的热点事件。

微博信息爬取方法

内容来源：微博热点话题发现的方法实现

基于WebMagic爬虫框架爬取微博信息，根据数据特点进行数据清洗、分词和本地词库过滤等数据预处理工作。

网络舆情事件和热点事件发现

在中文文献中，有的作者将事件分为热点事件和舆情事件。有的人认为根据热度简单分析就能判断是否热点事件，但舆情事件由于变化性强，根据不同时期事件的发展变化走向，需要进行信息的同步，才能够随时准确的反映事件的热点成都，从而掌握网络舆情走向。

网络热点事件发现

网络舆情事件发现

主要针对热点舆情事件发现的方式分析不同算法的应用范围和优劣。参考资料。

single pass 单程事件识别算法

根据某一单独事件与某一类事件进行相应数据计算和分析。

其需要的数据有：（1）事件的关键字及其出现频率；（2）事件相关的话题出现和查询的频率。

single pass对于事件热点的数据分析比较科学，是一种好操作的常用热点事件计算方法之一。

KNN最近邻事件分类识别算法

KNN最近邻事件是指某一热点事件范围内所出现的不同角度的各种话题，能够全面准确地对当前热点事件的状态。

数据方法：根据事件相关的各个话题进行基本的搜寻,对不同话题依据时间先后进行划分，并针对不同时期话题所出现的关键字及其数量、频繁、类型等信息进行统计分析，最终计算出其中最为相近的几个话题，依据热点程度进行由重到轻分类和排序，最终实现对各个话题的全面分析。

SVM支持向量机事件识别算法

识别同一时期出现的不同热点事件。

通过函数算法能够将事件的热点计算更加精确，但算法相对复杂，普遍应用型稍差。

K-means平均值事件识别算法

计算不同话题与中心事件的距离，以此判定事件的热点程度并根据结果实行相关的报道。这种算法对于一些话题比较集中的热点事件比较适用，难易程度相对较低，容易快速实现对事件的热点数据分析。

SOM自组织映射事件识别算法

一种非常容易实际运用的事件热点计算方法。首先针对最先出现的热点事件进行信息收集与提取，针对其热点特征进行基本分析；其次建立起以热点为基础的映射事件组织，根据随时出现的相关话题或报道与热点事件的关系，及出现的时间先后进行事件的热点分析和舆情走向分析，从而掌握事件的发展规律或发展方向。

微博话题事件分析研究

微博中的话题事件分析研究主要包括事件检测与跟踪、首事件检测、突发事件检测、话题摘要以及话题模型等。

1）事件检测与跟踪：目标是对文本信息流进行新话题的自动识别和已知话题的持续跟踪。事件检测与跟踪的基础方法为计算文档之间的相似性。文档之间相似性常用度量方法为夹角余弦。

2）首事件与突发事件检测：目标是对文本信息流中每篇文档、顺序判断其是否描述了一个新的或者突发的事件。

3）话题摘要：目标是对一个话题的文档集合自动生成摘要，有助于理解话题的核心语义。

4）话题模型：常见的话题模型为向量空间模型和潜在的狄利克雷分布LDA。LDA模型是一个3层贝叶斯概率模型，包含词、主题和文档3层结构，将每个文档表示为一个主题混合，每个主题是固定词汇表上的一个多项式分布。

微博情感分析

情感分析又称意见挖掘。给定文档D，情感分析具有两个目标。首先情感分析算法将文档D分成两类：1）主观的；2）客观的。

情感分析的另一个目标为判断文档D在对应话题类别下的态度：积极的或者消极的。

情感分析通常利用分类技术判断文档D的态度，基于相似度的方法为情感分析常用方法。

微博信息检索

信息检索(infromation retrieval)是从大规模非结构化数据的集合中找出满足用户信息需求的资料的过程。信息推荐是将满足需求的信息通过某种方式推荐给相关用户。

信息推荐的目标为分析大量用欧冠胡的行为规律，计算大部分用户的行为偏好，从而自动向用户推荐相关信息。协同过滤技术是信息推荐中最广泛使用的技术。

微博关系分析与挖掘

微博用户之间的交互多样性使得微博网络呈现多关系特性，用户可以根据关注关系构造朋友网络；根据转发关系构造传播网络；根据回复关系构造评论网络。

1）关注关系形成机制的研究有助于了解微博社交网络形成机理。
2）转发关系形成机制研究。有助于了解微博中信息扩散的机理。
3）关系预测。关系预测的目的为通过分析历史数据，预测未来两用户之间是否会形成新的边，传统方法通常依靠两用户间的共同邻居数据来计算用户间的关系强度，从而来预测是否会形成新的边。利用杰卡德相似系数计算两节点的共同邻居数据。

传播预测：传播预测的目标为预测信息是否会被某用户传播以及信息的传播范围等。如利用线性回归方法等

微博中影响力分析

影响力在微博中是一个普遍存在的现象。传统个体影响力度量技术的相关研究主要包括点度中心度、接近中心度、中间中心度、HITS、PageRank及扩展方法等。

1）点度中心度：指的是该节点的度数，即与该节点直接相连的节点个数。点度中心度用来分析节点直接影响力，即考察个体的直接社会关系。

2）接近中心度：指个体与社交网络中所有其他节点的捷径举例（最短距离）之和。接近中心度用来分析个体通过社交网络对其他个体的间接影响力。

接近中心度需要计算网络中所有节点对之间的最短路径，计算开销大，优点是能够衡量一个节点的间接影响力。

3）中间中心度：指的是节点出于其他节点最短路径上的能力。中间中心度用来分析节点对信息传播的影响，即个体在多大程度上处于其他个体的中间，是否发挥出“中介”作用。

中间中心度需要计算所有节点对之间的最短路径，计算和存储开销都非常大。

4）HITS。由康奈尔大学的Kleinberg提出，全程Hypertext Induced Tpic Search。最初应用在搜索引擎中，根据一个网页的中心度和权威度来衡量网页重要性。

HITS算法综合考虑了节点的权威度与中心度，需要迭代计算，但忽略了节点影响力的划分。

5）PageRank。由谷歌创始人之一Page提出，最初应用在搜索引擎中。根据网页之间的超链接计算网页排名。一个页面的得票数由所有链向其页面的重要性决定，但随后学者将PageRank算法应用到社会网络中，为个体影响力度量的基础算法。

PageRank算法考虑了节点影响力的传播，需要迭代计算，但忽略了节点自身特征。微博中用户行为表现复杂、且用户规模数量庞大，仅依靠网络结构将忽略更加细粒度的影响力个体。比如无法发现话题层次的影响力个体。相关学者针对这一问题，在PageRank算法基础上提出了结合个体特征与网络结构的影响力度量技术。

6）PageRank算法扩展。Haveliwala等人考虑个体用户特征，在PageRank算法基础上提出了Personalized PageRank算法。将自重启向量改为个性化向量，用来表示个体对话题的偏好程度、个体发布信息的新颖程度与敏感程度等。

微博中影响力分析的目标为利用微博的网络关系以及文本信息，综合衡量每个用户的影响力，挖掘微博中的意见领袖。目前，微博中影响力主要依靠扩散能力、个体特征与网络结构等来衡量。

7）依靠扩散能力衡量影响力。比如Lee等人在Twitter数据集上模拟关注网络中的信息传播，通过计算用户的有效读者数来衡量一个用户的影响力。aggarwal提出一种随机信息流模型来发现Twitter中有代表性的权威节点。

8）依靠个体特征与网络结构衡量影响力。Pal等人在Twitter数据集上考虑个体的发帖数、回复数、被转发数、被提及数和粉丝数，分别计算个体的转发影响力、被提及影响力和扩散影响力等。

9）垃圾用户发现。针对微博用户的行为特征以及交友特性，发现类似依靠程序自动发帖的“发帖机器人”、“转发机器人”等。可以分析垃圾用户特征、社区结构等。

微博个性分析²

数据来源：博住发布的所有微博内容

分析方法：

1)汉语分词与词性标注 2)利用交叉信息熵计算有代表性的关键词w，权重

$f(w)=\sum_{l}-^p{_{l}}lnp_{l}+\sum _{r}-^p{_{r}}lnp_{r}$

3)所有关键词及权重组成的向量成为博主的微观个性

4）输出个性化词云