WindTom 技术、生活

热点新闻事件发现


热点新闻指某一新闻信息点在一段时间内,该信息点的新闻条数超过某个固定的阈值的新闻信息。

热点新闻信息挖掘是利用自动化的文本挖掘分析方法,及时准确地发现网络中各个方面的热点新闻信息,将他们聚合起来集中展现的一种行为。

热点新闻事件发现,首先需要对网页信息进行预处理。

网页信息预处理

互联网网络新闻信息多种多样,哪些信息才是应该抓取的?这里主要考虑一些门户站点以及比较知名的新闻站点的新闻,因为这些站点新闻质量高,可信度高。

确定抓取目标之后就需要对这些新闻进行定时抓取,积累一段时间内的新闻。这里采用随机游走和边界限定相结合的方式获取新闻页面。获取到的新闻页面就需要进行预处理。

网页信息预处理包括网页HTML解析、网页正文提取、网页分词(中文网页)

网页HTML解析

HTML解析的目的是获取页面中关键信息,比如网页生成时间、信息的标题、信息的发布者、信息的长度、信息的正文、信息的摘要等。

HTML解析主要有两种方法:
(一)正则表达式,缺点是特定网页信息正则很难描述,可读性、可移植性差。 (二)对HTML代码结构化。这种结构化有两种形式:DOM(document object model)和SAX(simple APIs for XML)。不足是DOM常驻内存,对于特别大的文档,解析和加载整个文档可能很慢且很耗资源。SAX不需要将数据存储在内存中,对内存要求较低。

网页正文提取

提取网页正文是比较困难的事情,通常方法有:

(一)基于模板的半自动方法。通过学习某些站点的网页结构,找出网页结构的共性,从而找到网页正文提取的模板,对网页正文进行提取。好处是针对具体的站点设定具体的模板,往往具有较高的准确度,并且易于实现;不足是可扩展性不强,对不同结构的网页,需要重新训练模板。

(二)机器学习的方法。对网络上各类站点中的网页进行分类训练,得到信息在网页中各个不同的区段的变化情况,从而找到信息的突变区域作为网页的正文。这种方法在精准度要求不高的大规模网页处理上具有一定的优势。

噪音去除

抓取到的网页需要将网页中噪音信息去除,同时将原始网页中有用信息进行结构化。

噪声主要是指网页中一些对用户价值不大的信息,比如页面中的广告,页面底端的注册和版权信息等。由于各网站的网页结构不一,这个任务处理起来并不容易。一般有基于模板的方法以及基于学习的方法解决这个问题。

去除噪音之后,需要对有用的信息进行结构化,抽取关键域中的信息,如网页的标题、链接信息,网页的正文并同时对网页进行分词操作。

网页分词

中文分词技术目前已经非常成熟。按照方法的不同,大致分为三类:

基于字符串匹配的分词方法,基于理解的分词方法、基于统计的分词方法。

文本分类和文本聚类

如何从大量具体的网页数据中提取出热门新闻并抽象出热点新闻的发展走势?

要解决这个问题,首先需要弄清楚每条新闻在讲述什么话题,讲述同样话题的网页有多少。这两个问题就是网页分类问题和网页聚类问题。

弄清楚每条新闻讲述的话题,即需要知道当前网页是哪个类别的新闻,是体育新闻还是娱乐新闻?只有在知道了所属类别之后,才能进一步对其内容记性分析。而同样话题的网页有多少则是一个聚类问题。聚类能够将同一类别中的网页按照话题区分开来

这样就能统计出一段时间内各个话题的新闻关注情况,从而得到热门新闻的发展趋势。

文本分类

文本分类算法常见的有朴素贝叶斯、贝叶斯网络、SVM、KNN、决策树和神经网络。

分类是将网页划分到事先确定的几个新闻大类中,比如娱乐、体育、社会等。如使用KNN算法。

文本聚类

完成网页分类之后,需要对各个类别中的网页进行聚类。聚类的目的是将一些相同或者相似的网页聚合在一起。然后就能跟姐姐新闻的数量来分析新闻的热度。

聚类分析算法大致分为:划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法。

数据个体之前的距离的定义也十分重要,它被用来衡量聚类过程中个体之间的远近关系,从而判断两个个体是否属于同一类。主要使用的距离有欧氏距离曼哈顿距离明考斯基距离

聚类过程完成之后,需要用合适的短语或者标签来描述聚出来的类别的基本信息,也就是聚类标签的生成。一般来说,聚类标签的生成利用自然语言处理的技术,从类别的个体中通过句法和语法的分析得到最能描述类别信息的短语合成列别标签。目前来说,并没有一个十分成熟和通用的方法来完成这项任务,很多时候,需要根据具体情况选择合适的标签产生方法。

资料来源:链接


下一篇 Hadoop平台学习

Comments