WindTom 技术、生活

大数据分析工具


(注:本文内容来自互联网)

大数据分析的六大最好工具

原文链接见这里

此文总结来说就是介绍了大数据分析的几个工具,分别是:

  1. Hadoop
  2. HPCC(高性能计算与通信)
  3. Storm。开源软件,一个分布式、容错的实时计算系统。
  4. Apache Drill。开源项目,目的是帮助企业用户寻找更为有效、加快Hadoop海量数据查询。
  5. RapidMiner。世界领先的数据挖掘解决方案,免费提供数据挖掘技术和库,全部使用Java代码。
  6. Pentaho BI。以流程为中心,面向解决方案的框架。目的在于将一系列面向商务智能的独立产品如Jfree、Quartz等集成在一起,构成复杂的、完整的商务智能解决方案。

大数据分析八大工具

原文见这里。主要是IBM、HP等各大厂商提供的解决方案。

大数据全栈式开发语言

原文见这里。本文主要分析了Python在大数据开发中发挥的全能作用。

  1. 云基础设施
    Hadoop因为MapReduce数据处理速度不够快,已经不再作为大数据处理的首先,但它的HDFS和Yarn两个组件越来越受欢迎。Hadoop MapReduce的替代者是号称快上100倍的Spark,其开发语言是Scala,但提供了Java、Python、Scala的开发接口。
  2. DevOps DevOps的中文名是开发自运维。DevOps推崇自动化构建、测试、部署以及系统度量等技术。
  3. 网络爬虫 网络爬虫是Python的传统强势领域,最流行的爬虫框架Scrapy\http工具包urlib2,html解析工具beautifulsoup,XML解析器等等。Python能够很好地支持携程操作。
  4. 数据处理 在理论研究领域,R语言比较受欢迎,但R语言多被用来做原型实验。Python本身就是一门工程型语言,用它实验的算法可以直接应用于产品中。Python的数据处理相关类库也非常丰富。

Comments