首页> 数据分析> 详情

如何做好大数据处理 大数据处理流程和大数据处理引擎

文章来源:互联网 267 2022-11-16 17:43

  大数据处理流程

  1、数据汲取与集成

  由于大数据处理的数据来源类型广泛,而其第-一步是对数据进行抽取和集成,从中找出关系和实体,经过关联、聚合等操作,再按照统一的格式对数据进行存储。现有的数据汲取和集成引擎有3种:基于物化或ETL方法的引擎、基于中间件的引擎、基于数据流方法的引擎。

  2、大数据分析

  大数据分析是研究大型数据集的过程,其中包含各种各样的数据类型。大数据能够揭示隐藏的信息模式、未知事物的相关性、市场趋势、客户偏好和其他有用的商业信息,其分析结果可用于更有效的市场营销、得到新的收入机会、更好的客户服务、提高运营效率、竞争优势和其他商业利益。大数据分析是大数据处理流程的核心步骤,通过汲取和集成环节,从不同结构的数据源中获得用于大数据处理的原始数据,用户根据需求对数据进行分析处理,如数据挖掘、机器学习、数据统计,数据分析可以用于决策支持、商业智能、推荐系统、预测系统等。

  3、数据可视化

  数据可视化主要是指借助于图形化手段,清晰有效地传达与沟通信息。数据可视化技术的基本思想是将数据库中每-一 个数据项作为单个图元元素表示,大量的数据集合构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。而使用可视化技术可以将处理结果通过图形方式直观地呈现给用户,如标签云、历史流、空间信息等;人机交互技术可以引导用户对数据进行逐步分析,参与并理解数据分析结果。

  大数据处理引擎

  Apache Hive

  它是将SQL请求转换为MapReduce任务链的引擎。它主要实现的功能是对传入的SQL进行排序然后优化排序结果,最终得到高效率的请求结果。2018年它将MapReduce替换为Tez作为搜索引擎。它具有机器学习功能,并且在和其他流行的大数据框架进行集成。

  Apache Spark

  这是最著名的批处理框架。它是Hadoop生态系统的一部分,是一个托管集群,可提供强大的并性,有着精准的监控和出色的UI。它还支持流处理(结构化流)。基本上,Spark在内存中运行MapReduce作业,其性能是常规MapReduce性能的100倍。它与Hive集成以支持SQL,并可用于创建Hive表,视图或查询数据。它具有很多集成,支持多种格式,并且拥有庞大的社区。所有云提供商都支持它。它可以在YARN上运行作为Hadoop集群的一部分,还可以在Kubernetes和其他平台中使用。它具有许多的第三方库可以使用。

  Apache Flink

  第一个统一批处理和流传输的引擎,它可以用作像Kafka这样的微服务的主干。它可以作为Hadoop集群的一部分在YARN上运行,它还针对其他平台(如Kubernetes或Mesos)进行了优化。它非常快,并且提供实时流传输,使其成为针对低延迟流处理(尤其是有状态流)的一个比Spark更好的选择。它还具有用于SQL,机器学习等的库。它比Spark更快,是数据流的更好选择。

  Apache Storm

  是一个免费和开源的分布式实时计算系统,它专注于流传输,是Hadoop生态系统的托管解决方案部分。它具有可扩展性,容错性,可确保您的数据将得到处理,并且易于设置和操作。

  Apache Samza

  一个出色的有状态流处理引擎。Samza允许您构建有状态的应用程序,它可以从多个来源实时处理数据。它不仅可以在YARN集群上运行,也可以作为独立库单独运行。

  Apache Beam

  它本身不是引擎,而是将所有其他引擎结合在一起的统一编程模型的规范。它提供了可以与不同语言一起使用的编程模型,因此开发人员在处理大数据管道时不必学习新的语言。然后,它为可以在云或本地运行的处理步骤插入了不同的后端。Beam支持前面提到的所有引擎,您可以在它们之间轻松切换并在任何平台上运行它们:云,YARN,Mesos,Kubernetes。如果您要开始一个新项目,那么建议您从Beam开始,因为Beam是面向未来的。

  Presto

  Presto是一个开放源代码的分布式SQL查询引擎,适合于对各种大小,各种数据源进行交互式分析查询。

  Presto是专为交互式分析而设计和编写的,当它的规模扩展到一定的规模的时候,它也可以实现商业数据仓库的处理速度。

  Presto允许查询数据存在多个地方,包括Hive,Cassandra,关系数据库甚至专有数据存储。一个Presto查询可以合并来自多个来源的数据,从而可以在整个组织中进行分析。

  Presto适用于期望响应时间从亚秒到数分钟不等的分析师。Presto打破了使用昂贵的商业解决方案进行快速分析或使用需要大量硬件的慢速“免费”解决方案之间的错误选择。

点击查看全文
大数据处理
免责声明:非本网作品均来自互联网,发布目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、 版权和其他问题,请及时与本网联系,我们将在第一时间删除内容,本网站对此声明具有最终解释权。
关于我们 | Tag标签 | 网站地图 | Sitemap | 服务条款
免责声明:非本网作品均来自互联网,发布目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、 版权和其他问题,请及时与本网联系,我们将在第一时间删除内容,本网站对此声明具有最终解释权。
回到顶部