当涉及到数据处理时,现在已经有了比以往更多的方法。您的选择包括实时、近实时和批量处理。您如何做或者您选择什么样的工具主要取决于您处理数据的目的是什么。bluehost美国独立服务器商分享大数据中的实时、近实时和批量处理之间的区别
在许多情况下,您正在处理历史数据并归档数据,时间并不那么关键。您可以等待几个小时以获取答案,如果有必要也可以等待几天。相反,其他的处理任务是至关重要的,答案需要在几秒钟内交付才有价值。
什么是实时处理?您什么时候需要它?
实时处理需要持续的输入、不断的处理以及稳定的数据输出。
实时处理的例子有很多,如数据流、雷达系统、客户服务系统和银行的自动取款机。在这些地方,即时处理对系统的正常工作至关重要。Spark是一种用于实时处理的好工具。推荐阅读:《大数据中批量数据与流数据指南》
实时处理的例子:
- 数据流
- 雷达系统
- 客户服务系统
- 银行ATM机
什么是近实时处理?你什么时候需要它?
近实时处理是指虽然速度很重要,但以分钟为单位的处理时间是可以被接受的。
近实时处理的例子是运营情报的生产,它是数据处理和完整事件处理(CEP)的结合。CEP涉及的结合来自多个来源的数据以检测模式。它对于识别数据集中的机会(如销售线索)以及威胁(检测网络中的入侵者)很有用。
运营情报(OI)不应与运营商业情报(OBI)相混淆,后者涉及战略和规划目的对历史和存档数据的分析,因此没有必要实时或近实时地处理OBI。推荐阅读:《何时应该把大数据存储到云主机?》
近实时处理的例子:
- 处理传感器数据
- IT系统监控
- 金融交易处理
什么是批处理?什么时候需要批处理?
批量处理的时间敏感性比近实时还要低。事实上,批处理工作可能需要几个小时甚至几天。
批量处理涉及三个独立的过程。首先,数据通常是在一段时间内被收集。第二,数据由一个单独的程序处理。第三,数据被输出。输入分析的数据的例子包括运营数据、历史和存档数据、社交媒体的数据、服务数据等。
对于不需要实时或接近实时的批处理和分析,MapReduce是一种有用的工具,其功能非常强大。
批量处理的用途例子包括工资和账单活动,这些活动通常发生在月度周期,这对于即时决策所需的快速情报来说并非是必不可少的深度分析。
批量处理的例子:
- 工资单
- 帐单
- 来自客户的订单
以上就是大数据中的实时、近实时和批量处理之间的区别全部内容。推荐相关阅读:《为什么销售需要大数据》