物联网数据采集处理架构|行业知识|2023大湾区工业博览会

物联网数据采集处理架构

物联网，顾名思义，所有的数据采集是从设备采集的。设备有多种，有些通过传感器来采集，有些设备属于智能设备，本身就是一台小型计算机，能够自己采集，不管是传感器，还是智能设备本身，采集方式一般包含2种，一种是报文方式，所谓报文就是根据你设置的采集频率，比如1分钟一次，1秒一次进行数据传输，传输到哪里？一般放到MQ中。还有一种采集是以文件的方式采集，在做数据分析的时候，工业设备的数据希望是连续不断的，我们可以理解为毫秒级采集，就是设备不停的发送数据，然后形成一个文件或者多个文件。

报文采集这里就不提了，因为它的方式和互联网的日志生成极为相同，就好比日志是每条每条进入，报文的概念是一样的。那么毫秒级采集由于数据量比较大，所以整个方式处理会有些不同，但是整体和互联网实际也没有区别，毕竟互联网也有很多是以文件方式来处理的。

既然要采集，那么必须有一个策略，策略主要包含以下2个方面：

1. 采集时间

这个很容易理解，你需要采集5分钟还是10分钟

2. 采集参数

每个设备有上千个甚至几千个参数，你需要下发策略，告诉设备你要采集哪些参数

设备开始采集之后，然后以文件的方式保存，然后通过网络传送到云存储。由于数据量大，这里通常要做系列化以及压缩处理，避免给磁盘带来太大开销，另外就是网络，毕竟我们从设备直接把文件传输到云存储。

通过以上步骤，我们的采集基本就搞定了，然后就是数据的处理。数据采集完成如果直接调用后台的Spark或者其他程序来处理文件呢？由于设备毕竟不是计算机，不能像互联网那样直接通知甚至直接调用，所以我们使用了MQ消息服务，每次采集完一个文件，并上传到云存储，就是用云存储的API去写一条数据到MQ，表示有一个文件已经完成了，监听程序发现新文件，并下载然后上传到HDFS，并通过API直接调用oozie的JOB，传输相关文件名，地址等参数。这个时候后台挂在oozie上的JOB就开始处理文件。

数据分析的逻辑和处理逻辑是一样的，我们所有的后台JOB挂在oozie，只要需要就通过rest API直接触发调用。分析主要还是算法，主要的流程从采集，处理，分析这一系列的路打通之后，我们所要做的就是优化算法。

另外，物联网的数据分析对时间的顺序有相当大的依赖，一批数据，就算因为几条数据时间乱了，也会导致所有数据无效。更简单理解，实际就是时间序列数据，和监控数据概念类似。

而HADOOP平台，包括 spark , storm等组件属于分布式组件，在处理的时候要注意到，分布式很多时候不适合时间序列数据，因为分布式的插入已经处理，不能保证数据完全按照时间的顺序来处理。目前我使用了一个极其简单的方案来解决，那就是spark只设置一个partition , 另外存储到HBASE的rowkey也是根据时间顺序的。

我知道，上面的做法会导致分布式没有起到作用，比如一次处理的插入或者查询全部在一个hbase region, 包括spark只有一个partition，也就意味着只有一个task.

本文分类：行业知识
本文标签：
浏览次数：3 次浏览
发布日期：2022/10/17 16:56:36
本文链接：https://zx.dmpsz.com/industry_knowledge/s4647.html