6.1.1 数据采集

数据采集又称数据收集,是指根据用户需要收集相关数据的过程。采集的数据类型包括结构化数据、半结构化数据、非结构化数据。结构化数据是以关系型数据库表管理的数据;半结构化数据是指非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、E-mail 等;非结构化数据是指没有固定模式的数据,如所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等。 数据采集的方法可分为传感器采集、系统日志采集、网络采集和其他数据采集等。 传感器采集是通过传感器感知相应的信息,并将这些信息按一定规律变换成电信号或其他所需的信息输出,从而获取相关数据,是目前应用非常广泛的一种采集方式。数据采集传感器包括重力感应传感器、加速度传感器、光敏传感器、热敏传感器、声敏传感器、气敏传感器、流体传感器、放射线敏感传感器、味敏传感器等。 系统日志采集是通过平台系统读取、收集日志文件变化。系统日志记录系统中硬件、软件和系统运行情况及问题的信息。系统日志一般为流式数据,数据量非常庞大,常用的采集工具有Logstash、Filebeat、Flume、Fluentd、Logagent、rsyslog、syslog-ng等。 网络采集是指通过互联网公开采集接口或者网络爬虫等方式从互联网或特定网络上获取大量数据信息的方式,是实现互联网数据或特定网络采集的主要方式。数据采集接口一般通过应用程序接口(API)的方式进行采集。网络爬虫(Web Crawler/Web Spider)是根据一定的规则来提取所需要信息的程序。根据系统结构和实现技术,网络爬虫可分为通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)等类型。除此之外,还有一些其他的数据采集方式,如通过与数据服务商合作,使用特定数据采集方式获取数据。

results matching ""

    No results matching ""