如今,即使数据转换不是你工作的主要部分,了解数据转换过程中涉及的步骤也很重要。因为我们生活在一个以许多不同格式收集、存储和分析数据的世界中,能够将数据从一种形式转化为另一种形式所需的基本流程是我们许多人所需要的。bluehost独立服务器提供商通过概述一个典型的数据转换过程来对这些步骤进行解释。
数据转换过程
虽然数据转换的确切性质因情况而异,但下面的步骤是数据转换过程中最常见的部分。
第1步:数据解释
数据转换的第一步是解释你的数据,以确定你目前有哪种类型的数据以及转换目标。
数据解释可能比它看起来更难。作为一个简单的例子,请考虑这样一个事实:许多操作系统和应用程序根据附加在文件名上的扩展名,对数据的格式进行假设。因此,你的电脑很可能认为文件名video.avi是一个视频文件,或者text.doc是一个Microsoft Word文件。推荐阅读:《3个数据转换的真实案例》
这些标签的问题是,一个给定文件(或一个目录或数据库)内的实际数据可能与文件名所表示的非常不同。用户可以在文件名上添加他们想要的任何扩展名;改变扩展名实际上并不能改变数据。
由于这个原因,准确地解释数据需要一些工具,这些工具可以更深入地观察文件或数据库的结构,看看里面到底有什么,而不是文件名或数据库表名所暗示的内容。像Linux命令行实用程序文件这样的工具对这方面很有用。
当然,你也需要确定目标格式–换句话说,你的数据在转换完成后应该具有的格式。如果你还不知道这种格式,你要阅读将接收你转换后的数据的工具或系统的文档,以确定它支持或期望的格式。
第2步:翻译前的数据质量检查
一旦你(或你的数据转换工具)弄清楚了你正在处理的数据格式以及你的转换目标是哪种形式,你就应该进行数据质量检查。数据质量检查可以让你发现源数据中的问题,如数据库中的缺失或损坏的值,这些问题可能会在数据转换过程的后期步骤中导致问题。
第3步:数据转换
在你的源数据的数据质量得到最大限度的提高后,你可以开始实际的数据翻译过程。数据翻译意味着将你的源数据的每一部分用符合格式要求或你的目标数据格式的数据来替换。
例如,你可能要将一个使用过时的HTML标准编写的旧HTML文件转换为HTML5,这是最新的标准,也是大多数现代网络浏览器所期望的标准。在这种情况下,数据转换过程的一部分将涉及替换被废弃的HTML标签,例如<dir>(一个在旧版本的HTML中用来帮助创建列表的标签),使用<ul>(现代HTML支持的列表标签)。
数据翻译常常需要的不仅仅是用另一个用来替换个别数据的数据片段,还需要以一种重要的方式对整个文件进行重组。
例如,一个格式为一系列逗号分隔词的CSV文件需要进行相当大规模的重组,才能转换为XML文件,XML文件使用层层叠叠的标签来组织信息。推荐预定:《什么是数据丢失防护,它是如何工作的?》
第4步:翻译后的数据质量检查
为了确保你的翻译数据能够发挥最大的作用,你还需要进行数据质量检查。在这个步骤中,你要寻找在数据翻译过程中可能出现的不一致、信息缺失或其他错误。
即使你的数据在翻译前是没有错误的,也有很大的机会在翻译过程中出现问题。
结论
在大多数现实世界的情况下,上述的数据转换步骤将由软件工具自动执行。因此,如果这些步骤听起来像是你不准备执行的工作,那么不用担心。不过,对于人类操作者来说,了解他们的数据转换工具在数据转换过程中的每一个步骤以及每一个动作叠加起来使数据转换成为可能的方式还是很有价值的。推荐相关阅读:《为什么必须要数据清理?》