打印

如何快速实现数据清洗与转换

[复制链接]
880|1
手机看帖
扫描二维码
随时随地手机跟帖
跳转到指定楼层
楼主
       随着大数据时代的到来,大量数据必须经过清洗、分析、建模、可视化才能体现其价值。
因此有效的信息与数据已经成为企业竞争制胜的的法宝之一。然而,现实中企业常常面临着大量的异构数据的管理和整合难题。为了解决这个问题,ETL(抽取、转换和加载)技术应运而生,并快速地实现了数据的清洗与转换。下面我们就一起来了解一下利用ETL工具是如何快速实现数据清洗与转换的?
一、数据清洗概述
数据清洗(data cleaning)可以有多重表述方式,一般认为,数据清洗的含义就是检测和取出数据集中的噪声数据和无关数据,处理遗漏数据,去除空白数据和知识背景下的白噪声。

1)一致性检查
根据每个变量的合理取值范围和相互关系,检查数据是否规范,是否超出正常范围,逻辑上不符或相互矛盾的数据。比如年龄、体重、考试成绩出现了负数,都是超出了正常的范围。SPAA、SAS、Excel等软件都能根据定义的取值范围进行识别筛选。

2)无效值和缺失值的处理
   常用的处理方法有估算、整例删除、变量删除和成对删除

估算,就是用某个变量的样本均值、中位数或者众数代替无效值和缺失值,这种办法简单,但没有充分考虑数据中已有的信息,误差可能比较大,另一种办法通过变量之间的相关分析或逻辑推论进行估计,比如某一产品的拥有情况可能和家庭收入有关,可以根据调查对象的家庭收入推算拥有这一产品的可能性。

整例删除,剔除含有缺失值的样本,但这种做饭可能会导致有效样本量大大减少,无法利用已有的数据。因此,只适合关键变量确实,或者含有无效值或缺失值的样本比重很少的情况。

变量删除,如果某一个变量无效值和缺失值很多,而且经过分析该变量对所研究问题不重要,则可以考虑将该变量删除

成对删除,用一个特殊吗代替无效值和缺失值,同时保留数据集中的全部变量和样本,但是计算时只采用有完整答案的样本,因为不同的分析因涉及的变量不同,有效样本量也不同。

二、数据清洗的好处
  • 改进业务实践:
      想象一下,如果您的数据记录中都没有重复、错误或不一致的数据。那么您所有关键的业务活动效率会提高多少?
  • 提高工作效率
   使企业能够专注于核心业务,而不是专注于找到正确的数据,或者由于不正确的数据而不不得不进行更正,这一点至关重要。 干净的高质量数据可以使企业成为行业的标杆。
  • 更快的销售周期
营销决策取决于数据,为营销部门提供尽可能高质量的数据意味着销售团队可以更好、更多的转化潜在客户。
  • 更好的决策
我们之前提到过这个问题,但这个问题很重要,所以有必要重复说一遍。更好的数据=更好的决策。
这些不同的好处结合起来,通常会使企业的业务获得更大程度的改善,这不仅能够让外部销售业务变得更有效,还能够提供更高效的内部管理和运营。

二、数据清洗工具

1、OpenRefine
   OpenRefine是一种新的具有数据画像、清洗、转换等功能的工具,可以观察和操作数据,类似于Excel表格处理软件,但是工作方式更像数据库。
特点:在数据导入的时候可以根据数据类型将数据转换为对应的数值和日期型;相似单元格聚类,可以根据单元格字符串的相似性进行聚类,而且还支持关键词碰撞和近邻匹配算法。

2、DataCleaner
简单、易用的工具,可以分析、比较、验证和监控数据,能够将凌乱的半结构化数据集转换为可视化,并且读取干净可读的数据集,另外还提供数据仓库和数据管理服务。
特点:可以访问不同类型的数据存储,如Oracle、MySQL等,可以作为引擎来处理、转换和统一来自多个数据存储的数据。

3、Kettle
国外开源的ETL工具,Java编写,可以在Windows、Linux等系统上运行,支持图形化的GUI设计。
特点:开源免费,可维护性好,便于调试,开发简单

4、ETLCloud
ETLCloud是一款由国内RestCloud推出免费的全域数据集成工具,简单、易操作,具备强大的数据转换和处理能力。
特点:免费使用、社区交流,技术支持,响应较快,可提供WEB直观的可视化配置界面,强大的数据转换和处理能力,包括清洗、转换、过滤等操作。可扩展的三层架构,同时允许用户开发自定义插件和扩展。

三、数据清洗实操(以ETLCloud为例)
假设我们现在有个业务场景,需要将商品购买表和用户信息表数据进行过滤清洗,根据唯一id进行整合,映射后输出为Excel文件。以下是使用ETLCloud工具实现以上业务场景的步骤:
首先展示下两张数据源测试表,商品购买表以及用户信息表(数据皆随机生成):
流程设计如下:
流程设计的大概思路,两个库表输入组件,分别选取两张数据库表;商品购买表中过滤出已经支付的订单,用户信息表中清洗转换用户姓名数据,将处理后的数据整合成到一起,字段值映射性别、支付状态信息后输出为Excel表格。
数据过滤器T00003节点,过滤出商品购买表中goods_is_pay字段值为1的数据
数据清洗转换T00004节点,将用户表中name字段的值进行脱敏处理
双流join合并T00005节点,根据商品购买表的goods_buy字段和用户表的id字段,将数据进行合并
预览合并后的效果
字段值映射T00007节点,将sexgoods_is_pay字段值分别进行映射,映射成中文方便查看
Excel输出T00006节点,配置输出输出信息
流程配置完毕,运行流程,等流程结束后查看输出的Excel文件。
最后一步,同理也可以将数据入库。
总结
综上所述,利用ETL工具(ETLCloud)用户可以摆脱传统方式繁琐的数据清洗转换步骤,并提高数据处理效率和准确性。整体的流程设计特点使得数据处理流程更加可控和可管理,减少了人工干预带来的负面影响。

使用特权

评论回复

相关帖子

沙发
cooldog123pp| | 2024-9-14 16:32 | 只看该作者
很好的帖子,楼主讲的很详细,感谢楼主的分享,mark一下后续持续关注!

使用特权

评论回复
发新帖 我要提问
您需要登录后才可以回帖 登录 | 注册

本版积分规则

141

主题

141

帖子

0

粉丝