高质量的数据一般包括哪些指标特征？

如题所述

推荐答案 2023-06-06

1)功能性：软件提供了用户所需要的功能。二级特性包括：适合性、准确性、互用性、安全性。对数据而言，个人觉得重要的应该属于准确性和安全性。

a.对于准确率，如果一句话概括就是，先数据要有，其次数据要全，后数据要准。对应的，就可以看到该大项下对应的小项：

数据要有->数据及时性：数据要按约定时间产出。

数据要全->数据完整性：数据不能少、不能缺。当然，也不能多。

数据要准->数据准确性：数值要准确。

这几个二级特性，可能很多同学的文章中都写过，也讨论过。这里只是从数据质量整体系统性上再将其阐述一遍。需要说明的一点是，很多文章中也写到了数据一致性这个特性。数据一致性这个概念很广，比如关系数据库中的外键一致性、CAP理论中的强弱一致性。个人认为，数据不一致终影响的还是数据的完整或者准确。如果业务上认为不一致性可以接受，那也不是问题。所以我更倾向于将数据一致性作为一种根因，而并不是质量模型的一个子项。

b.对于安全性，尤其是数据安全，命题也很大，这里不再赘述。但需要提的一点是，数据安全涉及到隐私或者差分攻击的预防，也可能是由业务同学考虑的范畴，所以在数据质量模型中不能忽视。

2)易用性：是指在指定条件下使用时，软件产品被理解、学习、使用和吸引用户的能力。对于数据来说，我认为数据的易用可以分为两方面：是否被理解，是否被需要。它更多的是和日常沟通、产品需求及规划相关。

是否被理解，意思是当前我们对数据的定义是否是行业认可的，是否存在团队与团队之间、用户与开发者之间理解的不一致。

是否被需要，意思是当前我们提供的数据，是否真的能够满足用户需要，数据的真正效果有没有达到。比如，我们给用户提供的是它自己品牌的数据，但用户可能更需要的是行业下的数据来做进一步的市场规划。

3)可靠性：在指定条件下使用时，软件产品维持规定的性能水平的能力。比如上游数据无法定时给出，依赖关系的强弱配置不正确，可能影响的就是数据无法定时产出。可靠性是一种根因，终影响的还是功能性。

4)效率：是指在规定条件下，相对于所用资源的数量，软件产品是否在规定时间内可提供适当的性能的能力。比如计算倾斜或者计算资源不足导致数据产不出来。效率也是一种根因，终影响的还是功能性。

5)可维护性：是指是在修改或者新增需求时，当前的开发架构是否足够灵活的支持，是开发阶段主要考虑的。比如在数仓开发中，当新上游到来时，如果从下到上全部采用烟囱式开发，那对新增的需求必定是不友好的。如果改为Hub或者集市模式，可能只需要开发接入数据的ETL代码，剩下的完全可以复用，就是提升可维护性的一种手段。

6)可移植性：是指软件产品从一种环境迁移到另一种环境的能力，也是开发阶段主要考虑的。服务或者网站的可移植性大家了解比较多，数据的可移植性是指什么?我个人认为可移植性强调的更多是跨技术平台的移植，而不是模块间的数据复用。在数据上可能就是数据直接从一个计算平台迁移到另一个计算平台，或者SQL代码从一个计算平台迁移到另一个计算平台。在可移植性方面，我还没有遇到导致质量问题的有说服力的案例，如果大家有相关的例子可以沟通。

温馨提示：答案为网友推荐，仅供参考

当前网址：https://verywind.cn/ee/rjxr7v3f7rfyyf3vf3.html

你可能感兴趣的内容

大家正在搜

非常风气网www.verywind.cn

高质量的数据一般包括哪些指标特征？

相关了解……

你可能感兴趣的内容