加入收藏 | 设为首页 | 会员中心 | 我要投稿 好传媒网 (https://www.haochuanmei.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

数据分析常用的18个概念,终于有人讲明白了!

发布时间:2019-10-14 03:15:14 所属栏目:教程 来源:佚名
导读:[ 导读 ]大多数情况下,数据分析的过程必须包括数据探索的过程。数据探索可以有两个层面的理解: 一是仅利用一些工具,对数据的特征进行查看; 二是根据数据特征,感知数据价值,以决定是否需要对别的字段进行探索,或者决定如何加工这些字段以发挥数据分
副标题[/!--empirenews.page--]

[ 导读 ]大多数情况下,数据分析的过程必须包括数据探索的过程。数据探索可以有两个层面的理解:

  •  一是仅利用一些工具,对数据的特征进行查看;
  •  二是根据数据特征,感知数据价值,以决定是否需要对别的字段进行探索,或者决定如何加工这些字段以发挥数据分析的价值。字段的选取既需要技术手段的支撑,也需要数据分析者的经验和对解决问题的深入理解。

数据分析常用的18个概念,终于有人讲明白了!

01 数值类型

在进行数据分析时,往往需要明确每个字段的数据类型。数据类型代表了数据的业务含义,分为3个类型:

1. 区间型数据(Interval)

数值型数据的取值都是数值类型,其大小代表了对象的状态。比如,年收入的取值,其大小代表了其收入状态。

2. 分类型数据(Categorical)

分类型数据的每一个取值都代表了一个类别,如性别,两个取值代表了两个群体。

3. 序数型数据(Ordinal)

和分类型数据非常相似,每个取值代表了不同的类别。但是,序数型的数据还有另外一层含义就是每个取值是有大小之分的。比如,如果将年收入划分为3个档次:高、中、低,则不同的取值既有类别之分,也有大小之分。

如果不了解字段的实际业务含义,数据分析人员可能会出现数据类型判断失误。比如字段的取值为“1”“2”“3”等,并不意味着是一个数值类型,它的业务含义还可以是一个分类型的字段,“1”“2”“3”分别代表了一个类别,其大小没有任何含义。所以,充分了解字段的含义是很重要的。

很多的数据分析工具会根据数据中的字段的实际取值,做出类型的自动判断:如字符型的数据,一般都认定为分类型数据;如某个字段的所有取值只有“1”“2”“3”,则判断其为分类型变量,然后经过用户的再次判断,其很可能是序数型变量。

不同的数据类型,在算法进行模型训练时,处理和对待的方式是不同的。区间型数据是直接进行计算的;分类型数据是先将其转换为稀疏矩阵:每一个类别是一个新的字段,然后根据其取值“1”“0”进行计算。

在很多场景下,人们习惯将分类型数据和序数型数据统称为分类型数据,即数据类型可以是两个:数值型数据(区间型数据)和分类型数据(分类型数据和序数型数据)。

数据分析常用的18个概念,终于有人讲明白了!

02 连续型数据的探索

连续型数据的探索,其关注点主要是通过统计指标来反映其分布和特点。典型的统计指标有以下几个:

4. 缺失值

取值为空的值即为缺失值。缺失值比例是确定该字段是否可用的重要指标。一般情况下,如果缺失率超过50%,则该字段就完全不可用。

在很多情况下,我们需要区别对待null和0的关系。Null为缺失值,0是有效值。这个区别很重要,要小心区别对待。例如,某客户在银行内的某账户余额为null,意味着该客户可能没有该账户。但是如果将null改为0,则是说用户有该账户,且账户余额为零。

5. 均值(Mean)

顾名思义,均值即平均值。其大小反映了整体的水平。一个数学平均成绩是95分的班级,肯定比平均成绩是80分的班级的数学能力要好。

6. 最大值和最小值

最大值和最小值即每个数据集中的最大数和最小数。

7. 方差

方差反映各个取值距平均值的离散程度。虽然有时两组数据的平均值大小可能是相同的,但是各个观察量的离散程度却很少能相同。方差取值越大,说明离散程度越大。比如,平均成绩是80分的班级,其方差很小,说明这个班级的数学能力比较平均:没有多少过高的成绩,也没有多少过低的成绩。

8. 标准差

标准差是方差的开方,其含义与方差类似。

9. 中位数(Median)

中位数是将排序后的数据集分为两个数据集,这两个数据集分别是取值高的数据集和取值低的数据集。比如,数据集{3,4,5,7,8}的中位数是5,在5之下和5之上分别是取值低和取值高的数据集。数据集{2,4,5,7}的中位数应当是(4 + 5)/2=4.5。

10. 众数(Mode)

众数是数据集中出现频率最高的数据。众数最常用的场景是分类型数据的统计,但是其也反映了数值型数据的“明显集中趋势点的数值”。

均值、中位数、众数的计算方式各有不同,假设有一组数据:

1,2,2,3,4,7,9

  •  均值:(1 + 2 + 2 + 3 + 4 + 7 + 9)/7=4
  •  中位数:3
  •  众数:2

11. 四分位数(Quartile)

四分位数,即用三个序号将已经排序过的数据等分为四份,如表2-2所示。

数据分析常用的18个概念,终于有人讲明白了!

表2-2 四分位的例子

第二四分位数(Q2)的取值和中位数的取值是相同的。

12. 四分位距(Interquartile Range,IQR) 

四分位距通过第三四分位数和第一四分位数的差值来计算,即IQR=Q3-Q1。针对上表,其IQR=61-34=27。

四分位距是进行离群值判别的一个重要统计指标。一般情况下,极端值都在Q1-1.5×IQR之下,或者Q3 + 1.5×IQR之上。著名的箱形图就是借助四分位数和四分位距的概念来画的,如图2-1所示。

数据分析常用的18个概念,终于有人讲明白了!

图2-1 箱形图及IQR

箱形图中的上下两条横线,有可能是离群值分界点(Q3 + 1.5×IQR或Q1-1.5×IQR),也有可能是最大值或最小值。这完全取决于最大值和最小值是否在分界点之内。

13. 偏斜度(Skewness)

(编辑:好传媒网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读