词条信息

admin
admin
超级管理员
词条创建者 发短消息   

相关词条

热门词条

更多>>
什么是端口?到底是做什么的呢?
端口一般指两种,一种是硬件比如路由器或者交换机的插网线的端口,一种是软件的逻辑的概念,比如http的80端口!...
7种进阶方法让你快速测试端口连通性
Ping是Windows、Linux和Unix系统下的一个检查网络连通性的命令工具,对于大部分互联网用户来说很...
电脑开机,总需要按F1,是什么原因造成的?
一.主板掉电这个说法是行业内的叫法了,一般是主板的CMOS电池没电了导致的。也是最常见的一种提示你按F1的提示...
社保降费对个人有什么影响?
下调城镇职工基本养老保险单位缴费比例是政府给企业发的一个大红包,特别是对于企业来说是一个利好,但是对个人来说有...
车辆“出险”对下年保费的影响,到底有多大?
【出险对交强险的影响】【出险对商业险的影响】车辆“出险”对下年保费的影响,到底有多大?这里有必要先提下车险第三...

精选图集

更多>>
简易百科旧版 >>所属分类 >> 互联网    大数据   

大数据分析的4个核心概念

标签: 大数据分析 核心概念

顶[0] 发表评论(0) 编辑词条

目录

K―平均算法编辑本段回目录


K―平均算法是一种得到广泛应用的基于划分的聚类算法。其把M个对象分为N个簇,使得每个簇内具有较高的相似度。


在应用该算法进行数据分析时,首先应输入包含M个对象的数据集A以及簇的数目N。从A中任意选择N个对象作为初始簇中心并且不断重复,随后计算出簇中对象的均值,将每个对象分配到最相似的簇并且不断更新簇均值,最后计算准则函数直到其不再发生变化为止。因为该算法的复杂度大约是0(nkt),所以该算法在处理大数据集时是相对可伸缩的和高效率的。


奇异值分解编辑本段回目录


假设A是一个m×n阶矩阵,其中的元素全部属于实数域或复数域。如此则存在一个分解使得A=U∑V*。其中U是m×m阶酉矩阵,Σ是半正定m×n阶对角矩阵,而V*是n×n阶酉矩阵的共轭转置矩阵。这样的分解就称为A的奇异值分解。


在MATLAB仿真软件中计算奇异值分解的函数式为:[b.c.d]=svd(x)


主成分分析(PCA算法)编辑本段回目录


从宏观上来说,主成分分析是指在研究一项变量较多的课题时,将这些变量通过线性变换而简化为几个重要变量的一种多元统计分析方法。而在数据分析领域,主成分分析的主要作用是对大规模的数据集进行分析与简化。其主要体现在降低数据集的维数,同时尽可能保持数据集中的对所研究的问题最有价值的特征。简而言之,就是保留低阶主成分,忽略高阶主成分。其具体方法是通过对协方差矩阵进行特征分解,从而得出数据的特征向量与特征值。主成分分析在数学上可以理解为一个正交化的线性变换,把数据整体变换到一个新的坐标系中,使得这一数据的任何投影的第一大方差在第一主成分上,第二大方差在第二主成分上,依次类推。


决策树学习编辑本段回目录


从广义上讲,决策树是一种运用图解法的概率分析,即在已知各种事件发生概率的基础上,通过构建决策树来探究期望值大于等于零的概率,同时判断可行性的决策分析方法。


决策树学习是数据分析领域常用的方法,其目的是构建一个模型来预测样本的目标值。一棵决策树的训练就是依据一个既定指标,将训练数据集分为几个子集并且在所产生的子集中不断重复此方法的过程,直到一个训练子集的类标都相同时为止。决策树主要有两种类型:分类树和回归树。其中分类树的输出是样本的类标,而回归树输出的是一个实数。决策树的优点体现在即可以处理数值型数据也可以处理类别型数据,并且适合处理大规模数据。

 

 

附件列表


按字母顺序浏览:A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

→我们致力于为广大网民解决所遇到的各种电脑技术问题
 如果您认为本词条还有待完善,请 编辑词条

上一篇什么是JavaScript异步
下一篇如何搭建一套数据分析平台

0
1. 本站部分内容来自互联网,如有任何版权侵犯或其他问题请与我们联系,我们将立即删除或处理。
2. 本站内容仅供参考,如果您需要解决具体问题,建议您咨询相关领域专业人士。
3. 如果您没有找到需要的百科词条,您可以到百科问答提问或创建词条,等待高手解答。

关于本词条的提问

查看全部/我要提问>>