Python sklearn库实现PCA教程(以鸢尾花分类为例)

脚本专栏 2024/11/2 佚名

3 2 1

圆月山庄资源网 Design By www.vgjia.com

PCA简介

主成分分析（Principal Component Analysis，PCA）是最常用的一种降维方法，通常用于高维数据集的探索与可视化，还可以用作数据压缩和预处理等。矩阵的主成分就是其协方差矩阵对应的特征向量，按照对应的特征值大小进行排序，最大的特征值就是第一主成分，其次是第二主成分，以此类推。

基本步骤：

具体实现

我们通过Python的sklearn库来实现鸢尾花数据进行降维，数据本身是4维的降维后变成2维，可以在平面中画出样本点的分布。样本数据结构如下图：

其中样本总数为150，鸢尾花的类别有三种，分别标记为0，1，2

代码

import matplotlib.pyplot as plt     #加载matplotlib用于数据的可视化
from sklearn.decomposition import PCA   #加载PCA算法包
from sklearn.datasets import load_iris


data=load_iris()
y=data.target
x=data.data
pca=PCA(n_components=2)  #加载PCA算法，设置降维后主成分数目为2
reduced_x=pca.fit_transform(x)#对样本进行降维

red_x,red_y=[],[]
blue_x,blue_y=[],[]
green_x,green_y=[],[]


for i in range(len(reduced_x)):
 if y[i] ==0:
  red_x.append(reduced_x[i][0])
  red_y.append(reduced_x[i][1])

 elif y[i]==1:
  blue_x.append(reduced_x[i][0])
  blue_y.append(reduced_x[i][1])

 else:
  green_x.append(reduced_x[i][0])
  green_y.append(reduced_x[i][1])

#可视化
plt.scatter(red_x,red_y,c='r',marker='x')
plt.scatter(blue_x,blue_y,c='b',marker='D')
plt.scatter(green_x,green_y,c='g',marker='.')
plt.show()

结果图

知识拓展：python sklearn PCA 实例代码-主成分分析

python sklearn decomposition PCA 主成分分析

主成分分析（PCA）

1、主成分分析（Principal Component Analysis,PCA）是最常用的一种降维方法，

通常用于高维数据集的探索与可视化，还可以用作数据压缩和预处理

2、PCA可以把具有相关性的高维变量合成为线性无关的低维变量，称为主成分。

主成分能够尽可能保留原始数据的信息

3、概念

方差：用来度量一组数据的分散程度

协方差：用来度量两个变量之间的线性相关性程度，若两个变量的协议差为0，二者线性无关

协方差矩阵：矩阵的特征向量是描述数据集结构的非零向量，"htmlcode">

import matplotlib.pyplot as plt
import sklearn.decomposition as dp
from sklearn.datasets.base import load_iris

x,y=load_iris(return_X_y=True) #加载数据，x表示数据集中的属性数据，y表示数据标签
pca=dp.PCA(n_components=2) #加载pca算法，设置降维后主成分数目为2
reduced_x=pca.fit_transform(x) #对原始数据进行降维，保存在reduced_x中
red_x,red_y=[],[]
blue_x,blue_y=[],[]
green_x,green_y=[],[]
for i in range(len(reduced_x)): #按鸢尾花的类别将降维后的数据点保存在不同的表表中
 if y[i]==0:
  red_x.append(reduced_x[i][0])
  red_y.append(reduced_x[i][1])
 elif y[i]==1:
  blue_x.append(reduced_x[i][0])
  blue_y.append(reduced_x[i][1])
 else:
  green_x.append(reduced_x[i][0])
  green_y.append(reduced_x[i][1])
plt.scatter(red_x,red_y,c='r',marker='x')
plt.scatter(blue_x,blue_y,c='b',marker='D')
plt.scatter(green_x,green_y,c='g',marker='.')
plt.show()

以上这篇Python sklearn库实现PCA教程(以鸢尾花分类为例)就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

Python,sklearn,PCA,鸢尾花分类

标签：

Python,sklearn,PCA,鸢尾花分类

圆月山庄资源网 Design By www.vgjia.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

圆月山庄资源网 Design By www.vgjia.com

评论“Python sklearn库实现PCA教程(以鸢尾花分类为例)”

暂无评论...

www.vgjia.com 圆月山庄资源网

139,976互联网资源

144,792高清电影

21,817无损音乐

631,128技术资源

最新文章

转载一个别人收藏的精典网站Ruby,HIBERNATE

2024/11/2

可与Spreadsheets媲美的在线表格系统:EditG

2024/11/2

cygwin使用心得

2024/11/2

脚本的DVD开发

2024/11/2

局域网设置自动配置脚本文件的写法与用途

2024/11/2

一句话新闻

苹果官宣WWDC 2024！预计会有大批AI功能 - 2024/11/2

3月27日消息，苹果宣布2024年全球开发者大会（WWDC）将于6月10日至6月14日举行，巧合的是，这次大会与端午假期重合。

苹果官方表示：

在线参加 Apple 每年规模最大的开发者盛会。亲眼见证 Apple 最新平台、技术和工具的发布。了解如何创建和改进你的 App 和游戏。与 Apple 设计师和工程师互动交流，与全球开发者社区建立联系。以上活动均免费在线举行。

探索各种新的工具、框架和功能，助力你打造出理想的 App 和游戏。通过视频讲座学习新技能，与 Apple 专家进行一对一会面，以推进你的项目，完善你的构思。

Swift Student Challenge 旨在支持和鼓舞下一代开发者、创作者和企业家。太平洋时间 3 月 28 日，我们将公布今年的获奖者名单。获奖者将有资格参加在 Apple Park 举办的特别活动。我们还会选出 50 名杰出获胜者，他们将受邀前往库比提诺，获得为期三天的非凡体验，包括参加 Apple Park 的特别活动。

Python sklearn库实现PCA教程(以鸢尾花分类为例)

Python,sklearn,PCA,鸢尾花分类

关于多元线性回归分析——Python&SPSS

使用 pytorch 创建神经网络拟合sin函数的实现

评论“Python sklearn库实现PCA教程(以鸢尾花分类为例)”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

Python sklearn库实现PCA教程(以鸢尾花分类为例)

Python,sklearn,PCA,鸢尾花分类

关于多元线性回归分析——Python&SPSS

使用 pytorch 创建神经网络拟合sin函数的实现

评论“Python sklearn库实现PCA教程(以鸢尾花分类为例)”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存