sklearn+python:线性回归案例

脚本专栏 2024/11/2 佚名

3 2 1

圆月山庄资源网 Design By www.vgjia.com

使用一阶线性方程预测波士顿房价

载入的数据是随sklearn一起发布的，来自boston 1993年之前收集的506个房屋的数据和价格。load_boston()用于载入数据。

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
import time
from sklearn.linear_model import LinearRegression


boston = load_boston()

X = boston.data
y = boston.target

print("X.shape:{}. y.shape:{}".format(X.shape, y.shape))
print('boston.feature_name:{}'.format(boston.feature_names))

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=3)

model = LinearRegression()

start = time.clock()
model.fit(X_train, y_train)

train_score = model.score(X_train, y_train)
cv_score = model.score(X_test, y_test)

print('time used:{0:.6f}; train_score:{1:.6f}, sv_score:{2:.6f}'.format((time.clock()-start),
                                    train_score, cv_score))

输出内容为：

X.shape:(506, 13). y.shape:(506,)
boston.feature_name:['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO'
 'B' 'LSTAT']
time used:0.012403; train_score:0.723941, sv_score:0.794958

可以看到测试集上准确率并不高，应该是欠拟合。

使用多项式做线性回归

上面的例子是欠拟合的，说明模型太简单，无法拟合数据的情况。现在增加模型复杂度，引入多项式。

打个比方，如果原来的特征是[a, b]两个特征，

在degree为2的情况下，多项式特征变为[1, a, b, a^2, ab, b^2]。degree为其它值的情况依次类推。

多项式特征相当于增加了数据和模型的复杂性，能够更好的拟合。

下面的代码使用Pipeline把多项式特征和线性回归特征连起来，最终测试degree在1、2、3的情况下的得分。

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
import time
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import Pipeline

def polynomial_model(degree=1):
  polynomial_features = PolynomialFeatures(degree=degree, include_bias=False)

  linear_regression = LinearRegression(normalize=True)
  pipeline = Pipeline([('polynomial_features', polynomial_features),
             ('linear_regression', linear_regression)])
  return pipeline

boston = load_boston()
X = boston.data
y = boston.target
print("X.shape:{}. y.shape:{}".format(X.shape, y.shape))
print('boston.feature_name:{}'.format(boston.feature_names))

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=3)

for i in range(1,4):
  print( 'degree:{}'.format( i ) )
  model = polynomial_model(degree=i)

  start = time.clock()
  model.fit(X_train, y_train)

  train_score = model.score(X_train, y_train)
  cv_score = model.score(X_test, y_test)

  print('time used:{0:.6f}; train_score:{1:.6f}, sv_score:{2:.6f}'.format((time.clock()-start),
                                    train_score, cv_score))

输出结果为：

X.shape:(506, 13). y.shape:(506,)
boston.feature_name:['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO'
 'B' 'LSTAT']
degree:1
time used:0.003576; train_score:0.723941, sv_score:0.794958
degree:2
time used:0.030123; train_score:0.930547, sv_score:0.860465
degree:3
time used:0.137346; train_score:1.000000, sv_score:-104.429619

可以看到degree为1和上面不使用多项式是一样的。degree为3在训练集上的得分为1，在测试集上得分是负数，明显过拟合了。

所以最终应该选择degree为2的模型。

二阶多项式比一阶多项式好的多，但是测试集和训练集上的得分仍有不少差距，这可能是数据不够的原因，需要更多的讯据才能进一步提高模型的准确度。

正规方程解法和梯度下降的比较

除了梯度下降法来逼近最优解，也可以使用正规的方程解法直接计算出最终的解来。

根据吴恩达的课程，线性回归最优解为：

theta = (X^T * X)^-1 * X^T * y

其实两种方法各有优缺点：

梯度下降法：

缺点：需要选择学习率，需要多次迭代

优点：特征值很多（1万以上）时仍然能以不错的速度工作

正规方程解法：

优点：不需要设置学习率，不需要多次迭代

缺点：需要计算X的转置和逆，复杂度O3；特征值很多（1万以上）时特变慢

在分类等非线性计算中，正规方程解法并不适用，所以梯度下降法适用范围更广。

以上这篇sklearn+python:线性回归案例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

sklearn,python,线性回归

标签：

sklearn,python,线性回归

圆月山庄资源网 Design By www.vgjia.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

圆月山庄资源网 Design By www.vgjia.com

评论“sklearn+python:线性回归案例”

暂无评论...

www.vgjia.com 圆月山庄资源网

139,976互联网资源

144,792高清电影

21,817无损音乐

631,128技术资源

最新文章

转载一个别人收藏的精典网站Ruby,HIBERNATE

2024/11/2

可与Spreadsheets媲美的在线表格系统:EditG

2024/11/2

cygwin使用心得

2024/11/2

脚本的DVD开发

2024/11/2

局域网设置自动配置脚本文件的写法与用途

2024/11/2

一句话新闻

苹果官宣WWDC 2024！预计会有大批AI功能 - 2024/11/2

3月27日消息，苹果宣布2024年全球开发者大会（WWDC）将于6月10日至6月14日举行，巧合的是，这次大会与端午假期重合。

苹果官方表示：

在线参加 Apple 每年规模最大的开发者盛会。亲眼见证 Apple 最新平台、技术和工具的发布。了解如何创建和改进你的 App 和游戏。与 Apple 设计师和工程师互动交流，与全球开发者社区建立联系。以上活动均免费在线举行。

探索各种新的工具、框架和功能，助力你打造出理想的 App 和游戏。通过视频讲座学习新技能，与 Apple 专家进行一对一会面，以推进你的项目，完善你的构思。

Swift Student Challenge 旨在支持和鼓舞下一代开发者、创作者和企业家。太平洋时间 3 月 28 日，我们将公布今年的获奖者名单。获奖者将有资格参加在 Apple Park 举办的特别活动。我们还会选出 50 名杰出获胜者，他们将受邀前往库比提诺，获得为期三天的非凡体验，包括参加 Apple Park 的特别活动。

sklearn+python:线性回归案例

sklearn,python,线性回归

python 线性回归分析模型检验标准--拟合优度详解

最小二乘法及其python实现详解

评论“sklearn+python:线性回归案例”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

sklearn+python:线性回归案例

sklearn,python,线性回归

python 线性回归分析模型检验标准--拟合优度详解

最小二乘法及其python实现详解

评论“sklearn+python:线性回归案例”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存