百摩网
当前位置: 首页 生活百科

数据分析问题及解题方法(数据科学家45题自测)

时间:2023-06-05 作者: 小编 阅读量: 2 栏目名: 生活百科

数据科学家45题自测介绍回归分析远远不止线性或逻辑回归,它包含了许多针对多个变量建模和分析的技巧该测试旨在考察关于回归技巧的理论和实践知识1845人参加了这次测试,我确信他们都认为这是他们参与过的最好的回归技巧评估测试如。

介绍

回归分析远远不止线性或逻辑回归,它包含了许多针对多个变量建模和分析的技巧。该测试旨在考察关于回归技巧的理论和实践知识。

1845人参加了这次测试,我确信他们都认为这是他们参与过的最好的回归技巧评估测试。

如果你错过了这次技巧测试,那也无妨,我们给出了所有问题和详细解答,来试一试吧。

总体成绩

下图为分数分布图,可以帮助自我评价。

你可以在这里评价自己的表现。大约530人参与了技巧测试,最高分为38,平均分为23.15,中位数得分和模式得分都是23。

有用的材料

如果你想完善自己的知识,这里有一些回归知识可供参考:

Going Deeper into Regression Analysis with Assumptions, Plots & Solutions

5 Questions which can teach you Multiple Regression (with R and Python)

7 Types of Regression Techniques you should know

A. 10/27

B. 20/27

C. 50/27

D. 49/27

答案:D

我们需要计算每个交叉验证点的残差,拟合后得到两点连线和一点用于交叉验证。

留一法交叉验证均方差为(2^2(2/3)^21^2) /3 = 49/27

Q3.下列哪一项关于极大似然估计(MLE)的说法是正确的?

1.MLE并不总是存在

2.MLE一直存在

3.如果MLE存在,它可能不特异

4.如果MLE存在,它一定是特异的

A. 1 and 4

B. 2 and 3

C. 1 and 3

D. 2 and 4

答案:C

MLE可能不是一个转折点,即它可能不是一个似然函数的一阶导数消失的点

MLE可能并不特异

Q4.假设线性回归模型完美拟合训练数据(即训练误差为零),则下列哪项是正确的?

A.测试误差一定为零

B.测试误差一定不为零

C.以上都不对

答案:C

如果测试数据无干扰,则测试误差可能为零。换言之,如果测试数据是训练数据的典型代表,测试误差即为零,但这种情况并不总是出现。

Q5.在线性回归问题中,我们用“R方”来衡量拟合的好坏。在线性回归模型中增加特征值并再训练同一模型。下列哪一项是正确的?

A.如果R方上升,则该变量是显著的

B.如果R方下降,则该变量不显著

C.单单R方不能反映变量重要性,不能就此得出正确结论

D.都不正确

答案:C

单单R方不能表示变量显著性,因为每次加入一个特征值,R方都会上升或维持不变。但在“调整R方”的情况下这也有误(如果特征值显著的话,调整R方会上升)。

Q6.下列关于回归分析中的残差表述正确的是

A.残差的平均值总为零

B.残差的平均值总小于零

C.残差的平均值总大于零

D.残差没有此类规律

答案:A

回归的残差之和一定为零,故而平均值也为零

Q7.下列关于异方差性哪项是正确的?

A.线性回归有变化的误差项

B.线性回归有恒定的误差项

C.线性回归有零误差项

D.以上都不对

答案:A

在误差项中,非恒定方差的存在导致了异方差性。一般来说,非恒定方差的出现时因为异常值或极端杠杆值的存在。可以参考这篇文章。

Q8.下列哪一项说明了X,Y之间的较强关系

A.相关系数为0.9

B.Beta系数为0的空假设的p-value是0.0001

C.Beta系数为0的空假设的t统计量是30

D.都不对

答案:A

变量间的相关系数为0说明了变量间的较强关系;另一方面,p-value和t统计量仅仅衡量了非零联系的证据有多强。在数据足够多的情况下,哪怕弱影响都可能是显著的。

Q9.在导出线性回归的参数时,我们做出下列哪种假定?

1.因变量y和自变量x的真实关系是线性的

2.模型误差是统计独立的

3.误差通常服从一个平均值为零,标准差恒定的分布

4.自变量x是非随机的,无错的

A. 1,2 and 3

B. 1,3 and 4

C. 1 and 3

D. 以上都对

答案:D

当导出回归参数时,我们做出以上全部4种假设,缺少任何一种,模型都会出错。

Q10.为了检验连续变量x,y之间的线性关系,下列哪种图最合适?

A.散点图

B.条形图

C.直方图

D.都不对

答案:A

为了检验连续变量的线性关系,散点图是最好的选择,可以看出一个变量如何关于另一个变量变化。散点图反映两个定量变量之间的关系。

Q11.下列哪种方法被用于预测因变量?

1.线性回归

2.逻辑回归

A.1和2

B.1

C.2

D.都不是

答案:B

逻辑回归是用于分类问题的

Q12.一个人年龄和健康之间的相关系数是-1.09,据此可以得出:

A.年龄是健康预测的好的参考量

B.年龄是健康预测的不好的参考量

C.都不对

答案:C

相关系数的范围是[-1,1],-1.09 是不可能的。

Q13.下列哪个坐标用于最小二乘拟合?假设水平轴为自变量,垂直轴为因变量。

A.垂直坐标

B.正交坐标

C.都可以,视情况而定

D.都不对

答案:A

一般将残差想作垂直坐标,正交坐标在PCA的例子中很有用

Q14.假设我们有由三次多项式回归产生的数据(三次多项式完美契合数据),下列说法哪些是对的?

1.简单线性回归有高偏差和低方差

2.简单线性回归有低偏差和高方差

3.三次多项式有低偏差和高方差

4.三次多项式有低偏差和低方差

A.1

B.1和3

C.1和4

D.2和4

答案:C

如果选择比3更高的次数来拟合,则会过拟合,因为模型会变得更复杂。如果选择比3低的次数,模型会变得简单,这样会有高偏差和低方差。但是在三次多项式拟合的情况下,偏差和方差都是低的。

Q15.假设你在训练一个线性回归模型,以下哪项是正确的?

1.数据越少越易过拟合

2.假设区间小则易过拟合

A.都是错的

B.1是错的,2是对的

C.1是对的,2是错的

D.都是对的

答案:C

1.小训练数据集更容易找到过拟合训练数据的假设

2.从偏差和方差的权衡中可以看出,假设区间小,偏差更大,方差更小。所以在小假设区间的情况下,不太可能找到欠拟合数据的假设

Q16.假设我们用Lasso回归拟合一个有100个特征值(X1,X2…X100)的数据集,现在,我们重新调节其中一个值,将它乘10(将它视作X1),并再次拟合同一规则化参数。下列哪一项正确?

A. X1很可能被模型排除

B. X1很可能被包含在模型内

C.很难说

D.都不对

答案:B

大特征值=⇒小相关系数=⇒更少lasso penalty =⇒更可能被保留

Q17.关于Ridge和Lasso回归在特征值选择上的方法,一下哪项正确?

A. Ridge回归使用特征值的子集选择

B. Lasso回归使用特征值的子集选择

C.二者都使用特征值的子集选择

D.以上都不正确

答案:B

Ridge回归在最终模型中用到了所有自变量,然而Lasso回归可被用于特征值选择,因为相关系数可以为零。点击此处阅读更多细节。

Q18.在线性回归模型中增加一个变量,下列哪一项是正确的?

1.R方和调整R方都上升

2.R方上升,调整R方下降

3.R方和调整R方都下降

4.R方下降,调整R方上升

A.1和2

B.1和3

C.2和4

D.以上都不对

答案:A

每次加入特征值,R方总是上升或维持不变。但调整R方并非如此,当它上升时,特征值是显著的。

Q19.下图显示了对相同训练数据的三种不同拟合模型(蓝线标出),从中可以得出什么结论?

1.同第二第三个模型相比,第一个模型的训练误差更大

2.该回归问题的最佳模型是第三个,因为它有最小的训练误差

3.第二个模型比第一、第三个鲁棒性更好,因为它在处理不可见数据方面表现更好

4.相比第一、第二个模型,第三个模型过拟合了数据

5.因为我们尚未看到测试数据,所以所有模型表现一致

A.1和3

B.1和2

C.1,3和4

D.只有5

答案:C

数据的趋势看起来像以X 为自变量的二项式。更高的次数(最右边的图)的多项式对于训练数据可能具有更高的准确性,但在测试集上毫无疑问的惨败。在最左面一张图中,由于数据欠拟合,将会得到最大训练误差。

Q20.下列哪项可以评价回归模型?

1.R方

2.调整R方

3.F统计量

4.RMSE/MSE/MAE

A.2和4

B.1和2

C.2,3和4

D.以上所有

答案:D

以上这些都是评价回归模型的指标

Q21.我们可以通过一种叫“正规方程”的分析方法来计算线性回归的相关系数,下列关于“正规方程”哪一项是正确的?

1.我们不必选择学习比率

2.当特征值数量很大时会很慢

3.不需要迭代

A.1和2

B.1和3

C.2和3

D.1,2和3

答案:D

正规方程可替代梯度下降来计算相关系数,参考这篇文章获得更多关于正规方程的知识。

Q22.Y的预期值是关于变量X(X1,X2….Xn)的线性函数,回归线定义为Y = β0β1 X1β2 X2……βn Xn,下列陈述哪项正确?

1.如果Xi的变化量为 ∆Xi,其它为常量,则Y的变化量为βi ∆Xi,常量βi可以为正数或负数

2. βi 的值都是一样的,除非是其它X的βi

3.X对Y预期值的总影响为每个分影响之和

提示:特征值间相互独立,互不干扰

A.1和2

B.1和3

C.2和3

D.1,2和3

答案:D

1.Y的预期值是关于X的线性函数,这表示:

1. 如果Xi的变化量为 ∆Xi,其它变量不变,Y的预期值随β i ∆X i而变化,β i可以为正数或负数

2.βi 的值都是一样的,除非是其它X的βi

3.X对Y预期值的总影响为每个分影响之和

2.Y的未知变化独立于随机变量(特别之处,当随机变量为时间序列时,Y与随机变量不是自动关联的)

3.它们的方差一致(同方差性)

4.它们一般是分散的

Q23.为了评价一个简单线性回归模型(单自变量),需要多少个参数?

A.1

B.2

C.不确定

答案:B

在简单线性回归模型中,有一个自变量,需要两个参数(Y=a bX)

Q24.下图展示了两条对随机生成的数据的回归拟合线(A和B),请探究A,B的各自的残差之和

提示:

1.两张图的横纵轴大小一致

2.X轴是自变量,Y 轴是因变量

下列对A,B各自残差和的陈述哪项正确?

A.A比B高

B.A比B低

C.两者相同

D.以上都不对

答案:C

残差之和总为零

Q25.若两个变量相关,它们之间一定有线性关系吗?

A.是

B.否

答案:B

不是必要条件,二者可以没有线性关系

Q26.相关变量的相关系数可以为零,对吗?

A.是

B.否

答案:A

Q27.假设对数据提供一个逻辑回归模型,得到训练精度X和测试精度Y。在数据中加入新的特征值,则下列哪一项是正确的?

提示:其余参数是一样的

1.训练精度总是下降

2.训练精度总是上升或不变

3.测试精度总是下降

4.测试精度总是上升或不变

A.只有2

B.只有1

C.只有3

D.只有4

答案:A

向模型中加入更多特征值会提高训练精度,低偏差;如果特征值是显著的,测试精度会上升

Q28.下图显示了由X预测Y的回归线,图上的值展示了每个预期的离差,请据此计算SSE(残差平方和)

A. 3.02

B. 0.75

C. 1.01

D. 以上都不对

答案:A

SSE是预估误差的平方之和,所以SSE = (-.2)^2(.4)^2(-.8)^2(1.3)^2(-.7)^2 = 3.02

Q29.众所周知,身高体重呈正相关。忽略图表大小(变量被标准化了)下列两张图哪张更像描绘身高(X轴)体重(Y轴)的图表?

A.图2

B.图1

C.两张都是

D.无法确定

答案:A

图2很明显更好的展现了身高体重之间的联系,个体身高更高,体积就越大,体重就相应越大,所以预期身高体重是正相关的。右图是正相关而左图是负相关。

Q30.假设X公司的员工收入分布中位数为$35,000,25%和75%比例处的数值为$21,000 和$53,000。收入$1会被认为是异常值吗?

A.是

B.否

C.需要更多信息

D.以上都不对

答案:C

Q31.关于回归和相关,下列哪项是正确的?

提示:y是因变量,x是自变量

A.在两者中,x、y关系都是对称的

B.在两者中,x、y关系都是不对称的

C.x、y在相关情况下不对称,在回归中对称

D.x、y在相关情况下对称,在回归中不对称

答案:D

1.相关是衡量两个变量线性联系的统计度量,对待x、y是对称的

2.回归是用于根据x预测y,其关系不对称

Q32.可以根据平均值和中位数计算斜率吗?

A.可以

B.不可以

答案:B

斜率不是直接和平均值中位数相关的

Q33.假设你有n个有两个连续变量的数据集(y是因变量,x是自变量)下表给出了这些数据集的信息总结:

这些数据集都是一致的吗?

A.是

B.不是

C.无法确定

答案:C

为了回答这个问题,你需要了解Anscombe的四幅图,请参考这篇文章。

Q34.观测值是如何影响过拟合的?

提示:余下所有参数都一致

1.观测更少更易过拟合

2.观测更少更不易过拟合

3.观测更多更易过拟合

4.观测更多更不易过拟合

A.1和4

B.2和3

C.1和3

D.都不正确

答案:A

特别地,当观测值太少,规模太小,模型很容易过拟合。因为我们只有很少的点,当提升模型复杂度(比如多项式拟合)时,就会很容易覆盖所有观测值点。

另一方面,如果有很多很多观测值,哪怕模型很复杂,也很难过拟合。

Q35.假设用一个复杂回归模型拟合一个数据集,使用带固定参数lambda的Ridge回归来减小它的复杂度,下列哪项描述了偏差和方差与lambda的关系?

A.对于非常大的lambda,偏差很小,方差很小

B.对于非常大的lambda,偏差很小,方差很大

C.对于非常大的lambda,偏差很大,方差很小

D.对于非常大的lambda,偏差很大,方差很大

答案:C

Lambda很大表示模型没有那么复杂,这种情况下偏差大,方差小

Q36. 假设用一个复杂回归模型拟合一个数据集,使用带固定参数lambda的Ridge回归来减小它的复杂度,下列哪项描述了偏差和方差与lambda的关系?

A.对于非常小的lambda,偏差很小,方差很小

B.对于非常小的lambda,偏差很小,方差很大

C.对于非常小的lambda,偏差很大,方差很小

D.对于非常小的lambda,偏差很大,方差很大

答案:B

Lambda很小表示模型复杂,这种情况下偏差小,方差大,模型会过拟合数据

Q37.关于Ridge回归,下列哪项正确?

1.lambda为0时,模型作用类似于线性回归模型

2.lambda为0时,模型作用与线性回归模型不相像

3.当lambda趋向无穷,会得到非常小,趋近0的相关系数

4.当lambda趋向无穷,会得到非常大,趋近无穷的相关系数

A.1和3

B.1和4

C.2和3

D.2和4

答案:A

当lambda为0时我们得到了最小的最小二乘解;当lambda趋近无穷时,会得到非常小、趋近0的相关系数。

Q38.下列三张残差图,哪张与其它相比是最糟糕的模型?

提示:

1.所有残差都被标准化了

2.这些图是关于预期值和残差的

A. 1

B. 2

C. 3

D. 1和2

答案:C

预期值和残差之间应该没有任何关系,若果有则说明模型未能完美捕获数据信息。

Q39.下列哪一种回归方法的相关系数没有闭式解?

A.Ridge回归

B. Lasso回归

C. Ridge回归 and Lasso回归

D.两者都不是

答案:B

Lasso不允许闭式解,L1-penalty使解为非线性的,所以需要近似解。参考这篇文章获得更多关于闭式解的知识。

Q40.参考如下数据集,移除哪一个黑点将会对回归拟合线(黑虚线所示)产生最大影响

A.a

B.b

C.c

D.d

答案:D

线性回归对数据中的异常值敏感,虽然C也是给定数据区间内的异常值,但它离回归拟合线很近,所以不会造成太多影响

Q41.在简单线性回归模型中(单自变量),如果改变输入变量1单元,输出变量会变化多少?

A.1单元

B.无变化

C.截距值

D.斜率值

答案:D

简单线性回归公式为Y=a bx,如果给x增加1,y就变成了a b(x 1),即y增加了b

Q42.逻辑回归是输出结果落在[0,1]区间内,下列哪个函数用于转换概率,使其落入[0,1]?

A. Sigmoid

B. Mode

C. Square

D. Probit

答案:A

Sigmoid函数用于转换输出结果,使之落在逻辑回归区间[0,1]内

Q43.考虑线性回归和逻辑回归中的重量/相关系数,关于cost函数的偏导,下列哪一项是正确的?

A.都不一样

B.都一样

C.无法确定

D.以上都不对

答案:B

参考这个链接

Q44.假设使用逻辑回归模型处理n元分类问题,可以用到One-vs-rest方法,则下列哪一项是正确的?

A.在n元分类问题中,需要拟合n个模型

B.为了分类为n类,需要拟合n-1个模型

C.为了分类为n类,只需要拟合1个模型

D.都不正确

答案:A

如果有n类,就有n个分散的逻辑回归需要拟合,每一类的概率都是基于其余类来预测的。以三类分类(-1,0,1)为例,需要训练三个逻辑回归分类器:

1. -1 vs 0 and 1

2.0 vs -1 and 1

3.1 vs 0 and -1

Q45.下图是两种有不同β0 和β1值的逻辑回归模型

下列关于两种逻辑回归模型中β0 和β1的叙述哪项是正确的?

提示:Y = β0β1*X,β0为截距,β1是斜率

A.绿线的β1比黑线的大

B.绿线的β1比黑线的小

C.两个模型的β1是一样的

D.无法得出结论

答案:B

β0和β1: β0 = 0, β1 = 1是黑线的情况;β0 = 0, β1 = −1是绿线的情况

总结

我们希望你能发现这个测试和提供的解决方法有趣而实用。这个测试注重回归的理论知识和它的多种技巧。我们试着通过这篇文章解释你们的所有疑惑,如果你发现了任何错误和遗漏,或者你有好的建议,请和我们联系。

文章原标题《45 questions to test a Data Scientist on Regression (Skill test – Regression Solution)》,作者: ANKIT GUPTA

文章为简译,更为详细的内容,请查看原文:https://yq.aliyun.com/articles/67213

    推荐阅读
  • 碱地去碱最快的方法(土地去碱的办法)

    碱地去碱最快的方法洗盐。平整土地可使水分均匀下渗,提高降雨淋盐和灌溉洗盐的效果,防止土壤斑状盐渍化。耙地可疏松表土,截断土壤毛细管水向地表输送盐分,起到防止返盐的作用。增施有机肥,合理施用化肥。硫酸钾复合肥是微酸性肥料,适合在盐碱地上施用,且有改良盐碱地的良好作用。建立完善的排灌系统,做到灌、排分开,加强用水管理,严格控制地下水水位,通过灌水冲洗、引洪放淤等,不断淋洗和排除土壤中的盐分。

  • 便宜猫粮推荐口感好(性价比无敌的高端国产粮)

    检测项目包括主要营养元素、脂肪酸、微量元素、维生素、氨基酸,总计63项。虽然蛋白质种类越多,过敏的概率会增加,但是过敏整体上还是小概率。这是这款猫粮技术上最大的特点,据了解这是和江南大学联合研发的技术。而蛋白质检测值是44.33%。宠物食品中的生物酶解技术,主要是动物蛋白质原料在蛋白酶的催化下,把蛋白质分解成小分子蛋白肽及氨基酸成分,在保留肉质新鲜营养的同时,使动物蛋白更易宠物吸收。

  • 亲爱的闫妮电视剧36集全(亲爱的)

    亲爱的闫妮电视剧36集全?亲爱的闫妮电视剧36集全袁磊可否叫你亲爱的我急切的想要这样呼唤你不是虚伪利欲的非是轻薄随意的更非矫揉造作的是我滚烫热枕的思念让我心痒难忍想把你呼唤想叫一句亲爱的想把你轻轻拥入怀把你深深埋入心我所言即我真心我所行皆付真诚亲爱的我想要告诉你用理解换得彼此的信用尊重撑起彼此的命亲爱的我又该怎样去证明你可依托我终老缘由心定为贤交此一生愿与你共婵姚

  • 传奇单职业手游开服表(游戏怎样)

    接下来我们就一起去研究一下吧!传奇单职业手游开服表单职业传奇是一款超热血的动作格斗类手机游戏,游戏中玩家可以体验到经典传奇的对战感觉,游戏场景精美宏大,音效逼真,为玩家爱营造最震撼的游戏环境。单职业传奇是一款强PK的ARPG手游,它拥有经典的热血PK,万人攻城,随心所欲的战斗,丰富多彩的boss挑战以及玲琅满目的炫酷装备。在游戏中,您将可能身着神器神甲,视万千妖魔如草芥.

  • 徐州办理离婚的手续和流程(离婚登记的条件及流程-呼和浩特秦欣律师)

    协议离婚,是指自愿离婚的男女双方,达成离婚协议,通过婚姻登记机关解除婚姻关系的法定程序。婚姻登记机关应当对当事人出具的有关材料进行严格的审查。对于触犯刑法的,应当追究刑事责任。12月2日,永定县人民法院对林某荣的起诉书面裁定不予受理。林某荣不服,提起上诉。中院于同月27日裁定撤销原审裁定,由原审法院立案受理。永定县人民法院受理后,将卢某煦列为第三人通知其参加诉讼。

  • 防溺水作文400字(防溺水作文400字范文)

    有报道指出对于青少年放暑假的这个期间,会有很多的孩子去水里面玩耍,未能更高的注重孩子们的生命健康问题,未能保护好孩子们的生命。对于每个人,对于每个家庭,这孩子都是最了不起的,这孩子都是希望。生命是人一生中最值得珍贵的,生命是人一生中最重要的。保护生命,预防溺水,是重中之重,我们应该切记。珍爱生命,预防溺水,珍爱生命让生命处于一种最健康,最安全的状态,给孩子们多一些保护和关心。

  • 剁椒腌青豆怎么做(剁椒腌青豆的做法)

    以下内容希望对你有帮助!剁椒腌青豆怎么做先将青豆洗干净,去掉外边的那层膜不要,锅里加水放入青豆,煮十分钟捞出,晾干。将姜蒜辣椒切末放碗中,放盐拌匀腌制一小时。晾好的青豆放盆中,把拌好的剁椒酱加入拌匀即可。密封瓶开水烫下晾干。将拌好的青豆装入瓶中,瓶口盖2层保鲜膜,将盖子盖上,放冰箱冷藏,十天后便可食用了。

  • 各种erp软件的对比使用(erp软件介绍)

    泛普软件ERP模企宝实时自动汇出各种报表数据,准确并且及时。用了泛普软件ERP模企宝以后,您就可以详尽知道机台的稼动率,机台的负荷等等,如果本厂产能不足,可以提前外发,减少不必要的交期延迟。

  • 红色的蜘蛛有没有毒(红色的蜘蛛有没有毒素)

    而自然界中蜘蛛的种类却是非常的多,其中有一种蜘蛛颜色特别好看,是红色的。它的整个身体呈现出来的颜色都是红色的,而且仔细观察它的身体在它的两侧会有一些黑色的斑块,呈现出来的是这种椭圆形。再有就是它的繁殖,这种蜘蛛每年只会产卵一次,但是每次产卵的数量达到100只左右,一个月就能够孵化。不过这种蜘蛛它确实是属于害虫,因为它会危及到田间的一些蔬菜粮食作物。

  • 智能化猎头平台好处(猎头公司是如何收费的)

    2018年已经就剩下最后两个月,埃摩森猎头对今年的猎头市场进行了总结和分析,特别是对猎头公司收费和猎头服务流程进行了整理,以下就是猎头职场最新的收费标准和服务流程!收取的尾款便是猎寻人才所需减去预付款之后的款项。