本答案对应课程为:点我自动跳转查看
本课程起止时间为:2021-04-06到2021-06-30

【作业】第1周 绪论 第一周作业

1、 问题:工业大数据相对于互联网数据有哪些异同,请分析工业大数据的应用场景及其难点。
评分规则: 【 异同:从数据形式、数据分析方法等角度言之有理即可(3分)
应用场景:有简述智能制造、化工生产等场景的大数据应用(3分)
应用难点:工业大数据相对于互联网数据更复杂,质量更差,标签样本数据也更不容易获得。(任写2个,4分)

2、 问题:请描述有监督学习与无监督学习的本质区别,举出各自的一个典型算法。
评分规则: 【 本质区别:有无样本标签(4分)
有监督分析:判别分析的算法(SVM等)(3分)
无监督分析:主元分析PCA、聚类分析等(3分)

第1周 绪论 第一周测验

1、 问题:下列场景适用于回归分析的是
选项:
A:水果分拣
B:天气预报
C:人脸识别
D:信息浓缩
答案: 【天气预报

2、 问题:下列属于多元统计方法的为
选项:
A:决策树
B:神经网络
C:主元分析
D:回归分析
答案: 【主元分析;
回归分析

3、 问题:多元统计分析的图表示法有
选项:
A:轮廓图
B:雷达图
C:调和曲线图
D:散布图矩阵
答案: 【轮廓图;
雷达图;
调和曲线图;
散布图矩阵

4、 问题:聚类分析也可以称为判别分析。
选项:
A:正确
B:错误
答案: 【错误

5、 问题:多元统计分析不仅变量的波动,还要研究变量间的耦合性。
选项:
A:正确
B:错误
答案: 【正确

6、 问题:完整的数据分析过程,包括数据采集、数据清洗和数据分析。
选项:
A:正确
B:错误
答案: 【正确

【作业】第2周 数据预处理及特征提取 第二周作业

1、 问题:为什么要进行数据清洗,有什么好处?
评分规则: 【 数据清洗是建立模型的第一步,如果数据集本身存在很多的脏数据却没有经过充分清洗,后续的数据预处理,数据分析,以及结论都可能出错。
了解数据特性,观察数据的基本特性,比如动态性,非线性,在了解数据的基本特性之后,才可以挑选适合的方法。

2、 问题:有哪些数据清洗方法?(任写2个)
评分规则: 【 缺失值处理方法:删除数据,回归法,最近邻插补,插值法,替换法异常值处理方法:简单统计量分析,3σ准则,箱型图分析一致性分析:观察数据的矛盾性和不相容性

第2周 数据预处理及特征提取 第二周测验

1、 问题:下列哪种方法不是数据填补的手段
选项:
A:替换填充法
B:回归填充法
C:均值标准化
D:插值填充法
答案: 【均值标准化

2、 问题:一般常见的缺失值处理的方法有
选项:
A:替换填充法
B:最近邻插补填充法
C:回归填充法
D:插值填充
答案: 【替换填充法;
最近邻插补填充法;
回归填充法;
插值填充

3、 问题:一般常见的数据归一化的方法有
选项:
A:替换填充法
B:最小最大规范化
C:零均值规范化
D:回归填充法
答案: 【最小最大规范化;
零均值规范化

4、 问题:少量的异常值完全不会影响数据分析。
选项:
A:正确
B:错误
答案: 【错误

5、 问题:一般初步收集到的数据可能是带有异常值的。
选项:
A:正确
B:错误
答案: 【正确

6、 问题:主成分分析可以降低数据维度。
选项:
A:正确
B:错误
答案: 【正确

【作业】第3周 判别分析 第三周作业

1、 问题:作为一种分类算法,支持向量机的基本原理是什么?支持向量机适合解决什么问题?支持向量机常用在哪些领域?支持向量机常用的核函数有哪些?
评分规则: 【 基本原理:(2分,言之有理即可)支持向量机的基本模型是定义在特征空间上的间隔最大的线性分类器,支持向量机还包括核技巧,这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。
适合解决的问题:(2分)支持向量机用于二元分类问题,对于多元分类可以将其分解为多个二元分类问题,再进行分类。
应用领域:(2分,分类问题应用场景即可)支持向量机常用在图像分类、文本分类、面部识别以及垃圾邮件检测等领域。
常用的核函数:(4分,一个两分,写出两个即可)线性核函数:主要用于线性可分的情况。多项式核函数:一种非稳态核函数,适合于正交归一化后的数据。径向基核函数:具有很强的灵活性,应用广泛。大多数情况下有较好的性能。Sigmoid核:来源于MLP中的激活函数,SVM使用Sigmoid相当于一个两层的感知机网络。

2、 问题:常见的距离度量方法有哪些(说出至少两种)?这些方法都有哪些优点和不足?他们的应用场景都是什么?
评分规则: 【 列距离度量方法名称:(4分,1个2分)欧氏距离、马氏距离、曼哈顿距离、余弦距离(若答出其他课上未讲的方法,也可给分)。
优点和不足:(4分,言之有理即可)欧氏距离       优点:计算简便、物理意义明确;缺点:对变量的量纲敏感马氏距离       优点:具有尺度无关性、考虑了样本的整体分布;缺点:需要提前明确总体分布曼哈顿距离     优点:计算简便、物理意义明确;缺点:对变量的量纲敏感余弦距离       优点:计算简便、物理意义明确;缺点:对变量的量纲敏感、只考虑方向而不考虑长度
应用领域:(2分,1个1分,言之有理即可)欧氏距离       测量高度、长度马氏距离       确定样本与总体间的差异曼哈顿距离     路径规划余弦距离       自然语言处理

第3周 判别分析 第三周测验

1、 问题:SVM的中文全称叫什么?
选项:
A:最大向量分类器
B:最小向量分类器
C:支持向量机
D:支持向量回归机
答案: 【支持向量机

2、 问题:SVM算法的最小时间复杂度是O(n²),基于此,以下哪种规格的数据集并不适该算法?
选项:
A:不受数据集的大小影响
B:中等数据集
C:小数据集
D:大数据集
答案: 【大数据集

3、 问题:费舍尔判别分析通过不同类别数据投影后中心点间的距离来衡量类间分离程度。
选项:
A:正确
B:错误
答案: 【正确

4、 问题:拉格朗日乘子法可用于线性可分SVM的模型求解。
选项:
A:正确
B:错误
答案: 【正确

5、 问题:曼哈顿距离是各变量之差的(    )之和。
答案: 【绝对值

第4周 回归分析 第四周测验

1、 问题:最小二乘方法的拟合程度衡量指标是
选项:
A:拟合残差
B:残差平方和
C:残差和
D:均值差
答案: 【残差平方和

2、 问题:最典型的两种拟合不佳的情况是
选项:
A:欠拟合
B:过拟合
C:强拟合
D:弱拟合
答案: 【欠拟合;

本门课程剩余章节答案为付费内容
本文章不含期末不含主观题!!
本文章不含期末不含主观题!!
支付后可长期查看
有疑问请添加客服QQ 2356025045反馈
如遇卡顿看不了请换个浏览器即可打开
请看清楚了再购买哦,电子资源购买后不支持退款哦

   

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注