资料简介
第八章成对数据的统计分析(A卷基础卷)参考答案与试题解析一.选择题(共8小题)1.(2019秋•开封期末)已知x,y是两个变量,下列四个关系中,x,y呈负相关的是( )A.y=x2﹣1B.y=﹣x2+1C.y=x﹣1D.y=﹣x+1【解答】解:根据题意,依次分析选项:对于A,y=x2﹣1,当x增大时,y的值不一定减小,两个变量不是负相关,不符合题意;对于B,y=﹣x2﹣1,当x增大时,y的值不一定减小,两个变量不是负相关,不符合题意;对于C,y=x﹣1,当x增大时,y的值一定增大,两个变量正相关,不符合题意;对于D,y=﹣x+1,当x增大时,y的值一定减小,两个变量负相关,符合题意;故选:D.2.(2020•潍坊一模)甲、乙、丙、四位同学各自对x,y两变量的线性相关性作试验,并用回归分析方法分别求得相关系数r,如表:相关系数甲乙丙丁r﹣0.820.780.690.87则哪位同学的试验结果体现两变量有更强的线性相关性?( )A.甲B.乙C.丙D.丁【解答】解:根据题意知,丁同学的相关系数|r|=0.87为最大,所以丁同学的试验结果体现两变量有更强的线性相关性.故选:D.3.(2020春•盐城期末)在疫情冲击下,地摊经济有利于缓解部分失业人群的燃眉之急,2020年5月底中央开始鼓励地摊经济,某地摊的日盈利y(单位:百元)与当天的平均气温x(单位:℃)之间有如下数据:x/℃2022242123y/百元13623若y与x具有线性相关关系,则y与x的线性回归方程必过的点为( )A.(22,3)B.(22,5)C.(24,3)D.(24,5)【解答】解:由表中数据,计算(20+22+24+21+23)=22,
(1+3+6+2+3)=3,所以y与x的线性回归方程必过样本中心点(22,3).故选:A.4.(2020春•重庆期末)为对某组数据进行分析,建立了四种不同的模型进行拟合,现用回归分析原理,计算出四种模型的相关指数R2分别为0.97,0.86,0.65,0.55,则拟合效果最好的回归模型对应的相关指数R2的值是( )A.0.97B.0.86C.0.65D.0.55【解答】解:四种模型的相关指数R2分别为0.97,0.86,0.65,0.55,则拟合效果最好的回归模型对应的相关指数R2的值是0.97.故选:A.5.(2020•雅安模拟)一车间为规定工时定额,需要确定加工零件所花费的时间,为此进行了4次试验,测得的数据如下,根据如表可得回归方程8x+11,则实数a的值为( )零件数x(个)2345加工时间y(分钟)30a4050A.34B.35C.36D.37【解答】解:,,则样本点的中心坐标为(3.5,),代入线性回归方程,得,解得a=36.故选:C.6.(2020•泸州模拟)某校团委对“学生性别与中学生追星是否有关”作了一次调查,利用2×2列联表,由计算得K2≈7.218,参照如表:P(K2≥k0)0.010.050.0250.0100.0050.001k02.7063.8415.0246.6357.87910.828
得到正确结论是( )A.有99%以上的把握认为“学生性别与中学生追星无关”B.有99%以上的把握认为“学生性别与中学生追星有关”C.在犯错误的概率不超过0.5%的前提下,认为“学生性别与中学生追星无关”D.在犯错误的概率不超过0.5%的前提下,认为“学生性别与中学生追星有关”【解答】解:K2≈7.218>6.635,对应的P(K2≥k0)为0.010,可得有99%以上的把握认为“学生性别与中学生追星有关”,故选:B.7.(2020•临川区校级一模)如表是一个2×2列联表:则表中a,b的值分别为( )y1y2合计x1a2173x2222547合计b46120A.94,72B.52,50C.52,74D.74,52【解答】解:a=73﹣21=52,b=a+22=52+22=74.故选:C.8.(2019春•渝中区校级期末)在对人们休闲方式的一次调查中,根据数据建立如下的2×2列联表:看书运动合计男82028女161228合计243256根据表中数据,得到,所以我们至少有( )的把握判定休闲方式与性别有关系.(参考数据:P(K2≥3.841)≈0.05,P(K2≥6.635)≈0.01)A.99%B.95%C.1%D.5%【解答】解:根据表中数据得到K2≈4.667>3.841,所以至少有95%的把握判定休闲方式与性别有关系.故选:B.
二.多选题(共4小题)9.(2019春•滨州期中)独立性检验中,为了调查变量X与变量Y的关系,经过计算得到P(K2≥6.635)=0.01,表示的意义是( )A.有99%的把握认为变量X与变量Y没有关系B.有1%的把握认为变量X与变量Y有关系C.有99%的把握认为变量X与变量Y有关系D.有1%的把握认为变量X与变量Y没有关系【解答】解:独立性检验中,由P(K2≥6.635)=0.01,它表示的意义是:有1%的把握认为变量X与变量Y没有关系,D正确;即有99%的把握认为变量X与变量Y有关系,C正确.故选:CD.10.(2019春•德州期末)在统计中,由一组样本数据(x1,y1),(x2,y2),…(xn,yn)利用最小二乘法得到两个变量的回归直线方程为,那么下面说法正确的是( )A.直线至少经过点(x1,y1),(x2,y2),…(xn,yn)中的一个点B.直线必经过点C.直线表示最接近y与x之间真实关系的一条直线D.|r|≤1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小【解答】解:线性回归直线是最能体现这组数据的变化趋势的直线,不一定经过样本数据中的点,故A不正确,C正确;线性回归直线一定经过样本中心点,故B正确;线性相关系数r满足|r|≤1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小,故D正确.故选:BCD.11.(2020•济宁模拟)下列说法正确的是( )A.在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越差B.某地气象局预报:6月9日本地降水概率为90%,结果这天没下雨,这表明天气预报并不科学C.回归分析模型中,残差平方和越小,说明模型的拟合效果越好D.在回归直线方程中,当解释变量每增加1个单位时,预报变量多增加0.1个单位
【解答】解:对于A,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.故A错误;对于B,6月9日本地降水概率为90%,只是表明下雨的可能性是90%,有可能这天不下雨,不能说明天气预报并不科学,故B错误;在回归分析模型中,残差平方和越小,说明模型的拟合效果越好,故C正确;在回归直线方程中,当解释变量x每增加1个单位时,预报变量增加0.1个单位,故D正确.故选:CD.12.(2020•山东模拟)某机构在研究性别与是否爱好拳击运动的关系中,通过收集数据得到如下2×2列联表男女合计爱好拳击352257不爱好拳击152843合计5050100经计算得K2.之后又对被研究者的身高进行了统计,得到男、女身高分别近似服从正态分布N(175,16)和N(164,9),则下列选项中正确的是( ) P(K2≥k) 0.500.05 0.0100.0050.001 k 0.4553.8416.6357.89710.828A.在犯错误的概率不超过1%的前提下,认为“爱好拳击运动与性别有关”B.在100个男生中,至少有一个人爱好打拳击C.男生身高的平均数为175,男生身高的标准差为16D.女生身高的平均数为164,女生身高的标准差为3【解答】解:K2≈6.895>6.635,A对,显然B错,男生标准差为4,C错,显然D对,故选:AD.三.填空题(共4小题)
13.(2020•沈阳三模)某高校有10000名学生,其中女生3000名,男生7000名.为调查爱好体育运动是否与性别有关,用分层抽样的方法抽取120名学生,制成独立性检验的2×2列表如表,则a﹣b= 29 .(用数字作答)男女合计爱好体育运动a9####不爱好体育运动28b####合计########120【解答】解:根据分层抽样原理,计算抽取男生12084(人),女生12036(人),所以a=84﹣28=56(人),b=36﹣9=27(人),所以a﹣b=56﹣27=29(人).故答案为:29.14.(2020春•锡山区校级期中)已知变量x,y线性相关,由观测数据算得样本的平均数,线性回归方程中的系数b,a满足b+a=4,则线性回归方程为 .【解答】解:线性回归方程过样本中心点(4,5),所以4b+a=5;又a+b=4,解方程组,得b,a,所以线性回归方程为:.故答案为:.
15.(2020•运城模拟)如表为制作某款木制品过程中的产量x吨与相应的消耗木材y吨的统计数据,经计算得到y关于x的线性回归方程,由于某些原因m处的数据看不清楚了,则根据运算可得m= 5.5 .x3456y2.23.54.8m【解答】解:由题意可得:4.5,,因为回归直线结果样本中心,所以0.7×4.5+0.85,解得m=5.5.故答案为:5.5.16.(2020春•昌吉市期中)已知x与y之间的一组数据:x25710y1357则y与x的线性回归方程为必过点 (6,4) .【解答】解:由数据可知:(2+5+7+10)=6;(1+3+5+7)=4,故线性回归方程必过点(6,4).故答案为:(6,4).四.解答题(共5小题)17.(2020春•香坊区校级期中)《中国诗词大会》是中央电视台于2016年推出的大型益智类节目,中央电视台为了解该节目的收视情况,抽查北方与南方各5个城市,得到观看该节目的人数(单位:千人)如茎叶图所示,但其中一个数字被污损.(1)若将被污损的数字视为0~9中10个数字中的一个,求北方观众平均人数不超过南方观众平均人数的概率;(2)该节目的播出极大激发了观众学习诗词的热情,现在随机统计了4位观众每周学习诗词的平均时间
y(单位:小时)与年龄x(单位:岁),并制作了对照表(如表所示):年龄x20304050每周学习诗词的平均时间y33.53.54由表中数据分析,x与y呈线性相关关系,试求线性回归方程,并预测年龄为70岁的观众每周学习诗词的平均时间.参考公式:,.【解答】解:(1)设污损的数字为x,由北方观众平均人数不超过南方观众平均人数得,解得:x≥6,即x=6,7,8,9,∴北方观众平均人数不超过南方观众平均人数的概率为:.(2)设线性回归方程为:35,3.5,∴20×3+30×3.5+40×3.5+50×4=505,400+900+1600+2500=5400,0.03,3.5﹣0.03×35=2.45,∴0.03x+2.45,当x=70时,0.03×70+2.45=4.55.答:年龄为70岁的观众每周学习诗词的平均时间大约为4.55小时.18.(2020•攀枝花模拟)某公司为提高市场销售业绩,促进某产品的销售,随机调查了该产品的月销售单价x(单位:元/件)及相应月销量y(单位:万件),对近5个月的月销售单价xi和月销售量yi(i=1,2,3,4,5)的数据进行了统计,得到如表数据:
月销售单价xi(元/件)99.51010.511月销售量yi(万件)1110865(Ⅰ)建立y关于x的回归直线方程;(Ⅱ)该公司开展促销活动,当该产品月销售单价为7元/件时,其月销售量达到18万件,若由回归直线方程得到的预测数据与此次促销活动的实际数据之差的绝对值不超过0.5万件,则认为所得到的回归直线方程是理想的,试问:(Ⅰ)中得到的回归直线方程是否理想?(Ⅲ)根据(Ⅰ)的结果,若该产品成本是5元/件,月销售单价x为何值时(销售单价不超过11元/件),公司月利润的预计值最大?参考公式:回归直线方程,其中,.参考数据:,xi2=502.5.【解答】解:(Ⅰ)因为,.所以,所以,所以y关于x的回归直线方程为:.(Ⅱ)当x=7时,,则|17.6﹣18|=0.4<0.5,所以可以认为所得到的回归直线方程是理想的.(Ⅲ)设销售利润为M,则M=(x﹣5)(﹣3.2x+40)(5<x≤11)M=﹣3.2x2+56x﹣200,所以x=8.75时,M取最大值,所以该产品单价定为8.75元时,公司才能获得最大利润.19.(2020•四川模拟)某商场为改进服务质量,随机抽取了200名进场购物的顾客进行问卷调查,调查后,就顾客“购物体验”的满意度统计如表:满意不满意男4040女8040
(1)是否有97.5%的把握认为顾客购物体验的满意度与性别有关?(2)若在购物体验满意的问卷顾客中按照性别分层抽取了6人发放价值100元的购物券.若在获得了100元购物券的6人中随机抽取2人赠其纪念品,求获得纪念品的2人中仅有1人是女顾客的概率.附表及公式:K2P(K2≥k0)0.150.100.050.0250.0100.0050.001k02.0722.7063.8415.0246.6357.87910.828【解答】解:(1)因为5.024,所以有97.5%的把握认为顾客购物体验的满意度与性别有关.(2)由题意可知,购物体验满意的问卷顾客中男性与女性分别为40人和80人,即男:女=1:2,所以分层抽取的6人中有2人是男性,4人是女性,故获得纪念品的2人中仅有1人是女顾客的概率为.20.(2020•衡阳一模)2020年1月22日,国新办发布消息:新型冠状病毒来源于武汉一家海鲜市场非法销售的野生动.专家通过全基因组比对发现此病毒与2003年的非典冠状病毒以及此后的中东呼吸综合征冠状病毒,分别达到70%和40%的序列相似性.这种新型冠状病毒对人们的健康生命带来了严重威胁因此,某生物疫苗研究所加紧对新型冠状病毒疫苗进行实验,并将某一型号疫苗用在动物小白鼠身上进行科研和临床实验,得到统计数据如表:未感染病毒感染病毒总计未注射疫苗20xA注射疫苗30yB总计5050100现从所有试验小白鼠中任取一只,取到“注射疫苗”小白鼠的概率为.(1)求2×2列联表中的数据x,y,A,B的值;(2)能否有99.9%把握认为注射此种疫苗对预防新型冠状病毒有效?
附:K2,n=a+b+c+d.P(K2≥K0)0.050.010.0050.001K03.8416.6357.87910.828【解答】解:(1)由已知条件可知:B100=40,A=100﹣B=60,x=60﹣20=40,y=40﹣30=10.故x=40,y=10,A=60,B=40.(2)∵10.828,∴有99.9%的把握认为注射此种疫苗对预防新型冠状病毒有效.21.(2020•新课标Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):锻炼人次空气质量等级[0,200](200,400](400,600]1(优)216252(良)510123(轻度污染)6784(中度污染)720(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次≤400人次>400空气质量好空气质量不好
附:K2P(K2≥k)0.0500.0100.001k3.8416.63510.828【解答】解:(1)该市一天的空气质量等级为1的概率为:;该市一天的空气质量等级为2的概率为:;该市一天的空气质量等级为3的概率为:;该市一天的空气质量等级为4的概率为:;(2)由题意可得:一天中到该公园锻炼的平均人次的估计值为:100×0.20+300×0.35+500×0.45=350;(3)根据所给数据,可得下面的2×2列联表,人次≤400人次>400总计空气质量好333770空气质量不好22830总计5545100由表中数据可得:K25.820>3.841,所以有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
查看更多