数分面试题2-牛客

目录标题

- - 1、参数估计和假设检验分别是什么？区别在哪里？
  - 3、怎么降低第一类错误，如何同时降低第一类和第二类错误
  - 4、SQL、Python、R等分析工具，分别有什么用？
  - 5、说一下显著性水平、置信区间、假设检验
  - 6、Union和Join的区别
  - 7、SQL窗口函数并举例
  - 8、SQL里面的like的用法
  - 9、SQL语句求单日留存及一个月的每日留存
  - 10、sql如何进行优化
  - 11、数据分析流程
  - 12、游戏内数据分析涉猎的少，如何证明自己有能力胜任？--学习话术
  - 13、你认为字节小游戏平台分析需要涉及哪些指标？---看思路
  - 14、你对数据分析的认知是什么，那你是如何学习数据分析的
  - 15、你觉得数据分析应该具备的能力是什么
  - 16、以往经历中，你是怎么做数据分析报表
  - 17、对做数据分析做了哪些准备
  - 18、SVM
  - 19、说一个无监督学习算法，阐述原理，优缺点，实际应用点

1、参数估计和假设检验分别是什么？区别在哪里？

参数估计：通过样本统计量来对总体参数进行估计，包括点估计和区间估计。
假设检验：通过对总体参数提出一个假设，然后利用样本统计量来验证假设是否成立，从而做出拒绝或者接受原假设的决定。### 2、假设检验的显著性水平
AB测试是假设检验的应用。

两者联系：参数估计和假设检验都是样本去估计总体，都是建立在概率基础上的统计，可以相互转换
两者区别是：1，参数估计是用样本统计量估计总体参数的方法；假设检验是先对总体参数提出一个假设，然后利用样本信息去检验这个假设是否成立 2，参数估计是以置信区间(大概率)估计总体参数；假设检验是利用小概率事件是否发生来判断假设是否成立

3、怎么降低第一类错误，如何同时降低第一类和第二类错误

当样本容量n固定时，α、β不能同时都小，α变小时β就变大，而β变小时α就变大。
只有当样本容量n增大时，才有可能使两者变小。在实际应用中，一般原则是控制犯第一类错误的概率，即给定α，然后通过增大样本容量n来减小β。

这种着重对第一类错误的概率α加以控制的假设检验称为显著性检验，α就是显著性水平。

统计功效=1-第二类错误，也即当AB两组实际有差异时,能被我们检测出来差异的概率

4、SQL、Python、R等分析工具，分别有什么用？

EXCEL用于小样本量中基本的数据处理操作，
而SQL用于从数据库中取数操作，做一些简单的数据处理工作，通过表连接、嵌套查询等动作完成最终的数据统计工作。
Python和R可以借助多种多样的工具库，可以通过数据建模，可用于有监督或无监督模型的训练，解决分类或预测问题。

5、说一下显著性水平、置信区间、假设检验

显著性水平：其实就是第一类错误也叫弃真错误，也即原假设为真时被拒绝的概率
置信区间：在区间估计中，由样本统计量所构造的总体参数的估计区间称为置信区间
假设检验：先对总体要估计的值提出一个假设，然后利用样本信息去检验这个假设是否成立

6、Union和Join的区别

UNION是两张表进行上下拼接，产生的两个记录集(字段要一样的)并在一起，成为一个新的记录集，分为UNION和UNION ALL两种方法；

JOIN 是两张表进行左右连接，条件匹配的记录将合并产生一个记录集，有LEFT JOIN、RIGHT JOIN、INNER JOIN、OUTER JOIN等多种方法。

7、SQL窗口函数并举例

聚合函数：sum，count，avg，max，min；排序函数：row_number，rank，dense_rank;偏移函数，lead，向后偏移，lag向前偏移，nitile函数，等份分割

8、SQL里面的like的用法

like的作用是模糊查询，
“%”（百分号）：代表任意字符序列（包括空字符序列）。
“_”（下划线）：代表任意单个字符
可以用在where子句中限定查询结果的条件

9、SQL语句求单日留存及一个月的每日留存

1.统计每个用户首次访问的日期；
2.按用户首次访问的日期分组，统计每个日期的单日留存用户数和30日留存用户数及当前日期的新增用户数；
3.单日留存率=单日留存用户数/当前日期下的新增用户数

10、sql如何进行优化

用groupby代替distinct 去重，
表关联之前先用where过滤，防止数据倾斜
建立合适的索引，
减少不必要的字段查询；
少使用like,减少模糊查询
用临时表with as,
如果是并集，多使用union all,
在Oracle中可以使用decode代替case when
合理利用分区

11、数据分析流程

第一步：与业务方沟通问题，明确分析目标；
第二步：对目标进行拆解，可以采用两步分析法，也可以采用人货场分析法，通过数据定位问题源头；第三步：与产品、运营和技术沟通，找到问题原因。

1.发现问题，明确问题；2.收集数据；3.数据清洗；4.数据统计、数据分析；5.可视化；6.报告撰写。

12、游戏内数据分析涉猎的少，如何证明自己有能力胜任？–学习话术

虽然我对游戏数据分析的经验较少，但是我认为对于应届生而言，更重要的是学习能力以及对该行业的热情。我的学习能力不错（举例说明，最好结合实习的例子，其次是在学校学习的例子等）；并且我非常热爱网络游戏，自身职业规划也和游戏相关，希望能在这个行业里深耕；最后我认为数据分析的方法是相通的，我学习的其他数据分析方法论也可以应用其中。

13、你认为字节小游戏平台分析需要涉及哪些指标？—看思路

从产品自身出发、从用户角度出发、
从游戏自身出发：核心玩法的参与度，游戏留存等；从游戏玩家出发：ARPU，DAU，留存率；从游戏性能出发：闪退率，卡顿率等。最重要的是游戏的渗透率，因为字节游戏主要依靠从字节跳动或今日头条引流用户，如何把内容用户转变为游戏用户，是字节游戏现在最重要的事情

14、你对数据分析的认知是什么，那你是如何学习数据分析的

数据分析是通过数据的角度，发现业务的痛点和痒点，通过分析原因得出解决策略，并推动策略落地，达到提升业务质量的过程。主要通过课外阅读以及实习来学习数据分析，通过把在“人人都是产品经理”网站、公众号文章、知乎文章等学习到的数据分析方法论，通过实习的方法实践出来，也让我对数据分析有了更加清晰的认识。

数据分析目的：数据角度出发，发现业务问题，通过分析提出解决方法，从而提升业务
学习路径：网站、公众号、实践

15、你觉得数据分析应该具备的能力是什么

快速学习能力、数据化思维和较强的业务逻辑化能力、沟通能力

数据分析师需要接触不同的业务，在学习新的业务中，我们需要快速学习能力，来提高我们工作的效率；数据化思维能够帮助数据分析师提高数据敏感度，对异常数据有敏感的识别能力；业务逻辑化能力能够让我们与业务方沟通时更加顺畅，数据分析并非独立完成的，是需要与其他人协同产出的。
数据分析者应具备的能力包括：问题拆解能力、业务理解能力、数据挖掘能力等

16、以往经历中，你是怎么做数据分析报表

在学校的学习中，主要使用Python和Excel产出可视化报表，所以我对这两项工具的使用也非常熟练。在公司的实习中，主要使用Tableau和公司的报表平台，我也能够熟练的使用这两项工具，对于不同的平台也有较快的上手能力。

17、对做数据分析做了哪些准备

业务学习、工具学习、理论学习三个层面

业务学习：在人人都是产品经理、知乎、公众号阅读了大量数据分析的文章，并进行方法论总结。
工具学习：熟练掌握Sql、Python、Excel、Tableau等数据分析工具。
理论学习：对数据分析所用的统计学理论、机器学习理论有较为全面的理解掌握

18、SVM

SVM是在特征空间上找到最佳的分离超平面，使得训练集上的正负样本间隔最大。是用来解决二分类问题的有监督学习算法，在引入核方法后也可以解决非线性问题。

19、说一个无监督学习算法，阐述原理，优缺点，实际应用点

k-means聚类算法。
原理：首先选择k个点作为初始点，随后将每个点指派到最近的质心，形成k个簇并重新计算每个簇的质心，直到簇不发生变化或达到最大迭代次数。
优缺点：优点是处理大数据时较为高效且伸缩性较好；缺点是需要事先确定k，不适合非凸集合的聚类。实际应用点：潜在的簇是凸面，且簇之间区别明显，大小相近，适用于大数据。选取较为简单的即可。文章来源地址https://uudwc.com/A/V69xJ