当前位置:首页 > 数据分析 > 正文

浅谈数据分析常用的8种方法

浅谈数据科学

中不是一个职业社会,所以你会很多决定不一定是正确的,但仅此而已。
是非是当权者说了算。 知道了这一点,很多事情就不需要那么投入了。
我之所以说上一段话,是因为我接下来想说的是放下权力,从理性的角度去说话。
数据科学是分析数据、理解世界和寻找解决方的过程。
说到数据,我理解主要有两类:机器数据,例如图像数据和数据。 目前可以使用深度学习更好地处理此类数据。 这里的处理是指建立分类模型,准确率比较高。 机器数据不需要类理解,而类也无法理解。 只需将此数据直接发送到模型进行处理即可。
第二类数据是创造的数据,比如购买记录、信用记录等。 这类数据和机器数据有一个很大的区别,就是这类数据不精确,而且是矛盾的。
此外,此类数据需要由类进行分析,而不是直接输入到模型中进行训练。
数据科学更多的是关于工作的这方面。 对于数据科学来说,模型只是工具。 对于风控模型,我们不仅希望得到好的模型,我们还希望了解坏是谁,坏有什么特征,即他们能够理解数据。
如何理解数据、跟踪和计算统计是一个很好的方法。 此外,对于分类问题,还需要考虑因变量和自变量之间的关系。
风险控的一个极端例子是,男迟到,就不会迟到。 所以我们可以根据数据建立一个完美的模型,足以让所有男性拒绝它,让所有性接受它。
如果数据显示男性有一半迟到,那么性也是如此,而且男数是相同的。 所以我们可以知道这个变量是没有用的。
现实情况往往没有那么极端:包括一切都迟到、一切不迟到、一半一半。 那么数据属于什么范围呢?
其实,你可以通过作图表来进行初步判断。 从指标上看,就是Iv值。 Iv值就是该值的坏样本比例-好样本比例乘以坏样本比例除以好样本比例取对数。
例如,在第一个极端情况下,所有男都是坏。 所以坏的比例为1,好的比例为0,所以Iv值是无穷大。
第二种情况,男一般都是坏一半好,50%好,50%坏,Iv值为0。