当前位置：首页 > 数据分析 > 正文

浅谈数据分析常用的8种方法

数据分析
2024-09-27 05:10:19
7877

浅谈数据科学

中不是一个职业社会，所以你会很多决定不一定是正确的，但仅此而已。
是非是当权者说了算。知道了这一点，很多事情就不需要那么投入了。
我之所以说上一段话，是因为我接下来想说的是放下权力，从理性的角度去说话。
数据科学是分析数据、理解世界和寻找解决方的过程。
说到数据，我理解主要有两类：机器数据，例如图像数据和数据。目前可以使用深度学习更好地处理此类数据。这里的处理是指建立分类模型，准确率比较高。机器数据不需要类理解，而类也无法理解。只需将此数据直接发送到模型进行处理即可。
第二类数据是创造的数据，比如购买记录、信用记录等。这类数据和机器数据有一个很大的区别，就是这类数据不精确，而且是矛盾的。
此外，此类数据需要由类进行分析，而不是直接输入到模型中进行训练。
数据科学更多的是关于工作的这方面。对于数据科学来说，模型只是工具。对于风控模型，我们不仅希望得到好的模型，我们还希望了解坏是谁，坏有什么特征，即他们能够理解数据。
如何理解数据、跟踪和计算统计是一个很好的方法。此外，对于分类问题，还需要考虑因变量和自变量之间的关系。
风险控的一个极端例子是，男迟到，就不会迟到。所以我们可以根据数据建立一个完美的模型，足以让所有男性拒绝它，让所有性接受它。
如果数据显示男性有一半迟到，那么性也是如此，而且男数是相同的。所以我们可以知道这个变量是没有用的。
现实情况往往没有那么极端：包括一切都迟到、一切不迟到、一半一半。那么数据属于什么范围呢？
其实，你可以通过作图表来进行初步判断。从指标上看，就是Iv值。 Iv值就是该值的坏样本比例-好样本比例乘以坏样本比例除以好样本比例取对数。
例如，在第一个极端情况下，所有男都是坏。所以坏的比例为1，好的比例为0，所以Iv值是无穷大。
第二种情况，男一般都是坏一半好，50%好，50%坏，Iv值为0。