数据分析是一项科学、严谨的工作,分析结果常被作为企业决策的重要指导,因此必须确保分析结果的可靠性。然而,在进行数据分析时工作人员很容易犯一些常见错误,导致分析结果不准确,为企业决策带来失误。今天小编就来盘点一下数据分析中的常见错误,希望大家能够及时规避。
1、分析目标不明确
“海量的数据其实并不能产生海量的财富”,许多数据分析人员由于没有制定清晰的分析目标,常常在海量数据中混乱,要么是收集了错误的数据,要么收集的数据不够完整,这会导致数据分析的结果不够准确。
但如果一开始就锁定了目标,你究竟要分析什么?再以结果为导向去思考,你就会知道需要用什么样的数据去支撑你的分析?从而确定数据的来源、收集方式以及分析指标。
2、收集数据时产生误差
当我们捕获数据的软件或硬件出错时,就会出现一定的误差。例如,使用日志与服务器不同步,则可能丢失移动应用程序上的用户行为信息。同样,如果我们使用像麦克风这样的硬件传感器,我们的录音可能会捕捉到背景噪音或其他电信号的干扰。
3、样本缺乏代表性
在进行数据分析时,一定要有可信的数据样本,这是确保数据分析结果靠不靠谱的关键,如果数据样本不具代表性,最终分析的结果也就没有价值。因此,对于数据样本,也要求完整和全面,用单一的、不具代表性的数据来代替全部数据进行分析,这种片面的数据得到的分析结果有可能完全是错误的。
例如,Twitter的用户可能受到更高教育且收入更高,其年龄也会偏大一些。如果用这种有偏的样本来预测目标观众是年轻人的电影票房,其分析结论可能就不会合理了。所以确保你得到的样本数据代表了研究总体。否则,你的分析结论就缺乏坚实的基础。
4、相关关系和因果关系混乱
大部分的数据分析人员在处理大数据时假设相关关系直接影响因果关系。使用大数据来理解两个变量之间的相关性通常是一个很好的实践方法,但是,总是使用“因果”类比可能导致虚假的预测和无效的决定。要想实现数据分析的最好效果,必须理解相关关系和因果关系两者的根本区别。相关关系往往是指同时观察X和Y的变化,而因果关系意味着X导致Y。在数据分析中,这是两个完全不同的事情,但是许多数据分析人员往往忽视了它们的区别。
“数据科学中相关关系不是因果关系”。如果两个关系出现彼此相关的情况,也不意味着是一个导致了另一个的产生。
5、脱离业务实际
一个专业的数据分析人员,必须非常熟悉所分析项目的行业情况、业务流程以及相关知识,因为数据分析的最终结果是解决项目中存在的问题,或者给行业的决策者提供参考意见。如果不能很好地将业务知识和数据分析工作结合起来,脱离业务实际而只关心数据,在这种情况下得到的分析结果将不具有参考价值。
6、热衷高级分析
有的数据分析人员会过分追求所谓尖端的、高级的、时髦的分析技术,面对一个分析项目时,首先想到的是选择一个最尖端的技术去解决,而不是从课题本身的真实需求出发去思考最合理、最有性价比的分析技术。如果能用简单的方法得到相同的结果,就没有必要引用复杂的数据分析模型。
任何一个数据分析项目,至少都会有两种以上的不同分析技术和分析思路。不同的技术往往需要不同的资源投入,而产出可能也是不同精度和不同表现形式。这其中孰优孰劣,根据什么做判断呢?我们要根据需求本身的精度、资源限制等来做出选择。
7、过度依赖机器
机器不是万能的,但还是有人在建模过程中,认为分析软件可以最大程度代替分析师手工劳动,过分的依赖机器的“智能”。
在数据挖掘项目中,80%的时间是花在数据的熟悉、清洗、整理、转换等数据处理阶段。在这个阶段分析软件可以大量取代手工进行规范化、重复性的操作,但是背后隐藏的是怎样的业务逻辑,如何取舍等核心问题是需要分析人员去判断去决定的。另外,即使是经验丰富的优秀数据分析人员,在层出不穷的新业务需求和新业务场景面前,也常常出现已有的经验、原理等无法有效解决新问题、新挑战的情况。
8、没有定期重复验证
许多数据分析人员缺乏耐心,很容易忘记定期对数据分析结果进行验证。可能你的分析模型获得了预期的效果,但这还不够。你应该进行后续验证看能否得到相同的结果,还要看其他分析人员能否重现你的预测分析结果。这是因为事物在是不断变化的。为了避免这种情况,数据分析人员最好的解决方式就是定期对含有新数据的数据模型进行评分,或者基于模型的关系变化快慢逐日逐月评分。
不要只进行一次分析。要定期验证你之前的结论,如果做不到,可能会导致错误的结果。
9、忽视业务落地环节
一些数据分析人员一旦将模型搭建好并验证通过之后,就将其丢给业务部门去应用,至于业务方具体如何应用,则不是他们所在意的。而且如果在应用过程中出现问题或瓶颈,分析人员也不愿意主动去进行分析诊断。
要真正给企业带来价值,重点在于其后的业务落地应用环节。这个环节需要更多团队、多专业的协调和配合,更离不开数据分析人员持续地跟踪、讨论、修正和建议。
10、没有选择合适的可视化工具
“一张图片胜过1000个单词。”数据分析人员不仅要熟悉自己常用的数据可视化工具,也要理解数据有效可视化的原理。
可视化不是单纯的数据展示,其真正价值是设计出可以被读者轻松理解的数据展示。设计过程中的每一个选择,最终都应落地于读者的体验,而非设计者个人。
如果不能选择合适的可视化图表,监控探索性数据分析和展示分析结果,那么即使是最好的数据分析模型,它的价值也不能达到最大化。事实上,许多数据分析人员根据他们的审美选择图表类型,而不是考虑数据集的特征。这个可以通过定义可视化的目标避免。
数据分析结果被有效可视化,才可以理解数据模式的不同,获得企业所需要的洞察力。
11、忽略小概率事件
17世纪之前的欧洲人认为天鹅都是白色的,甚至经常用“世界上没有黑色的天鹅”这句谚语去讽刺那些无中生有的人。但随着第一只黑天鹅在澳大利亚被发现,这句谚语就变成了笑谈,现在“黑天鹅”一般用来指那些影响很大但难以预测的小概率事件。
2008年美国次贷危机爆发之前,整个北美金融行业都在使用同一个风险价值模型来预测投资风险。这个模型的强大之处在于它非常精确,它能把华尔街每家公司的资产都进行严格的概率学分析,给出预期收益和损失值。并且还能给这些海量的市场信息整合成一个简洁的风险指标提供给美联储和财政部参考,比如分析了以往市场变动数据后,金融家会根据这个模型给出某项投资在特定周期内可能让公司蒙受的损失,而这种预测可以覆盖高达99%的市场风险。
然而这个模型有一个被忽略的致命问题,它的概率学模型参照的是过去20年的市场行为,不能对未知的以外情况作出预测,所以它预测不了黑天鹅的出现。这只黑天鹅就是2007年美国商业银行放贷业务的崩溃,虽然它发生的概率只有不到1%,但悲剧确实发生了。直接导致了一次全球大范围的金融危机,失业率达到了10%,很多国家和政府都陷入了债务危机。这虽然是一个小概率事件,可它确实发生了!
忽略小概率事件,有时会造成严重的后果。
数据分析能够有效改善企业产品和服务,并更好地满足市场。但是分析数据的过程中会出现各种各样的错误,及时规避方能使数据发挥更大的价值。
作者:Barry