09月19, 2016

数据挖掘之WIFI数据分析

WIFI数据包括哪些数据?

通过WiFi记录,可以获得用户访问网站基本数据,对有关数据进行统计、分析,从中发现用户访问网站的规律,并将这些规律与网络营销策略等相结合,从而发现目前网络营销活动中可能存在的问题,并为进一步修正或重新制定网络营销策略提供依据。那么使用何种方法分析这些数据呢?——数据挖掘,下面我们介绍如何通过该方法进行分析。

什么是数据挖掘?

数据挖掘就是从一堆数据集中找出有趣的模式,再将这些有趣的模式转换成有用的知识。那么什么是有趣的模式呢?举个简单的例子,有如下一堆数据:

*.png

仔细观察这堆数据,我们会发现一个有趣的模式,当年龄Age小于3,Weight则小于40磅(也许大家会觉得是废话,但是例子简单,实际应用中要从数千个属性中做删减,再找出有用的模式还是十分困难的)。从而可以得出一条知识:一个人在小于3岁时,ta的体重不超过40磅。

大致对数据挖掘有了简单的认识后,我们来看下数据挖掘的四大神器,分类、关联分析、聚集和回归。下面我简要对每种分析方法进行介绍,并举例说明它们的应用场景。

分类

给定一个数据集,如何根据该集合判断一个人的信用是否良好?如下图所示,首先,将信用不良这个属性标记为类属性,将其他相关属性标记为属性,通过学习分类器对训练集进行学习,训练出模型后,通过测试集进行测试,测试通过即得到我们的所需的模式,再通过人为判断将该模式转换为具体的知识。

*.png
分类实际应用场景一_商品促销

通过用户特征、生活习惯和商品交互等信息,例如性别、职位、居住地、收入等,建立以是否购买过类似促销商品为类属性、以上述属性为普通属性的训练集,通过分类器进行学习,训练出模型后计算潜在客户对于促销产品的购买欲,有选择的进行商品促销。

分类实际应用场景二_欺诈检测

通过用户以往的交易数据,预测信用卡交易中的欺诈案例。将交易中的顾客购买商品时间、购买商品名、及时还贷日期等作为属性,将是否欺诈作为类属性,学习出模型用来侦测用户未来的交易是否可能存在欺诈的行为。

关联分析

*.png

给定一些数据集合,基于集合中的一些物品来挖掘出依赖规则,预测其它关联的物品。例如,从上图中可以挖掘出的规则有

*.png

即:买了牛奶的人会买可乐,买了尿布和牛奶的人会买啤酒。根据得到的这些规则可以用来决策采取什么措施来增加销量。

聚类

给定一些数据集,每条数据均有一系列属性,通过这些属性将它们聚合成不同的类别的过程就叫聚类。聚类结果满足:同一类别中的数据彼此之间比较相似;不同类别间的数据彼此之间不太相似,如下图所示:

*.png
聚类实际应用场景一_市场划分

把所有消费者看做一个整体的集合,将该集合划分成不同的子集,根据消费者的人口和生活特征等信息将每个消费者划分到不同的子集,从而可以对属于不同子集的消费者进行个性化的营销。

分类实际应用场景一_文档聚类

同类的文档相似度较大,而不同类的文档相似度较小。通过聚类对文本信息进行有效地组织、摘要和导航。对用户感兴趣的文档聚类,还可以发现用户的兴趣模式并用于信息过滤和信息主动推荐等服务。

回归

回归其实并不陌生,就如同中学数学课程教授的,基于一些自变量的值来预测另一些因变量的值,如下图所示:

*.png

本文链接:https://www.daguanren.cc/post/wifi_data_analysis.html

-- EOF --

Comments