精华区文章阅读

发信人: ssos (存在与虚无·戒酒戒网), 信区: Algorithm
标  题: 第13讲超市内的数据挖掘应用
发信站: 哈工大紫丁香 (2001年12月14日19:57:25 星期五), 站内信件

Zhu Jianqiu
POS机（checkout scanner）最初用途是纯粹的基于操作上的方便，它的优点是可以集中
设置价格，价格改变时，不用对货架上每个商品进行修改。但是，客户对不明确标价的
商品一般不买，所以最初集中设置价格的方便没有实现。然而，在增加付帐速度，精确
定价，库存控制方面起到很大的作用。
POS机另外一个重要的作用，开始没有被注意到，那就是产生了大量的数据 GB/TB。这一
讲探索如何利用这些数据。
首先讨论超市在将来有望成为一个信息中介商，接着介绍了三个案例。每一个案例都演
示了数据挖掘技术在该行业内的用途。
第一个案例描述如何使用汇总的、匿名的交易数据和外部demographic信息一起，研究和
比较不同人种的购买行为。
第二个案例显示了忠诚卡如何和个人消费联系起来，定位基于客户行为的目标市场。
第三个案例显示了如何使用直接和间接的数据挖掘技术（包括关联规则、自动聚集检测
、决策树）来鉴别能够赢利的客户分片。
行业发展趋势
零售业刚开始明白他们收集信息的真正价值，这可以参照其他行业，比如信用卡行业。
信用卡行业与零售业类似，它们收集了客户购买商品的信息，这些信息可以以其他形式
卖给需要针对单个客户进行市场定位的公司。
超市收集的数据使得零售商有机会改变和品牌供应商之间的能力平衡。POS系统所收集的
数据能够回答供应商（如P&G保洁, Coca Cola可口可乐, Pesi百事等等）一个问题，这
个问题是供应商非常希望得到回答的：谁在购买这种品牌的商品？这就是我们通常所说
的，知识就是力量。“谁正在买什么？”这种知识使得零售商有能力成为信息中介商。

　超市作为信息中介
信用卡公司作为信息中介的例子：
客户得到了某航空公司提供的免费飞行里数，该客户有经常飞行的记录，但并不经常搭
乘该航空公司的班机，为什么？
客户为了得到这种优惠（免费飞行），必须填写一张清单，简单地注明所使用的信用卡
。航空公司并不能直接向信用卡公司购买这些客户的姓名和地址等信息。因为信用卡公
司必须保护客户的隐私权。那么，信用卡公司如何进行信息中介的呢？
信用卡公司采取另外一种方式，允许航空公司提这样的问题：哪些客户在最近六个月中
，在飞行上花费超过2000$？对这些客户，由信用卡公司提供offer，航空公司出offer的
内容，即免费旅行等优惠，来争取客户。
超市与供应商和信用卡公司与航空公司有类似的关系，超市同样可以作为信息中介商。
设想一个销售某种品牌商品的经理，例如某种品牌A的猫食，这种商品的目标客户是饲养
猫的家庭，但是，他不知道谁是猫的主人，从而针对性地进行市场策划，例如对猫的主
人发放优待券。超市知道谁买了什么，因而也就知道谁是A的最好的潜在客户，该经理当
然愿意为这一类信息付费。
超市可以采用两种不同的方式从事信息中介，一种方式是针对匿名客户，另一种是针对
注册或有忠诚卡的客户。对第一种，超市可以编写一段优待券打印程序，当一个客户购
买某种商品时，打印与该商品有关商品的优待券（关联规则）。但是，一般而言，客户
在购买了某种商品后，不会在很短的时间内购买相关商品。对于有忠诚卡的客户，可以
分析他的购买历史，向他发放下次可能会购买的商品的优待券（序列模式）。
　重心从商品转换到客户
目前，超市从匿名客户，开始支持忠诚卡客户，即原来的POS程序记录的是匿名交易数据
，现在可以记录有卡的客户的信息。如果没有客户的信息，超市将不能回答许多实际的
问题。
超市发卡记录客户的行为，并不是用来进行数据挖掘的。传统的做法是基于统计的：对
于每月花费超过400$的客户，超市提供一次免费的聚餐。等等。这种方法有一个缺陷，
主要是不针对客户，只针对在超市固定的花费。对于客户的月花费存在三种类型，一类
客户不管超市如何促销，他们的花费都不会超过400$；第二类是日常月花费总超过400$
，对于这一类客户，免费的聚餐不会构成吸引；最后一类客户，是确实因为此类促销活
动，使得花费超过了400$。最后一类客户才是这种策略的真正目的。解决方案是给每一
个客户不同的花费目标，这一点统计不能作到，需要使用数据挖掘的技术。数据挖掘技
术可以对每个客户在花费的价格和购买的商品上，度身定做相应的促销手段。例如，可
以给客户免费赠送某个商品，这种商品他过去没有购买过，但是通过数据挖掘，我们知
道他应该喜欢。
　
三个案例研究
分析特定客户群的购买模式
该数据挖掘项目的客户：某打包商品的厂商。
目的：针对South Texas的说西班牙语的购物者，进行特定种族的市场活动。
数据：Texas连锁超市提供
过程：厂商如何了解特定种族的客户的购买模型
商业背景
厂商需要知道不同的种族的目标客户的习惯和偏爱是否有不同，而这种不同是否对品牌
商品的市场定位有实际的意义。
数据
数据来源：
Texas的连锁超市客户以及其竞争产品的销售数据，原因是Texas一个州有大量的说西班
牙语的人口。
销售数据不是具体的细节数据，是每周销售的汇总
各超市附近的人口统计信息西班牙人口的百分比
销售的产品分为五类：Ready-to-eat cereals（谷类）;Desserts（餐后甜点）;Snack（
小吃）;Main meals（主食）;Pancake and variety baking mixing（烤饼等）
数据是从1996年6月到1997年12月
销售数据包括：the actual units sold; the dollar volume; the equivalent case
sales
超市数据包括：store size; the percentage of Hispanic shoppers; the percentag
e of African-American shoppers
数据分析：
销售数据是汇总的数据，不能做市场篮子分析（Market-basket analysis）
销售数据是匿名的数据，不能通过忠诚卡对客户行为进行分析
数据预处理：
有些数据域包含多种不同含义，所以第一步是数据转换，将数据解码，分解成一个域表
示一个明确的含义。
例如：HISPLVL（the percentage of Hispanic shoppers）和AALEVEL（the percentag
e of African-American shoppers）
AALEVEL 的域是1到10， 1表示African-American的百分比是90~100%
10表示African-American的百分比是0~10%
HISPLVL 的域是1到15，
1表示在San Antonio之外的Hispanic的百分比是90~100%
10表示在San Antonio之外的Hispanic的百分比是0~10%
11表示在San Antonio之内的Hispanic的百分比是90~100%
15表示在San Antonio之内的Hispanic的百分比是0~10%
根据推测，原来的数据库设计者之所以区别对待San Antonio，是因为历史上San Anton
io有较高的Mexican-American人口，Hispanic是近来流入的。
将不同的含义包括在一个数据域，对数据挖掘是会造成混乱的。解决方法是增加一个属
性ALAMO，将San Antonio的超市区别对待。
另一个转换是必须将不同大小的超市的销售进行比较
即考虑超市的销售量，为了表示与超市大小相关的测量因素，增加派生变量：the unit
s, dollars, equivalent cases by the total sales volume of the store
比较跨越不同层次的Hispanic人口的商品的销售
对每个超市的每一个商品增加派生变量‘Hispanicity Scores’，首先将超市分成三组
，分别是low , medium, high Hispanic，每一组的Hispanicity Scores是对sales, do
llars, equivalent cases加权求和，最后每一个商品（脱离超市）的Hispanicity Sco
res是用high Hispanic超市的该商品Hispanicity Scores的平均值减去low Hispanic超
市的该商品Hispanicity Scores的平均值。商品的Hispanicity Scores是一个正数，表
明该商品在Hispanic 人口多的地方销售得好，相反是一个负数，表明在Hispanic人口多
的地方销售得不好，正数越大销售得越好，负数越大销售的越不好。
可视化工具的作用（MineSet）
MineSet的evidence visualizer计算每一个输入变量对结果的贡献度。这个工具采用统
计的数据挖掘技术，称做朴素的贝叶斯建模，这种分析能够迅速地决定哪些值或值的范
围对哪些变量是好的证物（evidence ），属于或者不属于某一特定的分类。这个工具用
来作假定分析，用户能挑选感兴趣的变量和值，迅速地在饼图上观察与不同的结果相关
的可能性的效果。
将Hispanic percentage分成5份（0~20，20~40，40~60，60~80，80~100）作为目标变量
，观察其他与它相关的变量，最后发现：the percentage of African-Americans; whe
ther or nor the store was in San Antonio; the size of the store与目标变量是相
关的。
一个失败的方法
市场篮子分析方法：每个商品被销售的数量和超市的Hispanic（低、中、高）人口做关
联。
最终的结果
最激动的结果来自于对每个商品可视化派生变量hispanicity scores。
MineSet充分利用了屏幕上色彩的可视化表现能力。表现了可视化作为一种数据挖掘的方
法能取得很好的效果。
　
谁在超市购买酸奶？
商业背景
这个案例是将厂商和它的一个商品零售联营联合在一起进行考虑。一个零售联营中，常
常将一个种类商品的某个卖主称做“种类首领（category captain）”，该卖主决定着
其他同类商品在商店的价格。
卖主（供应商）可以通过数据挖掘技术来增加商品的利润率，从而竞争“种类首领”。

数据
数据来源：
7个超市1年POS机详细的交易记录
Date; Store; Lane (lane of transaction); Time; Customer ID; Tender type (pay
ment type); UPC（universal product code）; Quantity; Dollar Amount
两个文件（商品销售明细表）连接得到上述记录，连接键Date-store-lane-time
从杂货到客户
一年的所有超市的交易记录量是巨大的，为了分析客户行为，除了上面给出的数据属性
外，必须增加一些有意义的派生数据，同时，也需要增加一些辅助变量。
扩展的交易细节记录
属性
描述
CKOUT_KEY
Unique key identifying checkout
STOR_KEY
Unique key identifying store and chain
CHN_CD
Chain code
STOR_CD
Store code
LANE_NBR
Lane number
EVNT_DT_KEY
Date(MMDDYYYY)
EVNT_TM_KEY
Time(HHMMSS)
PRD_UPC_KEY
Product UPC
PRD_UPC_QTY
Number of particular UPCs purchased
PRD_UPC_AMT
$ amount spent on particular UPC
CUST_CARD_CD
Frequent shopper ID
CKOUT_AMT
Total purchased $ amount
CKOUT_ITM_QTY
Total # of items purchased
UNIQUE_UPC_QTY
Total # of distinct UPCs purchased
PAYT_TY_NBR
Payment type code
UPC_DESC
Product UPC description
SIZE_DESC
Size description
SIZ
Size
UOM
Unit of measure
CASE_PACK
Case pack
MFG_DESC
Manufacturer's description
MFR_CD
Manufacture ID
ITEM_NUM
Item number
MARGIN
High, medium, or low prof

--


<<社会契约论>>是一本好书,应当多读几遍
风味的肘子味道不错,我还想再吃它

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.230.220]

Algorithm 版 (精华区)