7、用户分群分析模型用户分群即用户信息标签化,通过用户的历史行为路径、行为特征、偏好等属性,将具有相同属性的用户划分为一个群体,并进行后续分析。我们通过漏斗分析可以看到,用户在不同阶段所表现出的行为是不同的,譬如新用户的关注点在哪里?已购用户什么情况下会再次付费?因为群体特征不同,行为会有很大差别,因此可以根据历史数据将用户进行划分,进而再次观察该群体的具体行为。这就是用户分群的原理。用户分群分析模型
由于数据源的多样性,数据集由于干扰、冗余和一致性因素的影响具有不同的质量。从需求的角度,一些数据分析工具和应用对数据质量有着严格的要求。因此在大数据系统中需要数据预处理技术提高数据的质量。讨论三种主要的数据预处理技术。1.数据集成数据集成技术在逻辑上和物理上把来自不同数据源的数据进行集中,为用户提供一个统一的视图。数据集成在传统的数据库研究中是一个成熟的研究领域,如数据仓库和数据联合方法。数据仓库又称为ETL,由3个步骤构成:提取、变换和装载。•提取:连接源系统并选择和收集必要的数据用于随后的分析处理。•变换:通过一系列的规则将提取的数据转换为标准格式。•装载:将提取并变换后的数据导入目标存储基础设施。数据联合则创建一个虚拟的数据库,从分离的数据源查询并合并数据。虚拟数据库并不包含数据本身,而是存储了真实数据及其存储位置的信息或元数据。然而,这两种方法并不能满足流式和搜索应用对高性能的需求,因此这些应用的数据高度动态,并且需要实时处理。一般地,数据集成技术比较好能与流处理引擎或搜索引擎集成在一起。
免责声明: 本页面所展现的信息及其他相关推荐信息,均来源于其对应的商铺,信息的真实性、准确性和合法性由该信息的来源商铺所属企业完全负责。本站对此不承担任何保证责任。如涉及作品内容、 版权和其他问题,请及时与本网联系,我们将核实后进行删除,本网站对此声明具有最终解释权。
友情提醒: 建议您在购买相关产品前务必确认资质及产品质量,过低的价格有可能是虚假信息,请谨慎对待,谨防上当受骗。