基于动态混合高斯模型的商品价格模型算法

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
简介: 1. 背景     作为电子商务网站,淘宝网上的每个商品都有一个价格,该价格从一个很重要的维度上反应出一个商品的品质。但是由于该价格是由第三方卖家自己确定的,因此存在一定的随机性。一个价格过低的商品,其假货的可能性往往较大,比如500元的劳力士手表,或者商品的质量存在问题;同时一个价格过高的商品,

1. 背景

    作为电子商务网站,淘宝网上的每个商品都有一个价格,该价格从一个很重要的维度上反应出一个商品的品质。但是由于该价格是由第三方卖家自己确定的,因此存在一定的随机性。一个价格过低的商品,其假货的可能性往往较大,比如500元的劳力士手表,或者商品的质量存在问题;同时一个价格过高的商品,可能会失去一个潜在的购买者,也可能会是卖家故意设置高价,以便用户按价格排序时展现在靠前的位置。
    因此对一个商品当前价格的合理性进行判断,并根据该商品的属性给出其合理的价格区间,对于规范淘宝网的商品运营以及搜索结果展现方面都具有重要的作用。

2. 应用场景

    本算法目前主要用于三个场景:
  1. 在搜索排序中,对于商品价格合理性极低的商品进行降权;
  2. 商品假货识别中,针对超低价商品判断其是否为假货;
  3. 商品品质项目中,根据商品的价格合理性作为商品品质分析的一个维度,从劣质、性价比等方面刻画一个商品的品质。

3. 技术方案

3.1 概述

    本算法提出三个优化点来判断一个商品的价格合理性并给出一个合理的价格区间:
  1. 根据商品的属性对商品进行同款聚合,以同款商品为单位,对同款中商品的价格合理性进行判断;
  2. 使用近30天商品的成交价,同时以天猫、KA卖家等可信商家的商品价格作为训练数据;
  3. 基于训练样本动态地选择单高斯模型或双高斯模型,同时解决奇异值与过拟合问题,以提高准确率。
    整体流程图如下所示:
价格模型整体流程

3.2 详细流程

3.2.1. 获得同款数据

    第一步是获取商品的同款信息,只有基于同款的情况下,才能利用大数据对商品的合理价格进行预测。目前使用到的同款数据主要有以下三个:
  1. 部分标类商品有spuid节点,spuid相同的商品为同一类
  2. 当前淘宝网上的找同款的数据
  3. 图像团队产出的同款数据
    除此之外,我们还有基于商品重点属性的同款聚合的通用方法,以增加对商品的覆盖量。该方法通过设置类目下的重点属性,自动地根据这些属性对商品进行聚合成同款进行后续的计算。

3.2.2 训练样本集获取

    获取了同款数据之后,需要从里面找到价格有问题的样本,首先需要获取其中可信任的样本,当前从三个维度获取可信样本:
  1. 以商品成交价作为训练样本,因此需要以同款为粒度获取该同款下过去30天内成交的商品的成交价,同时为了保证成交价的合理性,需要去掉其中识别出来的炒信、作弊等销量
  2. 取同款中天猫卖家的商品价格作为训练样本
  3. 取同款中KA卖家的商品价格作为训练样本

3.2.3 基于动态高斯模型的商品价格模型

    在获取了同款下商品的训练样本之后,使用高斯模型获得其分布的均值、方差等信息。在本方法中对传统的高斯模型进行了两处优化:
  1. 根据样本分布情况去除奇异点;
  2. 根据数据样本情况动态选择单高斯或双高斯模型进行训练;
    具体算法流程如下图所示:
动态高斯模型算法流程图
    本算法中会首先使用双高斯模型计算出当前训练样本的分布情况,同时会根据具体的样本信息决定使用双高斯模型还是单高斯模型。
     判断双高斯是否合适的方法:
    判断是否使用单高斯模型的逻辑有两个
  1. 判断两个高斯模型的均值是否较为接近,若其比值大于某个阈值,比如均值分别为100与130的情况,则可以使用单高斯模型。同时还要判断其均值是否过于接近,如果过于接近,则合并为单高斯之后会造成数据过拟合的情况。因此需要对它们的均值之比设置一个上限与下限;
  2. 同时再设置两个高斯模型中样本点的数量之差的限制
     去除奇异点方法:
    去除奇异点的目的主要是为了解决当前同款数据中本身存在的噪声问题,让训练的样本更加收敛。主要方法是在双高斯模型情况下,若其中一个模型中的样本量过少,而另一个模型中的样本量很多,那么样本量少的可以作为奇异值进行去除。比如在同一款中,大量的价格聚集在100元,只有少量的价格聚集在20元,那么20元周围的样本可以作为奇异值进行去除。具体的阈值等信息根据情况进行设置。
 
    通过该方法计算出每个同款下商品价格的分布情况,在预测时,可以直接通过查表的方式找到该同款下每个商品价格的合理性概率值。

4. 效果与后续计划

4.1 当前识别效果

    当前价格模型的数据分别在 假货识别、商品品质、超低价商品降权 中得到应用。
  1. 具体在假货识别中,应用到了运动鞋类目、手表类目以及门票等类目下,目前已经通过价格的方式识别到有问题的商品X个,经过评测准确率达到98%。
  2. 在商品品质模型中,价格模型也应用于找到性价比更好的商品以及同款商品中价格不合理的商品,作为商品品质模型的一个特征。

4.2 后续计划

    在价格模型后续的工作中,会从以下几个方面进行开展:
  1. 对当前价格模型的不断优化
  2. 假货识别中,从当前的几个类目扩展到更多的类目进行尝试
  3. 商品品质模型中,更好地利用好价格这一因素,开发出更多的模型,如商品性价比模型等
该文章来自于阿里巴巴技术协会( ATA
目录
相关文章
|
23天前
|
人工智能 自然语言处理 算法
算法及模型合规:刻不容缓的企业行动指南
随着AI技术迅猛发展,算法与模型成为企业数字化转型的核心。然而,国家密集出台多项法规,如《人工智能生成合成内容标识办法》等,并开展“清朗·整治AI技术滥用”专项行动,标志着AI监管进入严格阶段。算法备案从“可选项”变为“必选项”,未合规可能面临罚款甚至刑事责任。同时,多地提供备案奖励政策,合规既是规避风险的需要,也是把握政策红利和市场信任的机遇。企业需系统规划合规工作,从被动应对转向主动引领,以适应AI时代的挑战与机遇。
|
2月前
|
机器学习/深度学习 存储 算法
18个常用的强化学习算法整理:从基础方法到高级模型的理论技术与代码实现
本文系统讲解从基本强化学习方法到高级技术(如PPO、A3C、PlaNet等)的实现原理与编码过程,旨在通过理论结合代码的方式,构建对强化学习算法的全面理解。
130 10
18个常用的强化学习算法整理:从基础方法到高级模型的理论技术与代码实现
|
19天前
|
算法 计算机视觉
yolo算法模型训练的样本怎样构建?
处理网https://www.91chuli.com/
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
AI训练师入行指南(三):机器学习算法和模型架构选择
从淘金到雕琢,将原始数据炼成智能珠宝!本文带您走进数字珠宝工坊,用算法工具打磨数据金砂。从基础的经典算法到精密的深度学习模型,结合电商、医疗、金融等场景实战,手把手教您选择合适工具,打造价值连城的智能应用。掌握AutoML改装套件与模型蒸馏术,让复杂问题迎刃而解。握紧算法刻刀,为数字世界雕刻文明!
125 6
|
3月前
|
算法 数据挖掘 数据安全/隐私保护
基于CS模型和CV模型的多目标协同滤波跟踪算法matlab仿真
本项目基于CS模型和CV模型的多目标协同滤波跟踪算法,旨在提高复杂场景下多个移动目标的跟踪精度和鲁棒性。通过融合目标间的关系和数据关联性,优化跟踪结果。程序在MATLAB2022A上运行,展示了真实轨迹与滤波轨迹的对比、位置及速度误差均值和均方误差等关键指标。核心代码包括对目标轨迹、速度及误差的详细绘图分析,验证了算法的有效性。该算法结合CS模型的初步聚类和CV模型的投票机制,增强了目标状态估计的准确性,尤其适用于遮挡、重叠和快速运动等复杂场景。
|
4月前
|
机器学习/深度学习 算法
扩散模型=进化算法!生物学大佬用数学揭示本质
在机器学习与生物学交叉领域,Tufts和Harvard大学研究人员揭示了扩散模型与进化算法的深刻联系。研究表明,扩散模型本质上是一种进化算法,通过逐步去噪生成数据点,类似于进化中的变异和选择机制。这一发现不仅在理论上具有重要意义,还提出了扩散进化方法,能够高效识别多解、处理高维复杂参数空间,并显著减少计算步骤,为图像生成、视频合成及神经网络优化等应用带来广泛潜力。论文地址:https://arxiv.org/pdf/2410.02543。
126 21
|
4月前
|
人工智能 算法 搜索推荐
单纯接入第三方模型就无需算法备案了么?
随着人工智能的发展,企业接入第三方模型提升业务能力的现象日益普遍,但算法备案问题引发诸多讨论。根据相关法规,无论使用自研或第三方模型,只要涉及向中国境内公众提供算法推荐服务,企业均需履行备案义务。这不仅因为服务性质未变,风险依然存在,也符合监管要求。备案内容涵盖模型基本信息、算法优化目标等,且需动态管理。未备案可能面临法律和运营风险。建议企业提前规划、合规管理和积极沟通,确保合法合规运营。
|
5月前
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
934 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
6月前
|
算法
基于模糊PI控制算法的龙格库塔CSTR模型控制系统simulink建模与仿真
本项目基于MATLAB2022a,采用模糊PI控制算法结合龙格-库塔方法,对CSTR模型进行Simulink建模与仿真。通过模糊控制处理误差及变化率,实现精确控制。核心在于将模糊逻辑与经典数值方法融合,提升系统性能。
|
6月前
|
存储 算法
基于HMM隐马尔可夫模型的金融数据预测算法matlab仿真
本项目基于HMM模型实现金融数据预测,包括模型训练与预测两部分。在MATLAB2022A上运行,通过计算状态转移和观测概率预测未来值,并绘制了预测值、真实值及预测误差的对比图。HMM模型适用于金融市场的时间序列分析,能够有效捕捉隐藏状态及其转换规律,为金融预测提供有力工具。
OSZAR »