Dotnet core基于ML.net的销售数据预测实践

ML.net已经进到了1.5版本。作为Microsoft官方的机器学习模型,你不打算用用?

一、前言

ML.net可以让我们很容易地在各种应用场景中将机器学习加入到应用程序中。这是这个框架很重要的一点。

通过ML.net,我们可以使用手中的可用数据,进行预测、分析、检测,而不需要进行过于复杂的编程。

ML.net的核心,同样是机器学习模型。它采用同样的步骤,通过指定算法来训练模型,将输入数据转换为所需的预测数据。

更重要的是,ML.net基于.NET Core,这让它可以非常简单地跨平台,在Windows、Linux、MacOS上运行,并成为我们服务端的一部分内容。

回到今天的主题。

我们用实际的例子,完成一个通过历史销售数据进行单变量时序分析(单谱分析),以预测未来销量的需求。

    为了防止不提供原网址的转载,特在这里加上原文链接:https://www.cnblogs.com/tiger-wang/p/13150021.html

二、开发环境&基础工程

这个Demo的开发环境是:Mac + VS Code + Dotnet Core 3.1.2。

$ dotnet --info
.NET Core SDK (reflecting any global.json):
 Version:   3.1.201
 Commit:    b1768b4ae7

Runtime Environment:
 OS Name:     Mac OS X
 OS Version:  10.15
 OS Platform: Darwin
 RID:         osx.10.15-x64
 Base Path:   /usr/local/share/dotnet/sdk/3.1.201/

Host (useful for support):
  Version: 3.1.3
  Commit:  4a9f85e9f8

.NET Core SDKs installed:
  3.1.201 [/usr/local/share/dotnet/sdk]

.NET Core runtimes installed:
  Microsoft.AspNetCore.App 3.1.3 [/usr/local/share/dotnet/shared/Microsoft.AspNetCore.App]
  Microsoft.NETCore.App 3.1.3 [/usr/local/share/dotnet/shared/Microsoft.NETCore.App]

首先,在这个环境下建立工程:

  1. 创建Solution
% dotnet new sln -o demo
The template "Solution File" was created successfully.
  1. 这次,我们用Console创建工程
cd demo
% dotnet new console -o demo
The template "Console Application" was created successfully.

Processing post-creation actions...
Running 'dotnet restore' on demo/demo.csproj...
  Determining projects to restore...
  Restored demo/demo.csproj (in 143 ms).

Restore succeeded.
  1. 把工程加到Solution中
% dotnet sln add demo/demo.csproj

基础工程搭建完成。

三、引入ML.net库

为了使用ML.net,我们需要引入Microsoft.ML库:

cd demo
% dotnet add package Microsoft.ML

除此之外,本文是基于时序的预测,还需要引入时序库Microsoft.ML.TimeSeries

% dotnet add package Microsoft.ML.TimeSeries

我们今天用到的算法是单谱分析(SSA)。SSA会将时序分解为一组主要成分, 并将这些成分解释为信号,对应于趋势、噪音、季节性及许多其他的因素,然后重新构建这些成分,用来预测未来某个时间的值。

四、准备数据

为了这个DEMO,我准备了一个包含全年365天实际销售金额的数据。

其中这个数据又分为了两部分,第一部分是前11个月的数据,用来做训练,第二部分是12月一个月的数据,用来评估模型。

两部分数据的链接如下:训练数据评估数据

两个数据文件均为CSV文件,数据结构完全相同,下面是一段内容范例:

2018-12-21,17959.0
2018-12-22,19537.03
2018-12-23,20068-12-24,20013-12-25,21005-12-26,16876-12-27,15150-12-28,15669-12-29,25048-12-30,25236.0

五、代码开发

  1. 准备一个输入模型ModelInput
public class ModelInput
{

    [LoadColumn(0)]
    public DateTime action_time { get; set; }
    [LoadColumn(1)]
    public float count { get; set; }
}

这个模型对应数据文件的结构,分两个字段,第一个是日期,第二个是对应的销售金额。

  1. 准备另一个输出模型ModelOutput
ModelOutput
{
    float[] forecasted_count { get; set; }
    float[] lower_count { get; float[] upper_count { get; set; }
}

这个模型跟随预测结果的输出,其中:

  • forecasted_count - 预测时间段内的预测值
  • lower_count - 预测时间段内预测值的下限
  • upper_count - 预测时间段内预测值的上限

  1. 初始化机器学习的实例
MLContext mlContext = new MLContext();

执行所有 ML.NET 操作都是从MLContext类开始,初始化 MLContext将创建一个新的 ML.net 环境,并在模型创建工作流对象之间共享该环境。

  1. 加载数据

ML.net有多种数据的加载方式,可以通过文件、数据库、JSON/XML、内存中加载数据,甚至可以用自定义的数据库连接加载数据。

本文的DEMO中,数据在CSV文件中,所以,我们采用下面的方式加载:

static readonly string _data1Path = Path.Combine(Environment.CurrentDirectory, "data1.csv");
string _data2Path = Path.Combine(Environment.CurrentDirectory,1); word-wrap: inherit !important; word-break: inherit !important">"data2.csv");

static void Main(string[] args)
{
    MLContext mlContext = new MLContext();

    IDataView data1View = mlContext.Data.LoadFromTextFile<ModelInput>(_data1Path, separatorChar: ',', hasHeader: false);
    IDataView data2View = mlContext.Data.LoadFromTextFile<ModelInput>(_data2Path,1); word-wrap: inherit !important; word-break: inherit !important">false);
}

IDataView是数据的承载空间。

  1. 定义时序分析管道
var forecastingPipeline = mlContext.Forecasting.ForecastBySsa(
    outputColumnName: "forecasted_count",
    inputColumnName: "count",
    windowSize: 7,
    seriesLength: 30,
    trainSize: 334,
    horizon: 0.95f,
    confidenceLowerBoundColumn: "lower_count",
    confidenceUpperBoundColumn: "upper_count");

前面有说过,我们采用单谱分析,所以代码中我们选择了mlContext.Forecasting.ForecastBySsa

解释一下这里面的几个参数:

  • trainSize - 数据样本的数量,也就是训练数据的行数(在这个文件中,一行是一个数据样本,共334行)
  • seriesLength - 从数据样本按时序采样时的间隔,这里是30天
  • windowSize - 样本周期的天数,这里是7天
  • horizon - 预测结果的天数
  • confidenceLevel - 上下限的可信度。预测属于合理猜测,不总是完全准确。
  • 其它几个参数,对应输入输出模型的字段名

  1. 训练模型

管道定义完成,数据加载完成,下面要进行数据训练。

SsaForecastingTransformer forecaster = forecastingPipeline.Fit(data1View);

跟随上一节,管道是单谱管道,所以训练也是单谱训练SsaForecastingTransformer

程序执行到这里,数据训练完成。

  1. 模型评估

模型评估不是必须环节。

模型评估的意义在于:通过评估模型的性能,来调整管道的参数,以达到最佳的预测效果。

模型评估也有多种方式。在这里,我们采用平均绝对误差均方根误差来做评估依据。

Evaluate(IDataView testData, ITransformer model, MLContext mlContext)
{
    IDataView predictions = model.Transform(testData);

    IEnumerable<float> actual =
        mlContext.Data.CreateEnumerable<ModelInput>(testData, true)
            .Select(p => p.count);

    IEnumerable<float> forecast =
        mlContext.Data.CreateEnumerable<ModelOutput>(predictions,1); word-wrap: inherit !important; word-break: inherit !important">true)
            .Select(p => p.forecasted_count[0]);

    var metrics = actual.Zip(forecast, (actualValue, forecastValue) => actualValue - forecastValue);

    var MAE = metrics.Average(error => Math.Abs(error));
    var RMSE = Math.Sqrt(metrics.Average(error => Math.Pow(error, 2)));

    Console.WriteLine("评估结果");
    Console.WriteLine("---------------------");
    Console.WriteLine($"平均绝对误差: {MAE:F3}");
    Console.WriteLine($"均方根误差: {RMSE:F3}\n");
}

在这个方法中,我们取评估数据的实际值actual和通过训练数据生成的预测值forecast,计算两个误差并输出。

Main中调用此方法:

string[] args)
{
        /* 这儿是前边训练的代码,略过 */

        Evaluate(data2View, forecaster, mlContext);
}
/* 这儿是评估模型的方法,上面有,略过 */
}

输出结果类似于以下内容:

评估结果
---------------------
平均绝对误差: 23.442
均方根误差: 174.236

两个指标:

  • 平均绝对误差 - 度量预测与实际值之间的接近程度。 此值介于 0 到无限大之间。 越接近 0,模型的质量越好。
  • 均方根误差 - 汇总模型中的错误。 此值介于 0 到无限大之间。 越接近 0,模型的质量越好。

  1. 预测

训练模型调整到满意后,即可开始预测的工作:

var forecastEngine = forecaster.CreateTimeSeriesEngine<ModelInput, ModelOutput>(mlContext);
ModelOutput forecast = forecastEngine.Predict();

这两行代码,在内存中加载前边训练好的模型,并进行预测操作。预测数据的结果放在forecast中。

对应于分析管道定义中的horizon,预测数据包含7天的预测结果。

  1. 预测结果输出

放在forecast中的数据,对应模型ModelOutput,可以用在任何地方。

在本文中,我们直接显示到Console

IEnumerable<string> forecastOutput =
    mlContext.Data.CreateEnumerable<ModelInput>(data2View, reuseRowObject: false)
        .Take(7)
        .Select((ModelInput data, int index) =>
        {
            string action_date = data.action_time.ToString("yyyy-MM-dd");
            float actual_count = data.count;
            float lowerEstimate = Math.Max(0, forecast.lower_count[index]);
            float estimate = forecast.forecasted_count[index];
            float upperEstimate = forecast.upper_count[index];
            return $"日期: {action_date}\n" +
            $"实际值: {actual_count}\n" +
            $"预测下限估值: {lowerEstimate}\n" +
            $"预测估值: {estimate}\n" +
            $"预测上限估值: {upperEstimate}\n";
        });

Console.WriteLine("预测结果");
Console.WriteLine("---------------------");
foreach (var prediction in forecastOutput)
{
    Console.WriteLine(prediction);
}

运行结果类似于以下内容:

预测结果
---------------------
日期: 2018-12-01
实际值: 24566.08
预测下限估值: 16791.379
预测估值: 20394.115
预测上限估值: 23996.852

完成!

六、延伸内容

ML.net包含了很多机器学习的内容。其中,我自己认为时序预测是用途很广的一个部分,可以用在

  • 销售预测
  • 库存预警
  • 活动策划辅助

以及其它诸如天气、股票、人口等诸多内容上,依靠过去和现在的数据,分析两者之间的关系,然后利用得到的这个关系去预测未来的数据。

因此,在这个分类中,我的第一篇文章就写了时序预测。

机器学习,核心是各种算法,而算法的基础是一类数学。这是一个很高的坎。刷算法,线性的部分还好,一旦到了幂次或矩阵,没有正统的学习,是很难有突破的。而即便刷通了,也只是皮毛性的理解,距离创造算法的大神,还有很长的距离。

所以,退而求其次,对很多人而言,与其花大功夫去研究算法,不如多研究下如何能把现有的算法或工具用好。

还有,在应用中,你能用机器学习来预测销量、预测库存,有没有很自豪?是不是很高大上?

(全文完)

本文的对应代码,在https://github.com/humornif/Demo-Code/tree/master/0013/demo

 

 

微信公众号:老王Plus

扫描二维码,关注个人公众号,可以第一时间得到最新的个人文章和内容推送

本文版权归作者所有,转载请保留此声明和原文链接

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


在上文中,我介绍了事件驱动型架构的一种简单的实现,并演示了一个完整的事件派发、订阅和处理的流程。这种实现太简单了,百十行代码就展示了一个基本工作原理。然而,要将这样的解决方案运用到实际生产环境,还有很长的路要走。今天,我们就研究一下在事件处理器中,对象生命周期的管理问题。事实上,不仅仅是在事件处理器
上文已经介绍了Identity Service的实现过程。今天我们继续,实现一个简单的Weather API和一个基于Ocelot的API网关。 回顾 《Angular SPA基于Ocelot API网关与IdentityServer4的身份认证与授权(一)》 Weather API Weather
最近我为我自己的应用开发框架Apworks设计了一套案例应用程序,并以Apache 2.0开源,开源地址是:https://github.com/daxnet/apworks-examples,目的是为了让大家更为方便地学习和使用.NET Core、最新的前端开发框架Angular,以及Apwork
HAL(Hypertext Application Language,超文本应用语言)是一种RESTful API的数据格式风格,为RESTful API的设计提供了接口规范,同时也降低了客户端与服务端接口的耦合度。很多当今流行的RESTful API开发框架,包括Spring REST,也都默认支
在前面两篇文章中,我详细介绍了基本事件系统的实现,包括事件派发和订阅、通过事件处理器执行上下文来解决对象生命周期问题,以及一个基于RabbitMQ的事件总线的实现。接下来对于事件驱动型架构的讨论,就需要结合一个实际的架构案例来进行分析。在领域驱动设计的讨论范畴,CQRS架构本身就是事件驱动的,因此,
HAL,全称为Hypertext Application Language,它是一种简单的数据格式,它能以一种简单、统一的形式,在API中引入超链接特性,使得API的可发现性(discoverable)更强,并具有自描述的特点。使用了HAL的API会更容易地被第三方开源库所调用,并且使用起来也很方便
何时使用领域驱动设计?其实当你的应用程序架构设计是面向业务的时候,你已经开始使用领域驱动设计了。领域驱动设计既不是架构风格(Architecture Style),也不是架构模式(Architecture Pattern),它也不是一种软件开发方法论,所以,是否应该使用领域驱动设计,以及什么时候使用
《在ASP.NET Core中使用Apworks快速开发数据服务》一文中,我介绍了如何使用Apworks框架的数据服务来快速构建用于查询和管理数据模型的RESTful API,通过该文的介绍,你会看到,使用Apworks框架开发数据服务是何等简单快捷,提供的功能也非常多,比如对Hypermedia的
在上一讲中,我们已经完成了一个完整的案例,在这个案例中,我们可以通过Angular单页面应用(SPA)进行登录,然后通过后端的Ocelot API网关整合IdentityServer4完成身份认证。在本讲中,我们会讨论在当前这种架构的应用程序中,如何完成用户授权。 回顾 《Angular SPA基于
Keycloak是一个功能强大的开源身份和访问管理系统,提供了一整套解决方案,包括用户认证、单点登录(SSO)、身份联合、用户注册、用户管理、角色映射、多因素认证和访问控制等。它广泛应用于企业和云服务,可以简化和统一不同应用程序和服务的安全管理,支持自托管或云部署,适用于需要安全、灵活且易于扩展的用
3月7日,微软发布了Visual Studio 2017 RTM,与之一起发布的还有.NET Core Runtime 1.1.0以及.NET Core SDK 1.0.0,尽管这些并不是最新版,但也已经从preview版本升级到了正式版。所以,在安装Visual Studio 2017时如果启用了
在上文中,我介绍了如何在Ocelot中使用自定义的中间件来修改下游服务的response body。今天,我们再扩展一下设计,让我们自己设计的中间件变得更为通用,使其能够应用在不同的Route上。比如,我们可以设计一个通用的替换response body的中间件,然后将其应用在多个Route上。 O
不少关注我博客的朋友都知道我在2009年左右开发过一个名为Apworks的企业级应用程序开发框架,旨在为分布式企业系统软件开发提供面向领域驱动(DDD)的框架级别的解决方案,并对多种系统架构风格提供支持。这个框架的开发和维护我坚持了很久,一直到2015年,我都一直在不停地重构这个项目。目前这个项目在
好吧,这个题目我也想了很久,不知道如何用最简单的几个字来概括这篇文章,原本打算取名《Angular单页面应用基于Ocelot API网关与IdentityServer4ʺSP.NET Identity实现身份认证与授权》,然而如你所见,这样的名字实在是太长了。所以,我不得不缩写“单页面应用”几个字
在前面两篇文章中,我介绍了基于IdentityServer4的一个Identity Service的实现,并且实现了一个Weather API和基于Ocelot的API网关,然后实现了通过Ocelot API网关整合Identity Service做身份认证的API请求。今天,我们进入前端开发,设计
Ocelot是ASP.NET Core下的API网关的一种实现,在微服务架构领域发挥了非常重要的作用。本文不会从整个微服务架构的角度来介绍Ocelot,而是介绍一下最近在学习过程中遇到的一个问题,以及如何使用中间件(Middleware)来解决这样的问题。 问题描述 在上文中,我介绍了一种在Angu
在大数据处理和人工智能时代,数据工厂(Data Factory)无疑是一个非常重要的大数据处理平台。市面上也有成熟的相关产品,比如Azure Data Factory,不仅功能强大,而且依托微软的云计算平台Azure,为大数据处理提供了强大的计算能力,让大数据处理变得更为稳定高效。由于工作中我的项目
在上文中,我们讨论了事件处理器中对象生命周期的问题,在进入新的讨论之前,首先让我们总结一下,我们已经实现了哪些内容。下面的类图描述了我们已经实现的组件及其之间的关系,貌似系统已经变得越来越复杂了。其中绿色的部分就是上文中新实现的部分,包括一个简单的Event Store,一个事件处理器执行上下文的接
在之前《在ASP.NET Core中使用Apworks快速开发数据服务》一文的评论部分,.NET大神张善友为我提了个建议,可以使用Compile As a Service的Roslyn为语法解析提供支持。在此非常感激友哥给我的建议,也让我了解了一些Roslyn的知识。使用Roslyn的一个很大的好处
很长一段时间以来,我都在思考如何在ASP.NET Core的框架下,实现一套完整的事件驱动型架构。这个问题看上去有点大,其实主要目标是为了实现一个基于ASP.NET Core的微服务,它能够非常简单地订阅来自于某个渠道的事件消息,并对接收到的消息进行处理,于此同时,它还能够向该渠道发送事件消息,以便