文章图片
文章图片
Amazon Redshift ML 通过使用简单的 SQL 语句使用 Amazon Redshift 中的数据创建和训练机器学习(ML)模型,简化了机器学习 (ML) 的操作。您可以使用 Amazon Redshift ML 来解决二进制分类、多分类和回归问题,并可以直接使用 AutoML 或 XGBoost 等技术。
- Amazon Redshift ML
https://aws.amazon.com/redshi... - Amazon Redshift
http://aws.amazon.com/redshift
data:image/s3,"s3://crabby-images/86019/86019d4d187ddeedc4bc71806a62084091d2ff90" alt="使用 Amazon Redshift ML 构建多分类模型"
文章图片
想要了解更多亚马逊云科技最新技术发布和实践创新,敬请关注2021亚马逊云科技中国峰会!点击图片报名吧~
这篇文章是 Amazon Redshift ML 系列的一部分。有关使用 Amazon Redshift ML 构建回归的更多信息,请参阅使用 Amazon Redshift ML 构建回归模型。
- 使用 Amazon Redshift ML 构建回归模型
https://aws.amazon.com/blogs/...
- 博客文章
https://aws.amazon.com/blogs/...
https://aws.amazon.com/blogs/...
使用案例 在我们的使用案例中,我们希望为一个特殊客户忠诚度计划找出最活跃的客户。我们使用 Amazon Redshift ML 和多分类模型来预测客户在 13 个月内将有多少个月内处于活动状态。这将转化为多达 13 个可能的分类,因此更适合采取多分类。预计活动状态将保持 7 个月或更长时间的客户将成为特殊客户忠诚度计划的目标群体。
输入原始数据 【使用 Amazon Redshift ML 构建多分类模型】为了准备该模型的原始数据,我们使用公用数据集电子商务销售预测(其中包括英国在线零售商的销售数据)填充 Amazon Redshift 中的 ecommerce_sales 表。
- 电子商务销售预测
https://www.kaggle.com/alluni...
CREATE TABLE IF NOT EXISTS ecommerce_sales
(
invoiceno VARCHAR(30)
,stockcode VARCHAR(30)
,description VARCHAR(60)
,quantity DOUBLE PRECISION
,invoicedate VARCHAR(30)
,unitpriceDOUBLE PRECISION
,customerid BIGINT
,country VARCHAR(25)
)
;
Copy ecommerce_sales
From 's3://redshift-ml-multiclass/ecommerce_data.txt'
iam_role '<>' delimiter '\t' IGNOREHEADER 1 region 'us-east-1' maxerror 100;
要在您的环境中重现此脚本,请将
your-amazon-redshift-sagemaker-iam-role-arn
替换为适用于您的 Amazon Redshift 集群的 Amazon Identity and Access Management (Amazon IAM) ARN。
- Amazon Identity and Access Management
http://aws.amazon.com/iam
create table ecommerce_sales_data as (
select
t1.stockcode,
t1.description,
t1.invoicedate,
t1.customerid,
t1.country,
t1.sales_amt,
cast(random() * 100 as int) as data_group_id
from
(
select
stockcode,
description,
invoicedate,
customerid,
country,
sum(quantity * unitprice) as sales_amt
from
ecommerce_sales
group by
1,
2,
3,
4,
5
) t1
);
训练集
create table ecommerce_sales_training as (
select
a.customerid,
a.country,
a.stockcode,
a.description,
a.invoicedate,
a.sales_amt,
(b.nbr_months_active) as nbr_months_active
from
ecommerce_sales_data a
inner join (
select
customerid,
count(
distinct(
DATE_PART(y, cast(invoicedate as date)) || '-' || LPAD(
DATE_PART(mon, cast(invoicedate as date)),
2,
'00'
)
)
) as nbr_months_active
from
ecommerce_sales_data
group by
1
) b on a.customerid = b.customerid
where
a.data_group_id < 80
);
验证集
create table ecommerce_sales_validation as (
select
a.customerid,
a.country,
a.stockcode,
a.description,
a.invoicedate,
a.sales_amt,
(b.nbr_months_active) as nbr_months_active
from
ecommerce_sales_data a
inner join (
select
customerid,
count(
distinct(
DATE_PART(y, cast(invoicedate as date)) || '-' || LPAD(
DATE_PART(mon, cast(invoicedate as date)),
2,
'00'
)
)
) as nbr_months_active
from
ecommerce_sales_data
group by
1
) b on a.customerid = b.customerid
where
a.data_group_id between 80
and 90
);
预测集
create table ecommerce_sales_prediction as (
select
customerid,
country,
stockcode,
description,
invoicedate,
sales_amt
from
ecommerce_sales_data
where
data_group_id > 90);
在 Amazon Redshift 中创建模型 现在我们创建了训练和验证数据集,我们可以使用 Amazon Redshift 中的 create model 语句使用 Multiclass_Classification 创建我们的机器学习模型。我们指定问题类型,然后让 AutoML 处理其他的一切事务。在这个模型中,我们想要预测的目标是 nbr_months_active。Amazon SageMaker 创建了一个函数predict_customer_activity,我们将用它在 Amazon Redshift 中进行推断。请参阅以下代码:
create model ecommerce_customer_activity
from
(
select
customerid,
country,
stockcode,
description,
invoicedate,
sales_amt,
nbr_months_active
from ecommerce_sales_training)
TARGET nbr_months_active FUNCTION predict_customer_activity
IAM_ROLE '<>'
problem_type MULTICLASS_CLASSIFICATION
SETTINGS (
S3_BUCKET '<>’,
S3_GARBAGE_COLLECT OFF
);
要在环境中重现此脚本,请将
your-amazon-redshift-sagemaker-iam-role-arn
替换为集群的 Amazon IAM 角色 ARN。
- create model
https://docs.aws.amazon.com/r... - Amazon SageMaker
https://aws.amazon.com/sagema...
在创建模型时,Amazon SageMaker Autopilot 会自动将输入数据拆分为训练和验证集,并选择具有最佳客观指标的模型,该指标部署在 Amazon Redshift 集群中。您可以使用集群中的 show model 语句查看各种指标,包括准确性分数。如果没有明确指定,Amazon SageMaker 会自动使用目标类型的准确性。请参阅以下代码:
Show model ecommerce_customer_activity;
- Amazon SageMaker Autopilot
https://aws.amazon.com/sagema...
data:image/s3,"s3://crabby-images/00fd5/00fd52eb977bc7c844f954d9e457437c2e2c633c" alt="使用 Amazon Redshift ML 构建多分类模型"
文章图片
让我们对验证数据使用以下 SQL 代码以对验证数据运行推理查询:
select
cast(sum(t1.match)as decimal(7,2)) as predicted_matches
,cast(sum(t1.nonmatch) as decimal(7,2)) as predicted_non_matches
,cast(sum(t1.match + t1.nonmatch) as decimal(7,2))as total_predictions
,predicted_matches / total_predictions as pct_accuracy
from
(select
customerid,
country,
stockcode,
description,
invoicedate,
sales_amt,
nbr_months_active,
predict_customer_activity(customerid, country, stockcode, description, invoicedate, sales_amt) as predicted_months_active,
case when nbr_months_active = predicted_months_active then 1
else 0 end as match,
case when nbr_months_active <> predicted_months_active then 1
else 0 end as nonmatch
from ecommerce_sales_validation
)t1;
可以看到,在我们的数据集上预测的准确率位 99.74%,这与 show model 中的准确率相符。
data:image/s3,"s3://crabby-images/b484c/b484ce1426bf1ecd069d731c77aaa58a7638720b" alt="使用 Amazon Redshift ML 构建多分类模型"
文章图片
现在让我们运行一个查询,以至少活跃 7 个月为标准来查看哪些客户有资格参加我们的客户忠诚度计划:
select
customerid,
predict_customer_activity(customerid, country, stockcode, description, invoicedate, sales_amt) as predicted_months_active
from ecommerce_sales_prediction
where predicted_months_active >=7
group by 1,2
limit 10;
下表显示了我们的输出结果。
data:image/s3,"s3://crabby-images/f7c28/f7c282f718ce8d40e96f53a64f35e5b755cc6359" alt="使用 Amazon Redshift ML 构建多分类模型"
文章图片
问题排查 尽管 Amazon Redshift 中的 Create Model 语句自动负责启动 Amazon SageMaker Autopilot 流程以构建、训练和调整最佳机器学习模型并在 Amazon Redshift 中部署该模型,但您可以查看在此过程中执行的中间步骤,如果出现问题,这还可以帮助您进行故障排除。您还可以从 show model 命令的输出中检索 AutoML Job Name。
创建模型时,您需要设置一个 Amazon Simple Storage Service (Amazon S3) 存储桶名称作为参数 s3_bucket 的值。您可以使用此存储桶在 Amazon Redshift 和 Amazon SageMaker 之间共享训练数据和构件。Amazon Redshift 会在此存储桶中创建一个子文件夹保存训练数据。训练完成后,除非将参数 s3_garbage_collect 设置为 off(可用于故障排除),否则它会删除子文件夹及其内容。有关更多信息,请参阅 CREATE MODEL。
- Amazon Simple Storage Service
http://aws.amazon.com/s3 - CREATE MODEL
https://docs.aws.amazon.com/r...
- Amazon SageMaker Studio
https://docs.aws.amazon.com/s... - Amazon Redshift ML 构建回归模型
https://aws.amazon.com/blogs/...
有关使用 Amazon Redshift ML 构建不同模型的更多信息,请参阅使用 Amazon Redshift ML 构建回归模型并阅读 Amazon Redshift ML文档。
- 使用 Amazon Redshift ML 构建回归模型
https://aws.amazon.com/blogs/... - Amazon Redshift
http://ocs.aws.amazon.com/red...
邮箱:chend@lsbu.ac.uk
地址:School of Engineering, London South Bank University, London SE1 0AA, UK.
Dua, D. and Graff, C.(2019)。UCI 机器学习(ML)存储库 [http://archive.ics.uci.edu/ml]。
加利福尼亚州尔湾:加利福尼亚大学信息与计算机科学学院。
本篇作者
data:image/s3,"s3://crabby-images/963f8/963f82f2b6198ab6bcc47ee0b6b9dfbb3d3caa53" alt="使用 Amazon Redshift ML 构建多分类模型"
文章图片
Phil Bates
亚马逊云科技
高级数据分析专家解决方案构架师
拥有超过25 年的数据仓库经验。
data:image/s3,"s3://crabby-images/96a41/96a413d3dcc7f50151b3eb1d55d521d578155bd9" alt="使用 Amazon Redshift ML 构建多分类模型"
文章图片
Debu Panda
亚马逊云科技
首席产品经理
数据分析、应用程序平台和数据库技术的行业领导者,在 IT 领域拥有超过 25 年的经验。
data:image/s3,"s3://crabby-images/bcc5c/bcc5c864c8f3582a0bbc5c39ee4c9888327bab50" alt="使用 Amazon Redshift ML 构建多分类模型"
文章图片
Nikos Koulouris
亚马逊云科技
软件开发工程师
从事数据库和数据分析领域的工作。
data:image/s3,"s3://crabby-images/b50ef/b50efd95e6e580c38f20b37c78a21ba55a1568c8" alt="使用 Amazon Redshift ML 构建多分类模型"
文章图片
Enrico Sartorello
亚马逊云科技
高级软件开发工程师
通过为 Amazon SageMaker 开发新功能,帮助客户采用适合他们需求的机器学习解决方案
推荐阅读
- AI|Seq2Seq中的Attention和self-attention
- bert-modeling代码学习
- 机器学习-推荐系统中基于深度学习的混合协同过滤模型
- bert-create_pretraining_data代码学习
- 机器学习常见评价指标 -- 混淆矩阵 & Precision(精确度) & Recall(召回率) & Accuracy(准确度)
- 使用Amazon SageMaker部署CVAT AI自动图像标注系统
- 基于Amazon Machine Learning Bot 的 Named-entity Recognition 快速解决方案
- 在亚马逊云科技Marketplace上的SaaS架构设计——如何支持多产品使用单一账户中心
- Amazon DeepRacer训练日志分析范例与强化学习Reward Function设计
- Amazon Marketplace上的SaaS架构设计 ——如何支持跨多账户对接