[ 更换 ]
热门城市
北京上海广州深圳成都杭州南京武汉天津西安重庆青岛沈阳长沙大连厦门无锡福州济南宁波昆明苏州郑州长春合肥南昌哈尔滨常州烟台南宁温州石家庄太原珠海南通扬州贵阳东莞徐州大庆佛山威海洛阳淮安呼和浩特镇江潍坊桂林中山临沂咸阳包头嘉兴惠州泉州三亚赣州九江金华泰安榆林许昌新乡舟山慈溪南阳聊城海口东营淄博漳州保定沧州丹东宜兴绍兴唐山湖州揭阳江阴营口衡阳郴州鄂尔多斯泰州义乌汕头宜昌大同鞍山湘潭盐城马鞍山襄樊长治日照常熟安庆吉林乌鲁木齐兰州秦皇岛肇庆西宁介休滨州台州廊坊邢台株洲德阳绵阳双流平顶山龙岩银川芜湖晋江连云港张家港锦州岳阳长沙县济宁邯郸江门齐齐哈尔昆山柳州绍兴县运城齐河衢州太仓张家口湛江眉山常德盘锦枣庄资阳宜宾赤峰余姚清远蚌埠宁德德州宝鸡牡丹江阜阳莆田诸暨黄石吉安延安拉萨海宁通辽黄山长乐安阳增城桐乡上虞辽阳遵义韶关泸州南平滁州温岭南充景德镇抚顺乌海荆门阳江曲靖邵阳宿迁荆州焦作丹阳丽水延吉茂名梅州渭南葫芦岛娄底滕州上饶富阳内江三明淮南孝感溧阳乐山临汾攀枝花阳泉长葛汉中四平六盘水安顺新余晋城自贡三门峡本溪防城港铁岭随州广安广元天水遂宁萍乡西双版纳绥化鹤壁湘西松原阜新酒泉张家界黔西南保山昭通河池来宾玉溪梧州鹰潭钦州云浮佳木斯克拉玛依呼伦贝尔贺州通化朝阳百色毕节贵港丽江安康德宏朔州伊犁文山楚雄嘉峪关凉山雅安西藏四川广东河北山西辽宁黑龙江江苏浙江安徽福建江西山东河南湖北湖南海南贵州云南陕西甘肃青海台湾内蒙古广西宁夏香港澳门
培训资讯网 - 为兴趣爱好者提供专业的职业培训资讯知识
当前位置: 首页 >> 培训 >> SQL中的机器学习

SQL中的机器学习

学习

使用最新版本的dask-sql,可以在SQL中使用庞大的Python ML生态系统

> Photo by Christopher Burns on Unsplash

有时很难相信ML之前的世界已经存在。如此多的现代数据分析都建立在ML技术的基础之上,并且在可预见的将来将继续这样做。但是,并非所有人都能从这些巨大的进步中受益,因为使用ML技术主要涉及使用Python,开发代码和理解许多新技术。尤其是当大数据和分布式系统进入游戏时,事情变得一团糟。

这是SQL查询引擎试图解决的问题。它们使使用简单但功能强大的SQL命令来使用复杂的分布式系统世界成为可能。dask-sql是一个新的SQL查询引擎(免责声明:我是作者),建立在仅python的Dask分布式库之上。这个新库可让您将Python与SQL和分布式可扩展计算结合起来!(在我的其他一篇文章中了解更多有关它的信息)。

dask-sql的最新版本0.3.0具有对机器学习的实验性支持,因此今天我们将了解如何使用它。当然,我们将为此使用著名的Iris数据集-数据科学的世界。即使这个特定的数据样本很小,只需将更多的计算节点添加到群集中,本文中显示的所有内容都可以轻松扩展到大量数据。

旁注:带有dask-sql的ML仍处于试验阶段:-)可以随意尝试,但请谨慎使用。

先决条件和准备

在本文中,我将假设您(或您的数据工程师)已经设置并运行了dask-sql。有关更多信息,请参考文档或此博客文章。我还将假设您通过其SQL Server接口连接dask-sql,例如通过诸如Apache Hue之类的BI工具,该工具甚至提供了最新版本对dask-sql的本机支持。

如果您正在使用dask-sql的Python接口,则仍然可以继续。只需使用以下单元格初始化Jupyter笔记本

from IPython.core.magic import register_line_cell_magic
from dask_sql import Context
# Create a context to store the tables and models
c = Context()
# Small helper function to make our life easier
@register_line_cell_magic
def sql(line, cell=None):
    if cell is None:
        cell = line
        line = None
    
    if not line:
        line = {}
    return c.sql(cell, return_futures=False, **line)

在以下代码示例中,在每个SQL命令前加上%% sql,例如

%%sql
SELECT 1 + 1

加载和准备数据

在这些事情都解决了之后,让我们开始导入数据。由于dask-sql利用大型的Python和Dask生态系统,您可以从许多不同的位置读取许多不同格式的数据样本。在此示例中,我们将以相当标准的CSV格式从Internet提取数据:

CREATE OR REPLACE TABLE iris WITH (
    location = "https://datahub.io/machine-learning/iris/r/iris.csv",
    persist = True
)

数据集被加载并存储为名为“ iris”的表。persist = True使dask-sql将数据缓存在内存中。

现在,检查数据是否正确加载

DESCRIBE iris

如您所见,数据类型是自动分配的。我们可以使用以下标准SQL命令显示数据的前十行:

SELECT * FROM iris LIMIT 10

鸢尾花数据集的简要介绍:如上面的输出所示,数据集描述了鸢尾花及其种类的测量结果。它是机器学习中的标准数据集之一,可以用作许多类型的ML方法的示例。在此示例中,我们将应用无监督的聚类算法。

在开始培训之前,让我们首先在每个ML管道中执行另一个重要步骤:特征提取。由于我不是生物学家,因此在此仅以一个非常简单且幼稚的新功能为例:将萼片长度乘以萼片宽度。还可以使用SQL语句和函数生成更复杂的功能。如果这还不够,dask-sql允许注册用Python编写的用户定义函数(UDF)。

SELECT 
    *, 
    sepallength * petallength AS new_feature 
FROM iris
LIMIT 10

为了让我们的生活更轻松,让我们为该增强型表引入一个别名

CREATE OR REPLACE TABLE transformed_data AS (
    SELECT 
        *, 
        sepallength * petallength AS new_feature
    FROM iris
)

我们现在准备应用机器学习!

训练机器学习模型

机器学习模型的种类繁多,从简单的模型(如线性回归)到强大的Boosted Decision Trees,再到最先进的研究模型(如Transformers)。其中许多是在著名的scikit-learn Python软件包中实现的,因此(在许多其他库中)可在dask-sql中使用。

在此示例中,我们应用了k-Means聚类算法。简而言之,它将数据集分组为具有相似特征的行簇。如果一切顺利,我们希望它可以将相同物种的花朵聚在一起-而无需我们告诉算法。让我们看看该算法的性能如何(破坏者:不是很好)。如果您想了解有关与dask-sql兼容的模型及其设置的更多信息,建议您阅读一下文档。

因此,让我们将聚类算法应用于数据!

CREATE OR REPLACE MODEL clustering WITH (
    model_class = "sklearn.cluster.KMeans",
    wrap_predict = True,
    n_clusters = 3
) AS (
    SELECT sepallength, sepalwidth, petallength, petalwidth, new_feature
    FROM transformed_data
)

如您所见,我们使用了一个新的SQL构造CREATE MODEL进行训练,它获得一些参数来指定要训练的模型。在我们的例子中,我们从scikit-learn中选择k-Means算法,并将我们期望的组或簇数设置为三个(因为我们有三个种类)。scikit-learn软件包中的算法在中等大小的数据上可以很好地工作,如果您需要超出此范围,请查看dask-ml。

培训应立即完成(因为总数据集很小),因此我们可以继续检查预测。

检查性能

SELECT * FROM PREDICT (
    MODEL clustering,
    SELECT * FROM transformed_data
    LIMIT 10
)

该SQL语句将训练有素的模型应用于给定的数据,并向其中添加带有模型的预测目标的新列“目标”。从前十行来看,它看起来不错(所有“ setosa”都有相同的预测目标)。因此,我们再次引入别名以进行更多计算

CREATE OR REPLACE TABLE iris_results AS (
    SELECT class AS label, target AS predicted FROM PREDICT (
        MODEL clustering,
        SELECT * FROM transformed_data
    )
)

为了简短起见,我们只快速浏览一下结果,并检查物种和预测簇的分布。

SELECT 
    label, predicted, COUNT(*) AS numbers
FROM iris_results
GROUP BY label, predicted

一点都不完美,但是幸运的是,这不是关于ML的文章,所以我将跳过优化步骤:-)。您的BI工具可能能够自动绘制这些数字,并且作为python用户,您可以使用

df = c.sql("""
SELECT 
    label, predicted, COUNT(*) AS numbers
FROM iris_results
GROUP BY label, predicted
""", return_futures=False)
df = df.set_index(["label", "predicted"])
df.numbers.unstack(0).plot.bar(ax=plt.gca())

概要

感谢您关注这篇文章直到最后!我们已经介绍了相当多的材料,所以这里有个简短的回顾:

  • SQL查询引擎很酷,因为您可以使用它们使用具有简单SQL语法(以及很多魔术)的复杂分布式系统来查询复杂数据。
  • dask-sql就是其中之一,它与Python生态系统的交互特别简单(因为它建立在Dask之上,Dask是可扩展Python应用程序的库)。
  • 好处之一是可以轻松集成各种Python ML库,例如scikit-learn包中的k-Means算法,如本博文所示。另一个好处是,一切都可以通过使用SQL来完成!

如果您想了解更多信息,请转至文档,然后对数据进行SQL处理。

(本文由闻数起舞翻译自Rebecca Vickery的文章《Machine Learning in SQL — it actually works!》,转载请注明出处,原文链接:https://towardsdatascience.com/machine-learning-in-sql-it-actually-works-56e8d91fc273)

相关内容

怎么学?如何干?西藏7市(地)委书记在西藏日报发表文章

启航新征程 开创新局面为全面建设社会主义现代化新拉萨努力奋斗自治区党委常委、拉萨市委书记 普布顿珠党的二十大大笔擘画坚持以中国式现代化全面推进中华民族伟大复兴的宏伟蓝图,区党委十届三次全会全面铺开建设美丽幸福西藏、共圆伟大复兴梦想的壮阔实践···

2023年全区智慧旅游专业人才培训班圆满结业

6月2日,自治区旅游发展厅主办的全区智慧旅游专业人才培训班在拉萨圆满结业。培训共历时三天,累计完成全区旅游行政管理部门工作人员及涉旅企业专业技术人员培训100人。本次培训是区旅发厅深入推进学习贯彻习近平新时代中国特色社会主义思想主题教育重要···

徐汇萨迦共同举办大美西藏首届口腔学习班

随着现代医学的发展,口腔健康越来越受到人们的关注,为提高西藏地区口腔技术水平和服务质量,近日,徐汇区牙病防治所和萨迦县中心医院远程连线共同举办首届口腔学习班开班仪式。徐汇区卫生健康委副主任胡强,上海援藏干部、萨迦县委常务副书记、常务副县长沈···

自觉抵制“一对一”“一对多”等学科类培训!哈尔滨中小学生暑期预警来了

17日,记者从哈尔滨市各区教育局获悉,2023年暑假将至,南岗区、道里区、香坊区教育局向家长发出预警,自觉抵制违规培训,各区义务教育阶段学科类培训机构已经全部注销,暑假期间以任何形式开展的学科类培训均属于违规培训。家长要自觉抵制任何机构或个···

哈尔滨市道里区企投局举办“招商大讲堂”专题培训

黑龙江网讯(记者 王惠婷)10月24日,哈尔滨市道里区企投局组织开展“招商大讲堂”专题培训班,全区各招商专班负责同志及业务骨干参加培训。本次培训从实际需求出发,紧紧围绕当前招商工作中的热点、难点,对“什么是招商引资”“道里区的产业结构和主导···

团黑龙江省委举办全省青年文明号青年岗位能手学习宣传贯彻党的二十大精神培训交流会

中国青年报客户端讯(李海涛)为深入学习贯彻党的二十大精神,充分发挥青年文明号、青年岗位能手示范引领作用,在全省职业青年中掀起学习党的二十大精神热潮,11月22日,团黑龙江省委举办全省青年文明号青年岗位能手学习宣传贯彻党的二十大精神培训交流会···

辽宁葫芦岛举办外贸政策培训会推动外贸保稳增量

辽宁省葫芦岛市外贸政策培训会4月3日举办。 辽宁省贸促会供图中新网葫芦岛4月3日电 (李晛)辽宁省葫芦岛市外贸政策培训会4月3日举办。本次活动由辽宁省贸促会支持、葫芦岛市商务局主办,葫芦岛市贸促会、葫芦岛海关、中国出口信用保险辽宁分公司和辽···

山西运城:严查无证校外培训机构 查封9家警告2家

新华社太原8月5日电(记者王飞航)记者从山西省运城市政府了解到,运城市教育局近日联合市公安局等多家单位,对中心城区无证校外培训机构进行了一次突击检查,共检查了13家校外培训机构,查封9家,警告2家,发放整改通知书4份。今年7月,运城市教育局···

山西开展培训筑牢森林“防火墙”

山西新闻网3月30日讯(记者 卢奕如)今日,记者从山西省应急管理厅获悉,全省举办森林草原防灭火业务培训,邀请专家以视频会议形式,围绕森林扑火指挥实操、森林草原火灾防控经验做法、火灾现场各级各类指挥员具体操作中遇到的问题等内容进行授课。培训内···

校外培训机构治理工作取得进展 山西停办近1300所

资料图:小学生排队等待进入校园。中新社记者 刘文华 摄中新网5月11日电 据教育部网站消息,按照校外培训机构专项治理工作整体安排,教育部、民政部、国家市场监管总局启动了校外培训机构治理专项督查工作。5月9日至10日,督查组率先在北京市开展华···

山西综改区举办省技术创新中心申报培训

  8月18日,山西综改区科技金融部举办2023年度省技术创新中心申报培训会,来自区内企业、科研院所及有关单位代表160余人参加了培训。  山西省技术创新中心是以产业前沿引领技术和关键共性技术研发为核心的产业技术创新平台,承担着为区域和产业···

山西汾阳医院开展健康教育与控烟知识培训

来源:【吕梁日报-吕梁新闻网】本报讯 (记者 刘少伟) 5月18日,在“世界无烟日”到来之际,山西汾阳医院组织开展健康教育与控烟知识培训。近年来,山西汾阳医院全面落实健康中国战略,根据国家卫健委《关于2011年起全国医疗卫生系统全面禁烟的决···

山西省文物局年度田野考古技术培训班开班

10月10日,山西省文物局在运城闻喜上郭城址、邱家庄墓群举办2023年度田野考古技术培训班开班仪式。该次培训为期三个月,通过理论和实践两部分教学,旨在推进山西考古工作高质量发展,提升考古业务人员专业技术水平。本次培训由山西省考古研究院和山西···

最低每课时9元!全省学科类校外培训课时长和收费标准出台

近日,山西省发改委、省教育厅下发《关于中小学学科类校外培训收费标准及有关事项的通知》,明确全省中小学学科类校外培训收费标准,从12月17日起执行。《通知》对全省线上线下学科类校外培训基准收费标准和浮动幅度制定了科学标准。其中,义务教育阶段线···

山西天镇 阳光职业培训学校培养乡村“新农人”乡村振兴添动能

(记者 贺文生) 山西天镇县阳光职业培训学校紧紧围绕乡村振兴战略,按照“政府引导、农民自愿、立足产业、突出重点”的原则,创新高素质农民技能培训方式方法,采取以“授人以渔”的方式,让人才振兴成为助推农业农村现代化的内生动力,以高素质农民引领现···

山西:建立全过程 全链条 无缝隙安全培训制度

黄河新闻网讯(记者杨江涛)日前,山西省应急管理厅下发了《山西省安全培训管理暂行办法》(以下简称《办法》)。我省将进一步抓好安全生产这个基本盘、基本面,推动全省安全培训工作制度化、规范化、科学化,促进安全培训工作高质量发展。山西省应急管理厅厅···

山西:艺考培训机构纳入全国监管平台管理

央广网太原10月6日消息(记者郎麒) 日前,山西省教育厅、省发改委、省公安厅等部门联合制定《加强面向高中阶段学生艺考培训规范管理工作方案》,针对艺考培训的突出特点和实际情况,全面规范艺考培训行为,将艺考培训机构统一纳入全国校外教育培训监管与···

太平财险阳泉中支开展消防安全教育和有限空间作业培训

为强化员工安全意识,进一步提升员工消防和有限空间突发事件应急处理能力,9月14日,太平财险阳泉中支邀请北京市卫民安消防教育咨询中心山西分中心讲师向全体员工开展了一次消防安全教育和有限空间作业课程培训。按照防消结合、预防为主的原则,本次讲座通···

山西省数字化转型贯标试点工作宣贯培训会在太原举行

  10月20日消息,山西省数字化转型贯标试点工作宣贯培训会在太原举行。省工信厅介绍,作为国家数字化转型贯标试点省份,试点启动后将引导企业加快数字化转型,助力制造业高端化、智能化、绿色化发展。  今年,工信部启动数字化转型贯标试点工作,我省···

山西马兰花创业培训讲师大赛收官 太原市获多个奖项

山西新闻网8月31日讯(记者 冯耿姝)8月29日,山西省第四届马兰花创业培训讲师大赛圆满收官,太原市代表队在比赛中分获多个二、三等奖和优秀奖。本届大赛以“启迪创新思维·激发创业梦想”为主题,全省共有56名教师晋级复赛,其中,太原市有7名选手···