当前位置：首页 >> 培训 >> 汽车之家基于 Flink 的实时 SQL 平台设计思路与实践

汽车之家基于 Flink 的实时 SQL 平台设计思路与实践

2023-05-24 22:19:09平台思路汽车设计

作者：王刚、刘首维

在 2019 年之前，之家的大部分实时业务都是运行在 Storm 之上的。Storm 作为早期主流的实时计算引擎，凭借简单的 Spout 和 Bolt 编程模型以及集群本身的稳定性，俘获了大批用户。下图是实时计算团队 Storm 平台页面：

自 2015 年至今 Storm 在之家已经运行 4 年之久，但随着实时计算的需求日渐增多，数据规模逐步增大，Storm 在开发及维护成本上都凸显了不足，这里列举两个痛点:

1.翻译 SQL

我们一直是 Lambda 架构，会用 T+1 的离线数据修正实时数据，即最终以离线数据为准，所以计算口径实时要和离线完全保持一致，实时数据开发的需求文档就是离线的 SQL，实时开发人员的核心工作就是把离线的 SQL 翻译成 Storm 代码，期间虽然封装了一些通用的 bolt 来简化开发，但把离线动辄几百行的 SQL 精准的翻译成代码还是很有挑战的，并且每次运行都要经过打包，上传，重启的一系列的繁琐操作，调试成本很高。

2.过于依赖外部存储

Storm 对状态支持的不好，通常需要借助 Redis，HBase 这类 kv 存储维护中间状态，我们之前是强依赖 Redis。比如常见的计算 UV 的场景，最简单的办法是使用 Redis 的 sadd 命令判断 uid 是否为已经存在，但这种方法会占用大量内存，如果没有提前报备的大促或搞活动导致流量翻倍的情况，很容易把 Redis 内存搞满，运维同学也会被杀个措手不及，同时 Redis 的吞吐能力也限制了整个作业的吞吐量。

在此背景下我们封装了基于 BloomFilter 的 bolt，BloomFilter 本身也会作为状态定期持久化到 reids 中，但是在多维度高基数的场景下，很难精确控制每个 BloomFilter 的大小，同样会占用很大内存。同时，过于依赖 Redis，在 Redis 集群 rtt 过长或部分节点负载高时会导致 Storm 作业 failed。

我们从 2018 年开始调研 Flink 引擎，其相对完备的 SQL 支持，天生对状态的支持吸引了我们，在经过学习调研后，2019 年初开始设计开发 Flink SQL 平台，目前平台已经服务于数仓、监控、日志、运维、测试等团队，2019 年 10 月已经有 160+ 线上作业，每日计算量 5000 亿条支持实时数仓，实时推荐，UAS 系统，日志看板，性能测试等多种场景。单任务目前最高为 200 万 QPS。平台能够得到快速广泛的应用，主要得益以下几点:

开发成本低：之家大部分的实时任务可以用 Flink SQL + UDF 实现。平台提供常用的 Source 和 Sink，以及业务开发常用的 UDF，同时用户可以自己编写 UDF。基于“ SQL + 配置”的方式完成开发，可以满足大部分需求。对于自定义任务，我们提供方便开发使用的 SDK，助力用户快速开发自定义 Flink 任务。平台面向的用户已经不只是专业的数据开发人员了，普通开发、测试、运维人员经过简单培训都可以在平台上完成日常的实时数据开发工作，实现平台赋能化。
高性能：Flink 可以完全基于状态(内存，磁盘)做计算，对比之前依赖外部存储做计算的场景，性能提升巨。在 818 活动压测期间，改造后的程序可以轻松支持原来几十倍流量实时计算流量，且横向扩展性能十分良好。
维护成本低：用户将任务托管在平台上，任务的存续由平台负责，用户专注于任务本身的逻辑开发本身即可。对于 SQL 任务，SQL 的可读性极高，便于维护；对于自定义任务，基于我们 SDK 开发，用户可以更专注于梳理业务逻辑上。不论是 SQL 任务还是 SDK，我们都内嵌了大量监控，并与报警平台关联，方便用户快速发现分析定位并修复任务，提高稳定性。
支持数仓分层模型：平台提供了良好的 SQL 支持，数仓人员可以借助 SQL，将离线数仓的建设经验应用于实时数仓的建设上。
数据资产管理：SQL 语句本身是结构化的，我们通过解析一个作业的 SQL，结合 source、 sink 的 DDL，可以很容易的知道这个作业的上下游，天然保留血缘关系。

下面将分三部分给大家分享:

架构及设计思路
基于 Flink SQL 平台的实时数仓的实践及使用案例
后续规划

一. 架构及设计思路

汽车之家基于 Flink 的实时 SQL 平台设计思路与实践

1.表管理

在平台上我们把 source，sink 都抽象成表:

表管理: 目前我们是基于 Flink 1.7.2 的，这个版本还不支持 DDL，所以我们通过扩展 Calcite 语法，自己实现了 DDL 解析，把 source 和 sink 阶段使用的外部存储 (Kafka、Mysql 、ES、Redis、Http 等)中的目标对象都映射成关系型表管理起来，方便复用。如下图:

汽车之家基于 Flink 的实时 SQL 平台设计思路与实践

对于动态配置，可以在每个任务界面的配置功能灵活地进行指定。

血缘关系：每次运行任务我们都会解析出这个任务需要的源表(流表，维表)和结果表，可以很自然的保存各种表的血缘关系。

2.任务配置管理

2.1 SQL

我们 SQL 任务支持两种模式:一种是直接 SELECT 查询，一种是 INSERT INTO 将数据写入外部存储的目标表。

用户执行 SELECT 的时候，我们会在页面上滚动展示计算结果，以供查看结果及调试。
SELECT 实现思路是 Flink 的计算结果会发送缓存服务器，并存储在 Ringbuffer 中。
同时，在同一个作业中可以编写多个 SQL，我们还提供了创建视图的 DDL，简化对复杂 SQL 的多次引用。

汽车之家基于 Flink 的实时 SQL 平台设计思路与实践

2.2 任务配置

任务配置有三种 :

作业配置(jobConf) : 如 checkpoint 时间间隔，状态过期时间，重启策略等等。
启动配置 (launchConf) : 如 jobmanager 内存，taskmanger 个数，slot 数，使用的队列等资源相关的配置及执行代码的版本。
集群配置(clusterConf) : 因为我们的任务模式是 perjob 的，即每个 Flink 作业都运行在一个独立的 Flink 集群中，我们可以很轻松的给每个作业配置个性化的集群参数。

汽车之家基于 Flink 的实时 SQL 平台设计思路与实践

3.权限管理

我们的平台是支持多租户的，目前在以下两方面做了权限控制:

作业级别：每个团队只能去管理自己团队内的作业。
表级别：平台上的表分两类，一类是团队内部的表，仅限于团队内部可见;另一类是公共表，对所有的用户可见，公共表中的流表(Kafka topic) 目前需要去消息平台去申请读/写权限才能使用。

4.UDF 管理

目前所有启动 Flink 作业的请求都是通过一个 client 进程去提交的，因为是同一个进程，所以不能做到频繁的加载 jar 包，导致目前还不能自助上传 UDF 。我们接下来准备参考 athenax 的做法，在每次去运行任务的时候单独起个进程去编译 Jobgraph 对象再转发给提交进程，这样可以做到团队间的 UDF 不冲突。

汽车之家基于 Flink 的实时 SQL 平台设计思路与实践

5.资源调度框架

资源调度框架我们使用的是 YARN 和 k8s 状态存储在 hdfs 上。之家 Hadoop 服务器集群数量在几千台左右，并且在之家的业务场景下实时和离线计算是天生错峰的，白天流量高，离线的作业量少，YARN 计算资源充足，完全可以满足实时计算的需求。

而 k8s 对我们来说是未来发展的方向，有更高的稳定性和更方便的使用体验。目前我们有少量作业运行在 k8s 上，接下来我们在考虑在 YARN 集群和 k8s 或者备用 YARN 集群之间做热备，比如 YARN 集群 down 掉重要的作业会从 hdfs 读取状态切到 k8s 上。

6.日志收集

我们首先定制了自己的 Log4j Layout 增加了辅助的日志信息。对于运行在 YARN 上的任务, 我们基于 Flume 的 Log4j Appender 定制了自己的日志收集器，从服务器异步发送日志到 Kafka 中，尽可能地降低对运行作业的影响；对于运行在 k8s 的任务，我们通过容器组同事提供的 API 直接采集即可。

日志会上报到公司统一的采集系统，途经 Kafka 最终写入 Elasticsearch 集群，通过 Kibana 可以方便的查看 Flink 日志。

7.监控报警

监控报警这块主要依赖公司的统一监控平台。

统一监控平台提供了专用的 Promethues 服务，我们通过 Flink 的 promethues push gateway 上报 metric ，Flink 本身的 metric 比较完善，其监控的粒度精确到每个 subtask 的 operator。
我们自行开发的组件都定义了常用的 metric，用户可以通过查看监控图表定位组件的健康状态。
我们配置了一些默认的模版，包括 Flink Cluster, IO(task/operator 级别), JVM 、Kafka source、Elasticsearch sink、Redis sink 等，方便用户查看图表，在统一监控平台上，用户可以针对任意 metric 设置自定义报警。
同时对延迟，任务重启，等重要指标提供了默认的报警机制。

汽车之家基于 Flink 的实时 SQL 平台设计思路与实践

Kafka-connector监控

汽车之家基于 Flink 的实时 SQL 平台设计思路与实践

Redis-connector监控

汽车之家基于 Flink 的实时 SQL 平台设计思路与实践

二.基于 Flink 平台的实时数仓的实践

汽车之家基于 Flink 的实时 SQL 平台设计思路与实践

如上文提到，我们把 Kafka 的 topic 当做 table 并结合消息平台做权限控制。这样做的目的就是方便给做实时数仓做准备。数据源来自 mysql 的 binlog 日志、埋点的流量日志、及服务器系统日志。

其中在数据表打宽的过程我们借鉴了袋鼠云的维表 join 办法，用 calcite 再解析成 SqlNode 之后就把表合并成一张宽表，再修改原始的 SQL 语句。目前被用在表的清洗打宽还是没有问题的，但是这种方式在很复杂的 SQL 语句里就没那么好用了，只能借助 udtf。

我们把数据清洗成宽表，再基于宽表清洗成每个主题的汇总表，最终将汇总表和宽表开放给业务方使用，业务方可以直接在平台通过编写 SQL 完成实时计算的开发工作。

目前已经支持了推送，推荐，数仓，UAS，监控，日志，压测，罗盘大屏等多种业务场景。

1.使用案例：推荐系统实时指标计算

内容和资讯一直是之家的核心和根本。内容推荐系统更是支撑整个内容咨询体系的一个重要组成部分。基于实时计算平台的 SQL 模块计算了大量维度的实时指标，写入多种存储，帮助推荐系统快速而准确地反馈推荐物料的推荐效果，形成有效的闭环。

之家对于每个投放的物料/资源，都有唯一的业务类型(biztype)和物料 Id (objectid),通过这两个属性可以唯一表示一个资源。对于针对用户的不同的操作和行为，我们定义了 eventid 这个概念，比如可见曝光，点击等。而从实验/ 策略的维度上，我们存在实验主题(topic)和分桶 id(bucketid)的概念。此外，维度还包括但不限于地域，IP。另一方面，还以检测资源投放耗时和响应时间等指标。

众所周知，一个 Flink 的计算任务分为三个阶段 source -> transformation -> sink，那我们也结合 SQL 来看这三个阶段是如何完成的。

source

用户行为日志(UAS)是写入 Kafka 的，格式是 JSON。我们首先做的事情是对原始日志进行清洗和整理抽象成关系型模型。利用平台的数据集解析创建功能搭配几个 SQL 清洗数据任务还是比较容易的:

分析数据格式，利用平台建表功能创建对于产出的一系列关系型表的 Schema。

利用 SQL 模块编写清洗数据任务，对应步骤 1 的目标产出表。

kafkasource

汽车之家基于 Flink 的实时 SQL 平台设计思路与实践

sink 和 source 的步骤差不多，平台目前支持多种 sink 的同时，还基于 javacc 提供灵活的自定义写入模板，用户可以自己决定数据是怎样组织写入 sink 的，可以覆盖绝大部分需求，如果遇到不能满足的情况，也可以通过继承我们对外发布的 SDK 的接口完成自定义逻辑的编写。

汽车之家基于 Flink 的实时 SQL 平台设计思路与实践

transformation 相对于另外两个阶段，复杂在业务逻辑上，下面举例说明利用 SQL 快速解决问题。

需求：计算单一物料每天的可见曝光和点击的 pv 和 uv。
开发：定义好 sink，直接编写 SQL 开发即可。

汽车之家基于 Flink 的实时 SQL 平台设计思路与实践

2.总结

利用实时平台，我们很好地将推荐的实时指标计算的系列任务，分层化、模块化、规范化，开发速度与准确性大幅提升，最快一个新的指标计算只需要小时级就可以搞定，同时学习成本大幅降低，用户只需要使用我们提供的页面+ SQL 就可以完成实时任务的开发，从而赋能业务方，使之可以独立开发实时计算任务。

同时也解决了我们之前提到过的两个痛点:

不需要把离线的 SQL 翻译成代码，基于清洗过的宽表，直接用 SQL 就可以实现实时指标的开发。

不再重度依赖第三方存储存放状态，Flink 自身维护了状态，Redis 只是单纯的存储最终结果。

三.后续规划

1.与仓库，业务方合作生产更多的业务宽表，汇总表，将数据资产化。

2.不断丰富平台功能，支持更多 Sink 与 Source，提供更多的工具供业务方使用，进一步降低开发运维成本。

3.将平台任务部署继续向 K8s 模式倾斜。

4.持续不断提升 Flink 在公司的影响，吸纳更多人使用 Flink 解决生产问题，丰富使用场景。

5.调研 Flink 1.9 以后的版本，并逐渐引入到公司生产中

上一篇：PG中文社区·第十二届PostgreSQL中国技术大会成功举办

下一篇：8月28日，PostgreSQL中级认证PGCP首考圆满结束

相关内容

怎么学？如何干？西藏7市（地）委书记在西藏日报发表文章

启航新征程开创新局面为全面建设社会主义现代化新拉萨努力奋斗自治区党委常委、拉萨市委书记普布顿珠党的二十大大笔擘画坚持以中国式现代化全面推进中华民族伟大复兴的宏伟蓝图，区党委十届三次全会全面铺开建设美丽幸福西藏、共圆伟大复兴梦想的壮阔实践···

2023年全区智慧旅游专业人才培训班圆满结业

6月2日，自治区旅游发展厅主办的全区智慧旅游专业人才培训班在拉萨圆满结业。培训共历时三天，累计完成全区旅游行政管理部门工作人员及涉旅企业专业技术人员培训100人。本次培训是区旅发厅深入推进学习贯彻习近平新时代中国特色社会主义思想主题教育重要···

徐汇萨迦共同举办大美西藏首届口腔学习班

随着现代医学的发展，口腔健康越来越受到人们的关注，为提高西藏地区口腔技术水平和服务质量，近日，徐汇区牙病防治所和萨迦县中心医院远程连线共同举办首届口腔学习班开班仪式。徐汇区卫生健康委副主任胡强，上海援藏干部、萨迦县委常务副书记、常务副县长沈···

自觉抵制“一对一”“一对多”等学科类培训！哈尔滨中小学生暑期预警来了

17日，记者从哈尔滨市各区教育局获悉，2023年暑假将至，南岗区、道里区、香坊区教育局向家长发出预警，自觉抵制违规培训，各区义务教育阶段学科类培训机构已经全部注销，暑假期间以任何形式开展的学科类培训均属于违规培训。家长要自觉抵制任何机构或个···

哈尔滨市道里区企投局举办“招商大讲堂”专题培训

黑龙江网讯（记者王惠婷）10月24日，哈尔滨市道里区企投局组织开展“招商大讲堂”专题培训班，全区各招商专班负责同志及业务骨干参加培训。本次培训从实际需求出发，紧紧围绕当前招商工作中的热点、难点，对“什么是招商引资”“道里区的产业结构和主导···

团黑龙江省委举办全省青年文明号青年岗位能手学习宣传贯彻党的二十大精神培训交流会

中国青年报客户端讯(李海涛)为深入学习贯彻党的二十大精神，充分发挥青年文明号、青年岗位能手示范引领作用，在全省职业青年中掀起学习党的二十大精神热潮，11月22日，团黑龙江省委举办全省青年文明号青年岗位能手学习宣传贯彻党的二十大精神培训交流会···

辽宁葫芦岛举办外贸政策培训会推动外贸保稳增量

辽宁省葫芦岛市外贸政策培训会4月3日举办。辽宁省贸促会供图中新网葫芦岛4月3日电 (李晛)辽宁省葫芦岛市外贸政策培训会4月3日举办。本次活动由辽宁省贸促会支持、葫芦岛市商务局主办，葫芦岛市贸促会、葫芦岛海关、中国出口信用保险辽宁分公司和辽···

山西运城：严查无证校外培训机构查封9家警告2家

新华社太原８月５日电（记者王飞航）记者从山西省运城市政府了解到，运城市教育局近日联合市公安局等多家单位，对中心城区无证校外培训机构进行了一次突击检查，共检查了１３家校外培训机构，查封９家，警告２家，发放整改通知书４份。今年７月，运城市教育局···

山西开展培训筑牢森林“防火墙”

山西新闻网3月30日讯（记者卢奕如）今日，记者从山西省应急管理厅获悉，全省举办森林草原防灭火业务培训，邀请专家以视频会议形式，围绕森林扑火指挥实操、森林草原火灾防控经验做法、火灾现场各级各类指挥员具体操作中遇到的问题等内容进行授课。培训内···

校外培训机构治理工作取得进展山西停办近1300所

资料图：小学生排队等待进入校园。中新社记者刘文华摄中新网5月11日电据教育部网站消息，按照校外培训机构专项治理工作整体安排，教育部、民政部、国家市场监管总局启动了校外培训机构治理专项督查工作。5月9日至10日，督查组率先在北京市开展华···

山西综改区举办省技术创新中心申报培训

　　8月18日，山西综改区科技金融部举办2023年度省技术创新中心申报培训会，来自区内企业、科研院所及有关单位代表160余人参加了培训。　　山西省技术创新中心是以产业前沿引领技术和关键共性技术研发为核心的产业技术创新平台，承担着为区域和产业···

山西汾阳医院开展健康教育与控烟知识培训

来源：【吕梁日报-吕梁新闻网】本报讯（记者刘少伟） 5月18日，在“世界无烟日”到来之际，山西汾阳医院组织开展健康教育与控烟知识培训。近年来，山西汾阳医院全面落实健康中国战略,根据国家卫健委《关于2011年起全国医疗卫生系统全面禁烟的决···

山西省文物局年度田野考古技术培训班开班

10月10日，山西省文物局在运城闻喜上郭城址、邱家庄墓群举办2023年度田野考古技术培训班开班仪式。该次培训为期三个月，通过理论和实践两部分教学，旨在推进山西考古工作高质量发展，提升考古业务人员专业技术水平。本次培训由山西省考古研究院和山西···

最低每课时9元！全省学科类校外培训课时长和收费标准出台

近日，山西省发改委、省教育厅下发《关于中小学学科类校外培训收费标准及有关事项的通知》，明确全省中小学学科类校外培训收费标准，从12月17日起执行。《通知》对全省线上线下学科类校外培训基准收费标准和浮动幅度制定了科学标准。其中，义务教育阶段线···

山西天镇阳光职业培训学校培养乡村“新农人”乡村振兴添动能

(记者贺文生) 山西天镇县阳光职业培训学校紧紧围绕乡村振兴战略，按照“政府引导、农民自愿、立足产业、突出重点”的原则，创新高素质农民技能培训方式方法，采取以“授人以渔”的方式，让人才振兴成为助推农业农村现代化的内生动力，以高素质农民引领现···

山西：建立全过程全链条无缝隙安全培训制度

黄河新闻网讯（记者杨江涛）日前，山西省应急管理厅下发了《山西省安全培训管理暂行办法》（以下简称《办法》）。我省将进一步抓好安全生产这个基本盘、基本面，推动全省安全培训工作制度化、规范化、科学化，促进安全培训工作高质量发展。山西省应急管理厅厅···

山西：艺考培训机构纳入全国监管平台管理

央广网太原10月6日消息（记者郎麒）日前，山西省教育厅、省发改委、省公安厅等部门联合制定《加强面向高中阶段学生艺考培训规范管理工作方案》，针对艺考培训的突出特点和实际情况，全面规范艺考培训行为，将艺考培训机构统一纳入全国校外教育培训监管与···

太平财险阳泉中支开展消防安全教育和有限空间作业培训

为强化员工安全意识，进一步提升员工消防和有限空间突发事件应急处理能力，9月14日，太平财险阳泉中支邀请北京市卫民安消防教育咨询中心山西分中心讲师向全体员工开展了一次消防安全教育和有限空间作业课程培训。按照防消结合、预防为主的原则，本次讲座通···

山西省数字化转型贯标试点工作宣贯培训会在太原举行

　　10月20日消息，山西省数字化转型贯标试点工作宣贯培训会在太原举行。省工信厅介绍，作为国家数字化转型贯标试点省份，试点启动后将引导企业加快数字化转型，助力制造业高端化、智能化、绿色化发展。　　今年，工信部启动数字化转型贯标试点工作，我省···

山西马兰花创业培训讲师大赛收官太原市获多个奖项

山西新闻网8月31日讯（记者冯耿姝）8月29日，山西省第四届马兰花创业培训讲师大赛圆满收官，太原市代表队在比赛中分获多个二、三等奖和优秀奖。本届大赛以“启迪创新思维·激发创业梦想”为主题，全省共有56名教师晋级复赛，其中，太原市有7名选手···

汽车之家基于 Flink 的实时 SQL 平台设计思路与实践

一. 架构及设计思路

二.基于 Flink 平台的实时数仓的实践

三.后续规划

相关推荐

相关内容

友情链接