开源大数据生态下的 Flink 应用实践

开源大数据生态下的 Flink 应用实践
原标题:开源大数据生态下的 Flink 运用实践 曩昔十年,面向整个数字年代的关键技能接二连三,从被人们承受,到开端步入运用。大数据与核算作为年代的关键词已被广泛认知,算力的重要性日渐凸显并开展成为企业新的增长点。Apache Flink(以下简称 Flink)以其快速、精确的算力备受重视,怎么将 Flink 更好的与大数据生态技能相结合,充沛发掘数据的潜力,真实发挥数据的价值,是大多数企业面对的难题。 11 月 28-30 日,Flink Forward Asia 约请来自阿里巴巴、戴尔科技集团、英特尔、Cloudera、趣头条、百度、Stream Native 等不同方向的技能专家环绕 Apache Flink 中心大数据生态讨论当下大数据的开展趋势与未来意向,并展现相关技能在一线出产场景的优异实践。 点击可了解大会概况,购买参会门票:https://developer.aliyun.com/special/ffa2019-conference?spm=a2c6h.13239638.0.0.21f27955ZaTZ0e 部分精彩议题概览 Apache Flink and the Apache Way Fabian Hueske Apache Flink PMC,Ververica Co-founder, Software Engineer Apache Flink is a project of the Apache Software Foundation (ASF). The ASF is the world’s largest open source foundation and the home of more than 350 individual projects and initiatives. Every ASF project is independently governed and managed by its own community but follows the principles of the ASF, the so-called Apache Way. Knowing the Apache Way is important to fully understand how the community of an ASF project works. In this talk, I’ll briefly explain the Apache Way and how ASF projects organize themselves. I’ll take a look back at how the Apache Flink community started and its journey to where it is today. Finally, I’ll give you some guidance and advice that will help you to start contributing to Apache Flink and maybe become a committer at some point in the future. Optimize Apache Flink on Kubernetes with YuniKorn Scheduler 杨巍威,Cloudera资深软件工程师 杨弢,阿里巴巴技能专家 将 Flink 运转在 K8s 很简单,可是当咱们测验在 K8s 集群上运转大规模 Flink 的使命,并对多租户环境和 SLA 有苛刻要求时,各种问题开端显现出来。尤其是在调度层面,咱们发现 Flink 的作业调度变慢,而且资源的分配变得紊乱且毫无公平性,这样往往会导致作业饿死,或许资源糟蹋。所以咱们开端寻求运用 YuniKorn 来处理在 K8s 上的调度问题。 YuniKorn 是一个开源的,轻量级,通用的资源调度器,能够很简单的适配到 K8s。比较原生的 K8s 调度器,YuniKorn 供给了愈加丰厚的调度特性,比方层级行列、资源公平性确保、侵占以及更好的功用,愈加合适大规模多租户、长运转以及批处理作业并存的场景下运用。YuniKorn 的调度会考量运用,用户以及行列等各个维度的资源运用情况,供给根据公平性准则的弹性容量装备。在这个议题中,咱们将首要从怎么经过 YuniKorn 来优化 Flink 在 K8s 上的运转,包含功用、多租户、资源公平性等方面的与咱们进行讨论。 趣头条根据 Flink+ClickHouse 构建实时数据剖析渠道 王金海,趣头条数据渠道担任人 趣头条一向致力于运用大数据剖析辅导事务开展。现在在实时化范畴首要运用 Flink+ClickHouse 处理计划,掩盖场景包含实时数据报表、Adhoc 即时查询、事情剖析、漏斗剖析、留存剖析等精细化运营战略,全体呼应 80% 在 1 秒内完结,大大提高了用户实时取数体会,推进事务更快迭代开展。本次共享首要内容: 事务场景与现状剖析 Flink to Hive 的小时级场景 Flink to ClickHouse 的秒级场景 未来规划 根据 Apache Flink 的边际流式核算 袁尤军,百度云资深研制工程师 黄家天,百度云物联网部实时核算高档研制工程师 跟着 5G 和 IoT 技能的开展,核算将从现在的云端蔓延到更多其他的当地,其间一个典型的场景便是边际核算。与云端强壮的核算集群比较,这些场景设备的核算才能十分受限。Apache Flink 作为新一代流式核算引擎,现已广泛运用在许多尖端互联网公司的云上。但怎么在资源极度受限的边际设备上运转流式核算引擎,尚无成功事例可循。 咱们信任 Apache Flink 不应该只是运转在云端,而应该运转在任何需求设备上。本次讲演,咱们将共享百度智能云在边际设备上运转流式作业的一些探究,介绍怎么将作业的内存耗费降低到 10M 以内,以及怎么完成作业对运转环境的零依靠。会大将要点介绍百度根据 Flink 自研的边际流式核算结构 Creek,要点内容包含: 介绍流式核算在边际设备的含义和应战 介绍 Creek 的技能计划 展现 Creek 的功用目标 现场演示 Creek 作业的构建和运转 Apache Flink 与 Apache Hive 的集成 李锐,Apache Hive PMC,Apache Flink Contributor,阿里巴巴技能专家 王刚,阿里巴巴高档开发工程师 在大数据范畴,Hive 现已成为数据仓库事实上的规范。为了丰厚 Flink 的生态,从 1.9.0 版别开端,咱们供给了 Flink 与 Hive 集成的才能,让用户能够经过 Flink 来读写 Hive 中的表。在 1.9.0 发布之后,咱们进一步完善了 Flink-Hive 集成的功用,包含支撑更全面的数据类型、更好地支撑 DDL 以及 Function 等。 在新版别中,咱们能够支撑更多的运用场景,并供给更好的易用性。本次讲演将介绍 Flink-Hive 集成的规划架构、项目发展以及后续版别中的新功用。最终,咱们还将演示怎么运用 Flink 与 Hive 进行交互。 开源大数据生态专场完好议程 除上述议题外,开源大数据生态专场还有来自戴尔科技集团、英特尔、Stream Native 等重量级嘉宾以及 Apache Member、Apache Flink PMC、Apache Calcite Committer 等带来的愈加精彩的共享。完好议程如下: (11 月 28 日下午,专场议程) (11 月 29 日上午,专场议程) 深度训练,完成技能与运用才能的堆集提高 11 月 11-14 日,Flink Forward Asia 训练课程门票买一赠一,限时 3 天!点击阅览原文预定训练课程,然后加微信(ID:candy1764)供给一同参加训练的小伙伴名单,活动时刻截止 11 月 14 日正午 12:00,数量有限,赠完即止,对训练心动的同学赶忙下手啦! Apache Flink PMC 带队,超奢华阵型,阿里巴巴及 Flink 开创团队资深技能专家担任训练讲师,为开发者训练课程拟定全面学习系统。 课程能够满意不同学习需求,无论是入门仍是进阶,开发者可根据本身根底挑选课程内容,完成技能与运用才能上的堆集与提高。 课程首要纲要如下: 中阶一:Apache Flink 开发人员训练 Tips:本课程为纯英文授课,一同配有2位中文技能专家支撑回答问题。 本课程是对想要学习构建流运用程序的 Java 和 Scala 开发人员进行的关于 Apache Flink 的实践介绍。训练将要点介绍分布式数据流、事情时刻和状况等中心概念。操练将使您有时机了解以上概念在 API 中是怎么被表现的,并了解怎么将这些概念组合用以处理实际问题。 介绍流核算和 Apache Flink DataStream API 的根底 为 Flink 开发做准备(包含操练) 有状况的流处理(包含操练) 时刻、定时器和 ProcessFunction(包含操练) 衔接多个流(包含操练) 测验(包含操练) 阐明:不需求 Apache Flink 的相关常识。 中阶二:Apache Flink 运维训练 本课程是针对 Apache Flink 运用程序的布置和操作相关的实践性介绍。方针受众包含担任布置 Flink 运用程序和保护 Flink 集群的开发人员和运维人员。演示将要点介绍 Flink 运转中触及的中心概念,以及用于布置、晋级和监控 Flink 运用程序的首要东西。 介绍流核算和 Apache Flink 数据中心里的 Flink 分布式架构介绍 容器化布置(包含实际操作) 状况后端和容错(包含实际操作) 晋级和状况搬迁(包含实际操作) 目标(包含实践) 容量规划 阐明:不需求对 Apache Flink 有先验常识。 中阶三:SQL 开发人员训练 Apache Flink 支撑 SQL 作为流处理和批处理的一致 API。SQL 能够用于各式各样的场景,而且比较运用 Flink 的底层 API,SQL 将更简单构建和保护。在本次训练中,您将学习到怎么充沛发挥运用 SQL 来编写 Apache Flink 作业的潜力。咱们将研讨流式 SQL 的不同事例,包含衔接流数据、维表相关、窗口聚合、保护物化视图,以及运用 MATCH RECOGNIZE 子句进行形式匹配(这是 SQL 2016 新提出的规范)。 介绍 SQL on Flink 运用 SQL 查询动态表 衔接动态表 形式匹配与 match_recognition 生态系统 写外部表 阐明:不需求 Apache Flink 的先验常识,可是需求根本的 SQL 常识。 高阶:Apache Flink 调优和问题排查 在曩昔的几年中,咱们与许多 Flink 用户协作交流期间了解到许多将流核算作业从前期 PoC 阶段渐渐过渡到出产过程中最常见的应战。在此次训练中,咱们将集中精力介绍这些应战,而且协助咱们一同消除它。咱们将供给一个有用的故障诊断东西集,并介绍例如监控、水印、序列化、状况后端等范畴的最佳实践和技巧。在实践课程的空隙中,参加者将有时机运用新学习到的常识来处理一些反常 Flink 作业表现出来的问题。一同,咱们也将概括那些使作业没有发展或吞吐量没有到达预期,或作业推迟的常见原因。 时刻和水印 状况处理和状况后端 Flink 的容错机制 检查点和保存点 DataStream API 和 ProcessFunction。 训练系列课程为精品小班教育,数量有限,预定满额将封闭进口,有相关训练需求的同学可尽早预定。具体阐明: 参加训练请挑选购买 VIP 套票。中阶训练购买 VIP 套票 1,高阶训练购买 VIP 套票 2。 VIP 套票 1 可参加中阶一切课程,VIP 套票 2 可参加包含高阶、中阶训练在内的一切课程。 假如你也猎奇 Flink 未来的首要探究方向,怎么运用 Flink 将大数据、算力推到极致,Flink 有哪些新场景、新规划以及最佳实践等论题,来现场吧!信任这群来自一线的技能专家们,一定会改写你对 Apache Flink 的认知。 点击「大会概况(https://developer.aliyun.com/special/ffa2019-conference?spm=a2c6h.13239638.0.0.21f27955ZaTZ0e)」可了解更多训练课程与 Flink Forward Asia 2019 大会议程~ ———————————– 本文作者:巴蜀真人 原文链接:https://yq.aliyun.com/articles/726906?utm_content=g_1000088922 本文为云栖社区原创内容,未经答应不得转载。回来

标签:,

发表评论

电子邮件地址不会被公开。 必填项已用*标注