|
|
) p$ f" G# |2 [( y% m* K<h4 id="flink系列文章">Flink系列文章</h4>& p1 L7 l, M* N) H- N3 Q! |
<ol>
: x0 H, R1 v1 |. F<li><a href="https://www.ikeguang.com/?p=1976">第01讲:Flink 的应用场景和架构模型</a></li>
1 ^3 V) `- Q9 T& y1 c3 ~3 G<li><a href="https://www.ikeguang.com/?p=1977">第02讲:Flink 入门程序 WordCount 和 SQL 实现</a></li>
5 Z0 }1 q. C& M) H: }<li><a href="https://www.ikeguang.com/?p=1978">第03讲:Flink 的编程模型与其他框架比较</a></li>+ X' K* F2 Q j" H" E9 k/ y
<li><a href="https://www.ikeguang.com/?p=1982">第04讲:Flink 常用的 DataSet 和 DataStream API</a></li>. a: v. y3 s' o: m. b: G
<li><a href="https://www.ikeguang.com/?p=1983">第05讲:Flink SQL & Table 编程和案例</a></li>
$ v$ d9 ]( h. Z5 r# |<li><a href="https://www.ikeguang.com/?p=1985">第06讲:Flink 集群安装部署和 HA 配置</a></li>
& P# E$ Z2 p# ~, C, K# f* ]6 g<li><a href="https://www.ikeguang.com/?p=1986">第07讲:Flink 常见核心概念分析</a></li>' F) \/ i9 @2 V) b
<li><a href="https://www.ikeguang.com/?p=1987">第08讲:Flink 窗口、时间和水印</a></li>- G7 ]1 q7 L. Y. _/ s7 H
<li><a href="https://www.ikeguang.com/?p=1988">第09讲:Flink 状态与容错</a></li>
# N8 j% o0 _0 {! _! m T</ol>
) w2 x7 p P, k, d' m<blockquote>0 A; v2 G( G: h; n+ X
<p>关注公众号:<code>大数据技术派</code>,回复<code>资料</code>,领取<code>1024G</code>资料。</p>% F2 r9 n; j. T* e9 h
</blockquote>
" p% T5 B' W6 w" b7 c0 r* d4 l# h. L<p>这一课时将介绍 Flink 中提供的一个很重要的功能:旁路分流器。</p>
+ Z! D, E8 A: N* ~9 q- b<h3 id="分流场景">分流场景</h3>
' G( z' M( m2 P& v<p>我们在生产实践中经常会遇到这样的场景,需把输入源按照需要进行拆分,比如我期望把订单流按照金额大小进行拆分,或者把用户访问日志按照访问者的地理位置进行拆分等。面对这样的需求该如何操作呢?</p>
3 ^8 i8 p6 L, B) H<h3 id="分流的方法">分流的方法</h3>
+ Z: ~7 Y' t# X# ^3 _# p<p>通常来说针对不同的场景,有以下三种办法进行流的拆分。</p>8 j& W: @3 `" H2 N/ @' p
<h4 id="filter-分流">Filter 分流</h4>
# y6 D- k& O, J3 {- H9 o<p><img src="https://kingcall.oss-cn-hangzhou.aliyuncs.com/blog/img/CgqCHl7CAy6ADUaXAACSFUbdpuA911-20210223084827182.png" ></p>
- E) v2 v1 e: ^, \<p>Filter 方法我们在第 04 课时中(Flink 常用的 DataSet 和 DataStream API)讲过,这个算子用来根据用户输入的条件进行过滤,每个元素都会被 filter() 函数处理,如果 filter() 函数返回 true 则保留,否则丢弃。那么用在分流的场景,我们可以做多次 filter,把我们需要的不同数据生成不同的流。</p>
6 @2 e1 X& V) j<p>来看下面的例子:</p>
. `# |! u& @8 I0 U<p>复制代码</p>/ y/ Z5 l3 b6 x2 C% j
<pre><code class="language-java">public static void main(String[] args) throws Exception {% z" w1 g$ b$ l/ g0 V
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
7 O7 {6 W$ d) K+ ]: A3 E, V //获取数据源6 {5 ` {' p) h/ c$ B$ t' T
List data = new ArrayList<Tuple3<Integer,Integer,Integer>>();: g8 W P% H. l! C/ j$ n* q; \/ {) }
data.add(new Tuple3<>(0,1,0));& L$ q& R; s7 A5 @; O
data.add(new Tuple3<>(0,1,1));
7 Y A" y0 z1 F' t- p W; i y data.add(new Tuple3<>(0,2,2));% ~+ a4 N& B8 [ `
data.add(new Tuple3<>(0,1,3));
3 p I2 N0 G6 F2 k! ~ data.add(new Tuple3<>(1,2,5));# |: D4 v* v& \* Y( \3 O6 |% b
data.add(new Tuple3<>(1,2,9));4 L Z- E3 s! W" u
data.add(new Tuple3<>(1,2,11));5 b% C# N2 l2 s- f3 O1 M7 @. c+ x, A
data.add(new Tuple3<>(1,2,13));) U2 y& _ I$ E# u* I) |9 P
/ B9 s. W9 D% P
DataStreamSource<Tuple3<Integer,Integer,Integer>> items = env.fromCollection(data);0 `4 @$ `! S# x$ G- I, o2 n5 _# r
1 U% @# q& X; Q7 z3 N( d
7 G* g2 V" S6 _
) ?5 c* l* d. h3 K5 a3 p
SingleOutputStreamOperator<Tuple3<Integer, Integer, Integer>> zeroStream = items.filter((FilterFunction<Tuple3<Integer, Integer, Integer>>) value -> value.f0 == 0);2 d2 X7 _0 p" X+ M$ i
% a; t: r! ~9 U% l+ L SingleOutputStreamOperator<Tuple3<Integer, Integer, Integer>> oneStream = items.filter((FilterFunction<Tuple3<Integer, Integer, Integer>>) value -> value.f0 == 1);9 e1 m+ }7 q, W) I1 q4 _0 X" b
1 m# U( Z) G) C) Z' n9 l0 Z
. i6 s# o" n" r4 |" _+ V
- e: y* g1 ^( n5 L zeroStream.print();6 R2 |- C3 ^1 e& ]4 _- D# i1 S( [
( u' r( A% z- c oneStream.printToErr();
( j& C; m6 e0 ~9 b U' t3 m: }
" ^7 a) h4 h/ A% d7 w6 d3 s. g% q$ I% ~9 _* e6 M6 E
( M6 _. `' J5 [3 i; x. ?* {
& W2 w* V2 g; A, O6 r" |0 f5 @' l. k* B9 @$ P
//打印结果8 r5 u1 t" o' m) ~% y o
) s, F' B" v6 @ ^" n
String jobName = "user defined streaming source";' m9 B6 H+ ^3 n e8 G; ^% i1 O
: Y: L$ G0 V' t% w3 D3 z env.execute(jobName);
7 z, i/ S! g* X& g$ s, I/ f& q# D) |% S, j7 Y
}
- a; g# A0 L) }</code></pre>
) u/ Y! U( k4 v0 j+ _7 R4 N ^2 s5 ^<p>在上面的例子中我们使用 filter 算子将原始流进行了拆分,输入数据第一个元素为 0 的数据和第一个元素为 1 的数据分别被写入到了 zeroStream 和 oneStream 中,然后把两个流进行了打印。</p>' G# S3 X8 m4 [
<p><img src="https://kingcall.oss-cn-hangzhou.aliyuncs.com/blog/img/Ciqc1F7CA2WAYbshAAKj494h86s723-20210223084827296.png" ></p>! F& ^* f) @: F: E
<p>可以看到 zeroStream 和 oneStream 分别被打印出来。</p>
9 r! ]3 M, y! i( X; f<p>Filter 的弊端是显而易见的,为了得到我们需要的流数据,需要多次遍历原始流,这样无形中浪费了我们集群的资源。</p>5 J8 f4 o' a. h! l: ]. A
<h4 id="split-分流">Split 分流</h4>
# U; D# l$ E7 I( x<p>Split 也是 Flink 提供给我们将流进行切分的方法,需要在 split 算子中定义 OutputSelector,然后重写其中的 select 方法,将不同类型的数据进行标记,最后对返回的 SplitStream 使用 select 方法将对应的数据选择出来。</p>
* B6 t4 D8 \$ K( r' P; A<p>我们来看下面的例子:</p>( r( z& q7 c" d% y. L4 o" ^. z
<p>复制代码</p>
+ ^; J: d2 v. @& ^+ p3 }, D1 r<pre><code class="language-java">public static void main(String[] args) throws Exception {5 U4 H: \+ ?$ g, B; a
2 i7 r' Z$ v" m! Y+ F& \
% L* k+ F* Y; }
/ E; d" x" m, ^* C5 j StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();, Z( L3 m9 r# H! N
2 ?$ R7 k$ d$ e; c$ u //获取数据源
2 V; l3 t- b5 k* r7 p) p& m
& h: C0 k3 F9 \- x List data = new ArrayList<Tuple3<Integer,Integer,Integer>>();
; M- Y$ g6 }7 D* d1 F7 ~
* ^5 V) ~" y. O$ B% C9 y3 a data.add(new Tuple3<>(0,1,0));
1 P; m. l3 A% F' c0 q
/ y P9 I" {8 O data.add(new Tuple3<>(0,1,1));- L: Y0 j5 B' E7 v; X* m4 @ Z
; B$ w! Z6 J: D& I4 N
data.add(new Tuple3<>(0,2,2));1 z& C- g! Y1 H3 F' m
+ ~( R% t; z+ m U
data.add(new Tuple3<>(0,1,3));$ A) @5 y; y8 B4 J! k% \: l) X' u
: o& ?3 n$ U7 o/ g data.add(new Tuple3<>(1,2,5));7 V& W: x, S. w
6 P' G! n7 A3 S! W1 I# S$ M, L e
data.add(new Tuple3<>(1,2,9));; t$ A' `. q' B5 ]: R8 X* @
: k5 p3 ]) Y9 ?3 H, o data.add(new Tuple3<>(1,2,11));7 s9 f5 c# ]" b
1 a! D9 g! X4 d D1 T
data.add(new Tuple3<>(1,2,13));
7 u+ _2 U7 m u
W: X2 m+ ]' y' ?% k4 @' N7 U, l6 j! ?
6 v5 d, j# G+ \) x. M2 M4 R
& [2 B3 b/ k0 t- y( c) e
/ r: r( b4 _: K+ x3 ~0 ~+ H DataStreamSource<Tuple3<Integer,Integer,Integer>> items = env.fromCollection(data);9 h0 e( ~, V. b B& N
5 u3 n% ?, U2 |# j
5 E) [/ G" Q6 i. c: o
6 L' L1 ?" B, U: t
: h4 ^1 C( g9 ? }; }! ~; T: k! N
3 X; Q/ M! F( p2 K0 Q SplitStream<Tuple3<Integer, Integer, Integer>> splitStream = items.split(new OutputSelector<Tuple3<Integer, Integer, Integer>>() {
/ n. o6 [( X" M$ c# x1 ?9 M: `
" e. y; I5 n- I9 v4 d" S0 l8 @ @Override1 A5 e) [2 \: @
: l+ x& ?1 ^6 U! y/ \2 t public Iterable<String> select(Tuple3<Integer, Integer, Integer> value) {. T0 a( L! _; [/ B9 R# o
8 K% j8 e* f; r* e
List<String> tags = new ArrayList<>();
# d. w$ D/ \6 {& Y3 w
$ O9 E) u0 M- A4 ~+ s% n if (value.f0 == 0) {
$ g$ f% c A; u: R3 f+ I# Q0 w% q$ o8 l4 G2 t9 g3 }8 }- _$ g
tags.add("zeroStream");2 k3 |0 O- U. [- f" @$ ?
, M! g+ z- j1 @' {) A } else if (value.f0 == 1) {
! L3 E& F3 G' H" h, p; A+ X9 s
: i- Z6 T; }) w tags.add("oneStream");' Y' D' x/ e8 ~' o
3 v9 _/ u, y1 d- e- Y3 B }3 F3 G: N. k4 C b7 L
8 H" Z( u1 w( F return tags;- I7 K( O$ A$ D8 e p [1 t% \
; k0 u: b. U( Y+ X4 x4 U* d
}* U) G- a3 R p: l. b+ v w
- K* b2 T& P- p; B* f });
8 [& {2 k. m( d. ]0 G$ b$ ~% ~- T7 ~. c8 R& m
; b; t# }, e8 F) K. `2 O
" ~8 E) K5 O( E) N8 ^. ?/ R; S, @0 O9 G splitStream.select("zeroStream").print();# I. I& m; O' |, H4 V1 Y
7 r& m1 }* z$ }6 q splitStream.select("oneStream").printToErr();
% t0 g$ u& a! E: k1 o/ l7 a6 V* \& t+ f2 F; }0 ?
7 M* f7 ?: l7 [& v
. l+ u( m, `: D" v5 F% q //打印结果0 m( u# l& |7 [9 _. m) e( o
/ H* k* F. ~3 M) i- w
String jobName = "user defined streaming source"; K9 i0 E$ I/ N/ k B: J
# X z2 E; |/ z) A5 C( h" k% }
env.execute(jobName);: F* V5 j* ~* t( ]0 t6 N. s" \
, o6 f* b. \8 s! n}2 D6 f. _1 ?) C" K( t6 ^
</code></pre># X# {- h! ?8 A5 |+ q: j* `, R& ]$ s
<p>同样,我们把来源的数据使用 split 算子进行了切分,并且打印出结果。</p>% p+ g8 R/ J: @; h7 b' f
<p><img src="https://kingcall.oss-cn-hangzhou.aliyuncs.com/blog/img/CgqCHl7CA4aAbUSJAAG1LWNB3qw627-20210223084827377.png" ></p>8 k* q) [, _9 N& b" e
<p>但是要注意,使用 split 算子切分过的流,是不能进行二次切分的,假如把上述切分出来的 zeroStream 和 oneStream 流再次调用 split 切分,控制台会抛出以下异常。</p>
|) _2 } _* W2 `( n: ^<p>复制代码</p>. R' ~# t5 D T; o# C. C
<pre><code class="language-java">Exception in thread "main" java.lang.IllegalStateException: Consecutive multiple splits are not supported. Splits are deprecated. Please use side-outputs.# P3 E, M5 ^; ?" Q; `% V- i
</code></pre>; {$ ~) u" e; U0 ~, _8 t
<p>这是什么原因呢?我们在源码中可以看到注释,该方式已经废弃并且建议使用最新的 SideOutPut 进行分流操作。</p>
* L$ U# D% p! E1 n& _8 j<p><img src="https://kingcall.oss-cn-hangzhou.aliyuncs.com/blog/img/CgqCHl7CA6OAJ-JDAAIrh1JSAEo033-20210223084827602.png" ></p>. j- R' F7 x/ b' `1 ?+ m# {7 J9 `+ |
<h4 id="sideoutput-分流">SideOutPut 分流</h4>- U: D4 H" a7 E$ G
<p>SideOutPut 是 Flink 框架为我们提供的最新的也是最为推荐的分流方法,在使用 SideOutPut 时,需要按照以下步骤进行:</p>% I/ B, p u0 s8 H) v& W+ K
<ul>2 n6 Y" C1 y1 g& q1 j
<li>定义 OutputTag</li>
9 k1 J' X5 c& ^9 ^/ ^ Y7 Z$ e<li>调用特定函数进行数据拆分# [* L: @ f/ z, Y# h3 j# R* r
<ul>1 z# r6 {- g+ _$ T" |! x6 i) _. B
<li>ProcessFunction</li>
9 E4 p/ h" h' X. ~<li>KeyedProcessFunction</li>: m- P* x5 z5 g- P
<li>CoProcessFunction</li>! r4 w. L6 z1 s/ b
<li>KeyedCoProcessFunction</li>( a4 z% k. ~3 \/ i& d
<li>ProcessWindowFunction</li>6 l) J& e) V& h% A& s; Z( U
<li>ProcessAllWindowFunction</li>
N' J# L4 L. Z, b2 O3 H5 B5 }</ul>
4 n, D' w' _$ `6 J9 P9 D</li>
6 M0 H5 p @, @1 ]9 h</ul>+ W- {+ Q4 \+ r/ l: f' g8 n' M
<p>在这里我们使用 ProcessFunction 来讲解如何使用 SideOutPut:</p>' C2 I- \& J/ S" u2 C0 C
<p>复制代码</p>
A0 J4 p% I+ S+ j<pre><code class="language-java">public static void main(String[] args) throws Exception {, a8 h O+ c8 L, ~
0 w- e) K; H3 }/ z4 Z8 t) x1 Z( r' ] }$ L
: x, S! m! W: P$ [
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
( W; c4 H# i$ X3 y+ u
* ^% G9 l; {: A, E$ S* R" O: y, z! t //获取数据源9 q+ b1 S: Y, t0 P3 _& U
. l4 e0 d' a- o0 ~ List data = new ArrayList<Tuple3<Integer,Integer,Integer>>();" s* }5 B# Q& f
, u# V. A6 M# L; I( i( d; ^
data.add(new Tuple3<>(0,1,0));! Y9 r: ?3 h: b* }6 ~( m
2 R2 n, e" h, ^9 I5 o' e+ J# n data.add(new Tuple3<>(0,1,1));
1 v* f1 a) E ^; h
4 ]. f9 {+ H0 y- ], [3 D5 ` data.add(new Tuple3<>(0,2,2));% H4 S4 |- k$ C. h* v7 n
3 E+ y' U6 j, d9 [# N: k
data.add(new Tuple3<>(0,1,3));
. I( ]' ]) F5 c) Z9 P& O6 S5 X8 e" l9 S9 Z. g
data.add(new Tuple3<>(1,2,5));% O# v3 D& L$ D8 S7 P ~2 e G: X0 w+ Y
% ]. T& ?* j( q" e; ]3 f
data.add(new Tuple3<>(1,2,9)); j+ P2 h* g9 E. ]0 a
. E! [. g- k; e; i: N data.add(new Tuple3<>(1,2,11));
3 E4 x0 h7 }9 ~' P- w
9 k* r7 ^- ^8 l, ]. D4 ^% \ data.add(new Tuple3<>(1,2,13));' `( \3 i) e* G) n$ C% Y" w
6 v0 G' S5 {: ?: k% b& X
7 Y% |2 @- e9 l; r0 u4 s0 F5 {$ w
9 C+ g% |+ k* [) k- J s0 c; l3 J
3 `" s( D- N6 s3 H: s6 | DataStreamSource<Tuple3<Integer,Integer,Integer>> items = env.fromCollection(data);4 [: o k. J# t# Q X% V. G q
& Z- C( n+ s/ n& y" I7 c% h* g3 p0 Y- k0 R: F! V3 \
8 `1 B& L- F# a0 B* \7 @, v) \ OutputTag<Tuple3<Integer,Integer,Integer>> zeroStream = new OutputTag<Tuple3<Integer,Integer,Integer>>("zeroStream") {};
- u- w) E: P% H, Q, v& K
8 X5 \0 C) Z5 \1 Q5 s OutputTag<Tuple3<Integer,Integer,Integer>> oneStream = new OutputTag<Tuple3<Integer,Integer,Integer>>("oneStream") {};" }; N( h0 l" f# V: ^7 m
4 b+ T5 P4 O# F& o' ^, }# P& z4 h( ]7 Y
2 D; _0 d, f& s* S5 x' l* i6 F6 x
% N! T% u6 |7 v/ r* d+ N3 c
r% ~3 R9 y) G6 S' h4 g+ X SingleOutputStreamOperator<Tuple3<Integer, Integer, Integer>> processStream= items.process(new ProcessFunction<Tuple3<Integer, Integer, Integer>, Tuple3<Integer, Integer, Integer>>() {
4 ?$ S* j: G# Z! O( u5 Y( m3 D6 p6 X$ u0 l# a% i
@Override5 X' x. w/ d8 Q1 w* n+ ~& N
' |9 N3 l( i1 }3 K% w' q8 f: X
public void processElement(Tuple3<Integer, Integer, Integer> value, Context ctx, Collector<Tuple3<Integer, Integer, Integer>> out) throws Exception {
/ F' _- K. }7 g% z/ R5 O
2 W) y- F% Q$ Q
. W' `6 y) `! R2 r$ w: d
& C' l) N9 `; F4 z* ~ if (value.f0 == 0) {" s- @6 V2 c& E3 P0 X
' p7 _6 p( _/ k; a
ctx.output(zeroStream, value);! I( Z- V& D" `8 w( P5 R! c! x9 O
/ ^2 _' T) A+ a9 G
} else if (value.f0 == 1) {
" A' [7 H0 K! d1 V$ g" H9 j5 A2 A% z* |0 o) ?+ C
ctx.output(oneStream, value);
4 T7 r% W' `( u6 @; R
2 S0 t) A& u' U) d% q }
7 P0 i% D" ?2 \- _7 P; h @* J' N1 {
}
3 ? }# x8 }5 m6 P
; i; M; C2 F2 C0 Y+ N6 V });; J6 Q0 F+ \* k
$ y) A7 |- K8 j9 \$ L4 T/ F( W+ `* T* j/ ^
) n4 T) J4 p1 u7 M
DataStream<Tuple3<Integer, Integer, Integer>> zeroSideOutput = processStream.getSideOutput(zeroStream);
2 m# M: x8 e. b l; Q1 h! V1 r% ^7 l. y% T2 C; H9 b
DataStream<Tuple3<Integer, Integer, Integer>> oneSideOutput = processStream.getSideOutput(oneStream);
) @5 j8 J' g. ]. d3 u, F4 y
# y. u/ t$ w7 t2 K1 I' W8 C) R" g+ d! c7 i8 U* Z+ I
4 k6 o4 c7 }5 Q
zeroSideOutput.print();
/ [8 O* Z5 V% U% t' D
3 _; l$ f, R. @' A8 P oneSideOutput.printToErr();% f1 X0 m2 O% Z- C' N4 b% u
2 f, W9 e* m' ]3 L+ T7 W$ C
& B7 e% J3 M( N2 J
' R# p v/ W* k( `
" I( X% ]7 G2 `1 [$ X# |
0 N2 ]/ ~# M V" h
//打印结果
, @2 y1 f6 ~* h4 b
8 G9 h6 V* l9 [, W( o4 G2 v8 t i String jobName = "user defined streaming source";" f4 q' J9 c% `8 C5 \$ }5 m
6 z3 c: M1 n; N& F
env.execute(jobName);! \: p) f+ F. I M$ r
" m1 U" y; r8 {
}) o4 X, G6 I/ s1 }
</code></pre>
# L7 [# U$ g2 M<p>可以看到,我们将流进行了拆分,并且成功打印出了结果。这里要注意,Flink 最新提供的 SideOutPut 方式拆分流是<strong>可以多次进行拆分</strong>的,无需担心会爆出异常。</p>
% r- ?. {+ ^- I8 P G<p><img src="https://kingcall.oss-cn-hangzhou.aliyuncs.com/blog/img/CgqCHl7CBMKAGHoUAAM-5UL5geg132-20210223084827698.png" ></p>6 H" d# h- Z# G% B3 L5 g
<h3 id="总结">总结</h3>
& g; B% w$ N0 l<p>这一课时我们讲解了 Flink 的一个小的知识点,是我们生产实践中经常遇到的场景,Flink 在最新的版本中也推荐我们使用 SideOutPut 进行流的拆分。</p>
2 z' Z5 j+ i8 R' {& ]; F6 i. F+ A( \<blockquote>
% g" a9 o6 C$ ^/ b' T& S8 Q<p>关注公众号:<code>大数据技术派</code>,回复<code>资料</code>,领取<code>1024G</code>资料。</p>
8 Q0 @5 o3 f4 ~' }% n+ R4 B1 G</blockquote>
* ~, W+ L* J! L( H) U! E" \' L \! ?
|
|