|
|
6 K1 ~4 Z9 J% ?' k" Z0 T<h4 id="flink系列文章">Flink系列文章</h4>, U7 o0 F1 l, L- F6 \) r- F$ w7 U
<ol>8 Y5 E) I/ v& U! {( E
<li><a href="https://www.ikeguang.com/?p=1976">第01讲:Flink 的应用场景和架构模型</a></li>
8 z9 @3 B7 Q' p2 o& _& X<li><a href="https://www.ikeguang.com/?p=1977">第02讲:Flink 入门程序 WordCount 和 SQL 实现</a></li>
/ T- T% }, m0 t, _2 ^<li><a href="https://www.ikeguang.com/?p=1978">第03讲:Flink 的编程模型与其他框架比较</a></li>- y, k1 h* a' c0 ~9 _- T
<li><a href="https://www.ikeguang.com/?p=1982">第04讲:Flink 常用的 DataSet 和 DataStream API</a></li>
) B" o7 v( I/ B<li><a href="https://www.ikeguang.com/?p=1983">第05讲:Flink SQL & Table 编程和案例</a></li>& o8 d- w; p! t& R* d$ j6 a
<li><a href="https://www.ikeguang.com/?p=1985">第06讲:Flink 集群安装部署和 HA 配置</a></li>
* `& J5 A$ A4 n8 r<li><a href="https://www.ikeguang.com/?p=1986">第07讲:Flink 常见核心概念分析</a></li>
3 a- {5 C8 k% R0 }, Z<li><a href="https://www.ikeguang.com/?p=1987">第08讲:Flink 窗口、时间和水印</a></li>
9 L/ r, Z. ~2 h<li><a href="https://www.ikeguang.com/?p=1988">第09讲:Flink 状态与容错</a></li>
2 X2 ^- C& H+ y" o3 ]5 I& y2 D</ol>4 A4 T. w* Z. q
<blockquote>
" E+ e# `# ^ d; y; ]3 t<p>关注公众号:<code>大数据技术派</code>,回复<code>资料</code>,领取<code>1024G</code>资料。</p>4 i0 ^8 W: @' X! y: P" ?! K' c' Y
</blockquote>6 R9 l' v5 R& T0 e
<p>这一课时将介绍 Flink 中提供的一个很重要的功能:旁路分流器。</p>: R g8 J3 h# _( i. Q3 {& Y! |$ |
<h3 id="分流场景">分流场景</h3>- [& h2 C$ T3 h9 T
<p>我们在生产实践中经常会遇到这样的场景,需把输入源按照需要进行拆分,比如我期望把订单流按照金额大小进行拆分,或者把用户访问日志按照访问者的地理位置进行拆分等。面对这样的需求该如何操作呢?</p>
- h: `3 g& J: z( F/ x9 G- B<h3 id="分流的方法">分流的方法</h3>- f) \3 X u! J" Q5 }5 [' b
<p>通常来说针对不同的场景,有以下三种办法进行流的拆分。</p>8 a7 h" T( P F) _' t7 d9 ^
<h4 id="filter-分流">Filter 分流</h4>! G# X. B6 @; w" w( j! m
<p><img src="https://kingcall.oss-cn-hangzhou.aliyuncs.com/blog/img/CgqCHl7CAy6ADUaXAACSFUbdpuA911-20210223084827182.png" ></p>
. I2 u/ O2 F( W- B7 ~" F<p>Filter 方法我们在第 04 课时中(Flink 常用的 DataSet 和 DataStream API)讲过,这个算子用来根据用户输入的条件进行过滤,每个元素都会被 filter() 函数处理,如果 filter() 函数返回 true 则保留,否则丢弃。那么用在分流的场景,我们可以做多次 filter,把我们需要的不同数据生成不同的流。</p>
/ p P' O; W: T/ t3 {) C a) Z# D3 u* H<p>来看下面的例子:</p>
8 F& V5 W0 b7 y3 g; g( P<p>复制代码</p>/ t# F7 _- O' R2 t' c0 S! l
<pre><code class="language-java">public static void main(String[] args) throws Exception {
* k: e \% M8 V6 D" X5 T9 P StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();' q/ B- ]2 _( y9 e
//获取数据源
5 r3 x% g5 ?6 B7 R# I( D List data = new ArrayList<Tuple3<Integer,Integer,Integer>>();" T4 Q! W" N+ b6 v9 v
data.add(new Tuple3<>(0,1,0));
% E- i6 ^5 E7 m; \; `" U$ z data.add(new Tuple3<>(0,1,1));
+ c% z! n& f5 u7 b data.add(new Tuple3<>(0,2,2));4 z/ S+ F! f& W% e! j& f
data.add(new Tuple3<>(0,1,3));5 p6 j7 p2 F* g# s& l7 R3 a2 o
data.add(new Tuple3<>(1,2,5));
$ K `* W6 k7 D, Q. Q7 ?/ V data.add(new Tuple3<>(1,2,9));7 m V9 r$ H" K* l' T
data.add(new Tuple3<>(1,2,11));
8 {. ?/ ]1 w( z! t) t data.add(new Tuple3<>(1,2,13));( W8 s" V' j& \7 `1 ~
' { G% R6 s$ E7 F9 U5 R b DataStreamSource<Tuple3<Integer,Integer,Integer>> items = env.fromCollection(data);
9 q/ w( w4 K8 l/ K( a
" F! ~ a$ i% g: }# N3 O0 E! L7 H! f- U/ G. y
% |$ w- z1 c" P+ V; g
SingleOutputStreamOperator<Tuple3<Integer, Integer, Integer>> zeroStream = items.filter((FilterFunction<Tuple3<Integer, Integer, Integer>>) value -> value.f0 == 0);9 d3 x# \& M" }1 t
" n f: Y& ? F( G8 M SingleOutputStreamOperator<Tuple3<Integer, Integer, Integer>> oneStream = items.filter((FilterFunction<Tuple3<Integer, Integer, Integer>>) value -> value.f0 == 1);* ?" E! Q6 L5 ^6 ^; `
- j9 H( N1 }( I) S. B, s7 Q$ p
- M8 i, ^- J5 k. k
8 z" n+ L6 i3 T zeroStream.print();9 p7 s/ }7 K# ^; f# c
# ] f9 H9 n6 p0 c* ]4 B! H( { oneStream.printToErr();: b4 Z; N' u. t: B: ~
9 c3 |# d6 D8 Q/ E! d
3 v5 v- D+ Z2 k y `
* q9 n! ]. c! `' ` K7 ]0 N+ q- v
5 Y3 e7 X/ V6 z7 G3 i //打印结果
- D, @0 G2 v3 R6 D! p5 i/ c2 l9 C/ _
* E# i; _- h" A7 ^) D# W String jobName = "user defined streaming source";
* G) g5 j s7 e3 n9 T8 x6 R+ G. D
env.execute(jobName);
4 G M5 A L Q0 O+ p2 Z& z# }& u* P/ F. w+ z, F( X7 Z
}4 N5 A* R9 r& S7 o
</code></pre>
" W3 l" j9 h; R) S/ @ J<p>在上面的例子中我们使用 filter 算子将原始流进行了拆分,输入数据第一个元素为 0 的数据和第一个元素为 1 的数据分别被写入到了 zeroStream 和 oneStream 中,然后把两个流进行了打印。</p>$ V- r/ m1 ]8 ?7 J, w' h' q0 D
<p><img src="https://kingcall.oss-cn-hangzhou.aliyuncs.com/blog/img/Ciqc1F7CA2WAYbshAAKj494h86s723-20210223084827296.png" ></p>, x& G- W9 F. [5 P
<p>可以看到 zeroStream 和 oneStream 分别被打印出来。</p>
3 y- _' f, N6 N; M<p>Filter 的弊端是显而易见的,为了得到我们需要的流数据,需要多次遍历原始流,这样无形中浪费了我们集群的资源。</p>, a" ~, z5 {+ m" F
<h4 id="split-分流">Split 分流</h4>. l; \, B; f* w* d' C
<p>Split 也是 Flink 提供给我们将流进行切分的方法,需要在 split 算子中定义 OutputSelector,然后重写其中的 select 方法,将不同类型的数据进行标记,最后对返回的 SplitStream 使用 select 方法将对应的数据选择出来。</p>
$ U7 M# |1 _6 E; M7 [6 O9 l<p>我们来看下面的例子:</p>
m+ c7 t( r, s/ i; t1 _<p>复制代码</p>; h8 O7 W0 {. Q* ?2 l2 K& f* @
<pre><code class="language-java">public static void main(String[] args) throws Exception { ?8 t: }0 E0 `! T7 D
; \- K/ m0 n2 m5 E0 {# c# x
) ~% K" ~- v4 a2 t
0 z1 V: `) N4 ^5 D( R StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
2 {: k3 ~) e1 j& @% M [: X6 O K9 \3 @6 w
//获取数据源
N1 T" W, Q8 z4 T$ T# @+ Q5 A$ |
3 n5 v7 [+ I. S/ J# R+ k List data = new ArrayList<Tuple3<Integer,Integer,Integer>>();
- l1 R k' u+ J$ ?( l/ H h2 y0 X; t$ c$ z$ h5 z
data.add(new Tuple3<>(0,1,0));0 V! Q2 @7 U% P; B% i5 \
# s/ s7 K U1 { data.add(new Tuple3<>(0,1,1));; s! ~& x' a: O6 d/ a0 h! R" Q
: ~$ e) R7 X6 W& f" z data.add(new Tuple3<>(0,2,2));
' E8 g8 Y, N- J$ y p" h
+ L9 z$ F& |3 I' j3 n0 {; f data.add(new Tuple3<>(0,1,3));
4 F Q3 J) {' f6 E3 i {8 b1 }+ r- ?
data.add(new Tuple3<>(1,2,5));
4 t/ q& c- Y' y0 |% f% g
. h0 B/ o p* `7 U1 g! l& N4 p data.add(new Tuple3<>(1,2,9));
9 Y6 D2 x& T. H/ a: j% x% C' `- P4 W- C
data.add(new Tuple3<>(1,2,11));; p4 b) r8 e8 B* x
: e; N0 L. t1 ^ x$ C H$ B8 |
data.add(new Tuple3<>(1,2,13));7 X" {4 q% d, {* X* Z1 m* j
7 Q' c% W4 [0 }
1 q" e! \% F; q. D
g0 ?$ c. _" b/ v. M* ^
" G- P1 x. i n" E5 q3 g
; \! q6 \+ f* \( D7 f. ]& H DataStreamSource<Tuple3<Integer,Integer,Integer>> items = env.fromCollection(data);1 M7 L2 m/ K# n' H& ~3 K! P7 Q
9 h# t( ?+ q4 c0 `2 U
, G" y" i1 G* L# X7 R& O) h7 x0 k* h4 W
, a# q# a4 S8 R3 F' @2 L! C7 W# G: g& n7 a' n# n
SplitStream<Tuple3<Integer, Integer, Integer>> splitStream = items.split(new OutputSelector<Tuple3<Integer, Integer, Integer>>() {4 V2 b/ _5 [/ R6 W4 Y6 H' i( {4 i
. J2 y& F9 j, f! d$ P8 L, J
@Override! u! ]9 g3 a8 [. Z2 _* n
, [: ~' X3 `% c. s& w! A public Iterable<String> select(Tuple3<Integer, Integer, Integer> value) {' z$ w8 s. _& Z. w' M$ n" ?7 v$ q* X4 I
/ j, v: Q- A G; ^# f List<String> tags = new ArrayList<>();5 A8 j2 o1 S1 I9 y1 @. y
f/ V1 c, C: V/ h' A3 b
if (value.f0 == 0) {4 |& L3 ] z/ B, U' _$ B) H* ^
) |0 }- r. \4 `0 c2 W tags.add("zeroStream");
: l* _. O1 W2 A1 g; Q3 K" k: L" j$ {1 p: o1 ~
} else if (value.f0 == 1) {* w) O% i5 t7 F) c
; j/ M9 R' N% T# i/ B+ i" Z) m3 B
tags.add("oneStream");
' R8 [) ]" n& t) w& X) j) U& I- }4 z B# @" z& E
}( K. ?7 ^) M. R3 c* m) I
" S, ~3 r% ]! F1 C T
return tags;
- M* G+ [# L& ?( f+ |4 u" H
2 ~' a- j# w0 y \, b8 [# u }
; g+ _0 E4 R- I& _- U- K- D$ ^6 O! v0 v& V2 E
});
" X6 K% p% Q& |0 ?9 z0 V$ |1 v5 B7 M* v, r. J2 F3 i5 V
$ P! c4 V7 ?9 g
/ X7 u; }. C; T. J0 T
splitStream.select("zeroStream").print();" Y9 ^" w" w1 O L6 a& m3 q
& r* e0 ~, @( L8 v& f; J- ]
splitStream.select("oneStream").printToErr();
+ }, `! e' L6 s9 D
1 o+ C- O* e$ ], F0 c! D: P" ^& G
8 O! R6 H" \& z* ]4 w( U: h6 s E B) x2 x+ ?% [+ a/ ^& T2 V) w! `% D
//打印结果3 R1 ?, b( B. q( i1 E* @. a+ X
. a- K0 J' H5 I0 Z- W s String jobName = "user defined streaming source";2 f; W6 b9 i4 t# W6 e; w
9 f: o5 r' {) g: P0 P env.execute(jobName);, T$ l' u! f- z( {
% |2 u* ^) i9 |
}
. r/ p4 q- m, |$ l</code></pre>
9 q0 R8 E$ f4 @, h% }! k+ k<p>同样,我们把来源的数据使用 split 算子进行了切分,并且打印出结果。</p>3 f& t* c4 E& M
<p><img src="https://kingcall.oss-cn-hangzhou.aliyuncs.com/blog/img/CgqCHl7CA4aAbUSJAAG1LWNB3qw627-20210223084827377.png" ></p>) I" |! T. U% F H0 h" X4 ~
<p>但是要注意,使用 split 算子切分过的流,是不能进行二次切分的,假如把上述切分出来的 zeroStream 和 oneStream 流再次调用 split 切分,控制台会抛出以下异常。</p>1 m3 S' P8 J4 `: T
<p>复制代码</p>
' [2 G! L9 _2 r2 x; L<pre><code class="language-java">Exception in thread "main" java.lang.IllegalStateException: Consecutive multiple splits are not supported. Splits are deprecated. Please use side-outputs.
2 d3 F1 |6 ~) \1 Z. O</code></pre>4 {* j% ?4 @4 G; v: i& k
<p>这是什么原因呢?我们在源码中可以看到注释,该方式已经废弃并且建议使用最新的 SideOutPut 进行分流操作。</p>
6 ^+ E; O# h; Y$ m/ l1 O* Y) g, E<p><img src="https://kingcall.oss-cn-hangzhou.aliyuncs.com/blog/img/CgqCHl7CA6OAJ-JDAAIrh1JSAEo033-20210223084827602.png" ></p>6 D2 z3 ~7 ^( t. Q7 R! | f% @+ X8 I
<h4 id="sideoutput-分流">SideOutPut 分流</h4>$ Q6 Q1 p/ D! G& p7 C
<p>SideOutPut 是 Flink 框架为我们提供的最新的也是最为推荐的分流方法,在使用 SideOutPut 时,需要按照以下步骤进行:</p>
7 X. g, v5 x( c- P3 s& T<ul>8 E7 [$ @4 J/ h
<li>定义 OutputTag</li>4 g V+ J+ F5 |( o' G; N) U& b
<li>调用特定函数进行数据拆分
P, z& ^! E4 w4 n, L<ul>
/ [: ]7 \4 u7 {8 V% v/ o! M. }# V<li>ProcessFunction</li>
/ T2 f1 ~. U$ T6 r; d8 F<li>KeyedProcessFunction</li>
) {, G7 U( F g; Z2 v<li>CoProcessFunction</li>4 m9 o6 j% _; M; e; b+ B4 K0 u7 x
<li>KeyedCoProcessFunction</li>0 x. |/ N$ ^0 o
<li>ProcessWindowFunction</li> j% h8 i! _7 H+ i1 c+ a
<li>ProcessAllWindowFunction</li>) O0 w. K+ L! v* j
</ul>. L0 V3 X3 e1 D! H* i
</li>
9 A* f* R) a8 f5 X& d</ul>
7 C& ~) Y/ U; a& s4 K<p>在这里我们使用 ProcessFunction 来讲解如何使用 SideOutPut:</p>
2 q# }; w6 Z0 [4 |<p>复制代码</p>
7 z( ]8 W8 o$ D% }4 Z<pre><code class="language-java">public static void main(String[] args) throws Exception {
) X d! C, h* U* l" V! Q- s
) s' e. f( k, s
1 E p9 W- [6 K7 g* o3 E
3 p0 a' I# D: s* }$ z I* _ StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
0 f3 o% L7 x6 B6 g( R
2 X) W; g. @% U% \ //获取数据源* d" |5 _3 b0 H/ m& o6 p
7 `) p# p, z5 O
List data = new ArrayList<Tuple3<Integer,Integer,Integer>>();1 R% W1 {; \0 V S
1 K8 }) w w' T9 Z6 M
data.add(new Tuple3<>(0,1,0));2 Z3 a+ L! p* x. Y
7 U, U* m% w0 E" v, k/ f
data.add(new Tuple3<>(0,1,1));) I0 r3 q/ [0 b/ N! b' {* a- J) ^
; r" t' k ~' \) z: E data.add(new Tuple3<>(0,2,2));
& E/ i0 D9 L7 V. {1 i* c4 @7 J# K9 l1 J: E- ?
data.add(new Tuple3<>(0,1,3));+ `2 k6 w6 \6 K# i+ ~, J
' z, H4 g$ y5 \; { data.add(new Tuple3<>(1,2,5));. ]% I4 ]4 @8 B/ W( v+ h
( c! ~/ L5 Z2 }5 {( a) m% j data.add(new Tuple3<>(1,2,9));
2 |: n, h$ k& y! d: I; R: K0 \
3 m& c- Z* g5 d6 O$ H* A( I& J+ G data.add(new Tuple3<>(1,2,11));2 ^. A# i" E, I% [; C: N
( `9 K9 u* l& O! x1 C data.add(new Tuple3<>(1,2,13));1 i) j0 w0 u2 e" p, i
( |% C. g. e5 E x" ]$ D& X; [9 X" @$ f0 n
2 {6 ]9 g# U0 J8 L O& m
% E' r8 [% P, ?8 j# ^
7 t2 ~- ~# N# H( \3 s& ~( }
_( E( P! t0 z' u0 o. A DataStreamSource<Tuple3<Integer,Integer,Integer>> items = env.fromCollection(data);
7 | u* d) g0 ~" ~* c( v- | z' `
0 f3 r3 U6 R) |" G5 g! A/ \2 T
2 }+ O& S1 |; ^( ?: L
% v+ u0 ^* @' ?. j( n9 d6 q8 L OutputTag<Tuple3<Integer,Integer,Integer>> zeroStream = new OutputTag<Tuple3<Integer,Integer,Integer>>("zeroStream") {};
+ \; K9 W* ?5 N h/ K
) {# S6 ` d2 I( z1 } OutputTag<Tuple3<Integer,Integer,Integer>> oneStream = new OutputTag<Tuple3<Integer,Integer,Integer>>("oneStream") {};
' j) G. U' C: A$ A) c6 }, V$ _* y4 q) e3 q
' i' X& h( e I
- g$ Y3 P$ x; r1 F: w( z% E/ J5 U
' X$ Y9 M8 g4 B9 e2 T( w6 V6 t7 i# [* r! r3 J9 T4 l7 n/ T
SingleOutputStreamOperator<Tuple3<Integer, Integer, Integer>> processStream= items.process(new ProcessFunction<Tuple3<Integer, Integer, Integer>, Tuple3<Integer, Integer, Integer>>() {1 v3 `' V; X% e1 X2 p7 w
( O. {/ l% P" {) J8 J
@Override2 ~5 f3 C0 v% @( a# d4 t
. J+ S; N5 F7 P. s: l- b public void processElement(Tuple3<Integer, Integer, Integer> value, Context ctx, Collector<Tuple3<Integer, Integer, Integer>> out) throws Exception { B2 d0 m9 A' g: j
/ a) F* e1 B4 V" T1 B- ?
2 Y. t1 d/ B' X. @& I' w
1 [% w7 r& L- j/ P @ if (value.f0 == 0) {' U: t+ b1 S) C* g# F
) F) e0 L8 W" {' T ctx.output(zeroStream, value);
. x( y4 q6 G* z7 F9 q$ N* i$ H& ~4 c% j# X$ q) ~; }$ `
} else if (value.f0 == 1) {
( v0 c( p9 C. }: F7 u) {& V, d
3 M! V+ m, w2 c1 T! Y ctx.output(oneStream, value);
& F+ d; M3 A5 _% G" t3 x
5 o$ p0 C. W) b' \0 l1 E( Y3 S }
5 E' ]% l5 _1 A" V5 _( C1 w. Z& _' E4 _
}
! E0 a; g3 { ?- |
# L1 [% \+ U% \ });
, g* x9 y* L% I6 P
9 |; Y0 F) U$ {" K" g, C" j O
. L. f8 o% x6 f. j9 x u" c; b- A# i' H- l% x- M& U
DataStream<Tuple3<Integer, Integer, Integer>> zeroSideOutput = processStream.getSideOutput(zeroStream);" j* {% R' t% g4 V
2 v r, |7 |9 \ DataStream<Tuple3<Integer, Integer, Integer>> oneSideOutput = processStream.getSideOutput(oneStream);/ \- o' Q3 ?& l9 n) @: } @7 S: ~$ D
1 ?: R$ {1 v% w. v. N
+ U/ v0 y; U2 R5 ]5 f! P- w% |. m$ x, B
zeroSideOutput.print();
3 X1 n) V9 B% T6 N, g) @
# K x, ~' F6 a- f oneSideOutput.printToErr();5 r8 {. r& S' N. G
6 H( [0 y9 G4 t+ G( t
! R# t4 [0 c2 {6 E! M; }! g5 k; U; ^6 v* E- n, V: G
! U) a3 \+ X, t. f% V; a7 @. V2 {* W
' e9 D+ Y4 j. o# Q* J& `7 @# H
//打印结果# B/ D1 S4 r1 h- e; _ s0 [1 J2 x
( @- I7 J% K0 N! K$ K; p
String jobName = "user defined streaming source";
* y% U7 x r! r) u
5 h4 D7 W# w4 _& ^, [6 f/ x env.execute(jobName);
( `- r1 k Y9 s' y# c) y q% _. ]8 C
5 f$ [( e: M+ a# Q}
# \) U+ P6 R3 t( U# n) w</code></pre>
2 a/ g- a; {7 p2 t<p>可以看到,我们将流进行了拆分,并且成功打印出了结果。这里要注意,Flink 最新提供的 SideOutPut 方式拆分流是<strong>可以多次进行拆分</strong>的,无需担心会爆出异常。</p>
0 l" s1 l3 t$ G5 @* g' M<p><img src="https://kingcall.oss-cn-hangzhou.aliyuncs.com/blog/img/CgqCHl7CBMKAGHoUAAM-5UL5geg132-20210223084827698.png" ></p> G. Y+ x. E, G8 x5 k0 Q5 G/ z
<h3 id="总结">总结</h3>9 H9 }) Z0 T0 j
<p>这一课时我们讲解了 Flink 的一个小的知识点,是我们生产实践中经常遇到的场景,Flink 在最新的版本中也推荐我们使用 SideOutPut 进行流的拆分。</p>" s5 R9 q# z( {' w5 L5 X9 R3 Y
<blockquote>
2 d0 R9 B( _. |/ o" m/ o! K2 Q( M5 f<p>关注公众号:<code>大数据技术派</code>,回复<code>资料</code>,领取<code>1024G</code>资料。</p>
$ ?) s/ L+ Y. @+ @* r</blockquote>
; P! R' F4 N- r$ z1 j& [; e
2 Q. w6 X5 U3 x9 Y2 t0 [0 h |
|