Kafka datastream.

achmand · achmand · commit f53e2c3bfdb7 · 2019-05-08T18:07:55.000+02:00
diff --git a/data_streams/pom.xml b/data_streams/pom.xml
@@ -0,0 +1,39 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<project xmlns="http://maven.apache.org/POM/4.0.0"
+         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
+         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
+    <modelVersion>4.0.0</modelVersion>
+
+    <groupId>ds</groupId>
+    <artifactId>ds</artifactId>
+    <version>1.0-SNAPSHOT</version>
+
+    <dependencies>
+        <dependency>
+            <groupId>org.apache.flink</groupId>
+            <artifactId>flink-connector-kafka_2.12</artifactId>
+            <version>1.8.0</version>
+        </dependency>
+        <dependency>
+            <groupId>com.google.code.gson</groupId>
+            <artifactId>gson</artifactId>
+            <version>2.8.5</version>
+        </dependency>
+        <dependency>
+            <groupId>org.apache.flink</groupId>
+            <artifactId>flink-java</artifactId>
+            <version>1.8.0</version>
+        </dependency>
+        <dependency>
+            <groupId>org.apache.flink</groupId>
+            <artifactId>flink-streaming-java_2.12</artifactId>
+            <version>1.8.0</version>
+            <scope>provided</scope>
+        </dependency>
+        <dependency>
+            <groupId>org.apache.flink</groupId>
+            <artifactId>flink-clients_2.12</artifactId>
+            <version>1.8.0</version>
+        </dependency>
+    </dependencies>
+</project>
diff --git a/data_streams/src/main/java/tutorial/KafkaStream.java b/data_streams/src/main/java/tutorial/KafkaStream.java
@@ -0,0 +1,69 @@
+package tutorial;
+
+/*
+Consume Kafka data stream using Flink.
+*/
+
+import com.google.gson.Gson;
+import org.apache.flink.api.common.functions.FlatMapFunction;
+import org.apache.flink.api.common.serialization.SimpleStringSchema;
+import org.apache.flink.api.java.tuple.Tuple2;
+import org.apache.flink.api.java.utils.ParameterTool;
+import org.apache.flink.streaming.api.datastream.DataStream;
+import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
+import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;
+import org.apache.flink.util.Collector;
+import java.util.ArrayList;
+import java.util.Properties;
+
+public class KafkaStream {
+
+    // used to parse JSON
+    final static Gson gson = new Gson();
+
+    public static void main(String[] args) throws Exception {
+
+        // returns the execution environment (the context 'Local or Remote' in which a program is executed)
+        // LocalEnvironment will cause execution in the current JVM
+        // RemoteEnvironment will cause execution on a remote setup
+        final StreamExecutionEnvironment environment = StreamExecutionEnvironment.getExecutionEnvironment();
+
+        // provides utility methods for reading and parsing the program arguments
+        // in this tutorial we will have to provide the input file and the output file as arguments
+        final ParameterTool parameters = ParameterTool.fromArgs(args);
+
+        // register parameters globally so it can be available for each node in the cluster
+        environment.getConfig().setGlobalJobParameters(parameters);
+
+        // set properties for kafka
+        Properties properties = new Properties();
+        properties.setProperty("bootstrap.servers", "localhost:9092"); // IP address where Kafka is running
+
+        // pull datastreams from kafka to flink's datastream
+        // must specify topic name, deserializer, properties
+        DataStream<String> kafkaData = environment.addSource(new FlinkKafkaConsumer<String>("test", new SimpleStringSchema(), properties));
+
+        // keyword count from stream and saves to textfile
+        DataStream<Tuple2<String, Integer>> result = kafkaData.flatMap(new FlatMapFunction<String, Tuple2<String, Integer>>() {
+            public void flatMap(String value, Collector<Tuple2<String, Integer>> out) {
+
+                // convert each line/json object to Publication
+                Publication publication = gson.fromJson(value, Publication.class);
+
+                // get all keywords
+                ArrayList<String> keywords = publication.getKeywords();
+
+                if(keywords == null){
+                    return;
+                }
+
+                for (String keyword : keywords) {
+                    out.collect(new Tuple2<String, Integer>(keyword, 1));
+                }
+            }
+        });
+
+        result.keyBy(0).sum(1).writeAsText(parameters.get("output"));
+        environment.execute("Kafka stream keyword count");
+    }
+}
diff --git a/data_streams/src/main/java/tutorial/Publication.java b/data_streams/src/main/java/tutorial/Publication.java
@@ -0,0 +1,25 @@
+package tutorial;
+
+import java.util.ArrayList;
+
+public class Publication {
+
+    private String title;
+    private ArrayList<String> keywords;
+
+    public String getTitle() {
+        return title;
+    }
+
+    public void setTitle(String title) {
+        this.title = title;
+    }
+
+    public ArrayList<String> getKeywords() {
+        return keywords;
+    }
+
+    public void setKeywords(ArrayList<String> keywords) {
+        this.keywords = keywords;
+    }
+}