tapunict · AlawysDelta · Apr 22, 2021 · Apr 22, 2021 · Apr 21, 2021 · Apr 19, 2021
diff --git a/.gitignore b/.gitignore
@@ -1,4 +1,5 @@
-
+.ipynb_checkpoints/*
 book/_build/*
 book/.ipynb_checkpoints/*
-.vscode
+spark/setup/*
+.vscode
diff --git a/bin/RClassifyTweet.sh b/bin/RClassifyTweet.sh
diff --git a/bin/RHello.sh b/bin/RHello.sh
diff --git a/bin/RTweetConsumer.sh b/bin/RTweetConsumer.sh
diff --git a/bin/elasticSearch.sh b/bin/elasticSearch.sh
diff --git a/bin/flumeNetcatExample.sh b/bin/flumeNetcatExample.sh
diff --git a/bin/flumeTwitter.sh b/bin/flumeTwitter.sh
diff --git a/bin/flumeTwitterKafka.sh b/bin/flumeTwitterKafka.sh
diff --git a/bin/kafkaCcreateConsumer.sh b/bin/kafkaCcreateConsumer.sh
diff --git a/bin/kafkaCcreateProducer.sh b/bin/kafkaCcreateProducer.sh
diff --git a/bin/kafkaCreateConsumer.sh b/bin/kafkaCreateConsumer.sh
diff --git a/bin/kafkaCreateProducer.sh b/bin/kafkaCreateProducer.sh
diff --git a/bin/kafkaCreateTopic.sh b/bin/kafkaCreateTopic.sh
diff --git a/bin/kafkaPython10linesConsumer.sh b/bin/kafkaPython10linesConsumer.sh
diff --git a/bin/kafkaPython10linesProducer.sh b/bin/kafkaPython10linesProducer.sh
diff --git a/bin/kafkaRunStandaloneConnectTwitterFile .sh b/bin/kafkaRunStandaloneConnectTwitterFile .sh
diff --git a/bin/kafkaStartServer.sh b/bin/kafkaStartServer.sh
diff --git a/bin/kafkaStartZk.sh b/bin/kafkaStartZk.sh
diff --git a/bin/kafkaWordCountConsumer.sh b/bin/kafkaWordCountConsumer.sh
diff --git a/bin/kafkaWordCountProducer.sh b/bin/kafkaWordCountProducer.sh
diff --git a/bin/kafkaWordCountStream.sh b/bin/kafkaWordCountStream.sh
diff --git a/bin/kibana.sh b/bin/kibana.sh
diff --git a/bin/metricbeat.sh b/bin/metricbeat.sh
diff --git a/bin/prettyzoo.sh b/bin/prettyzoo.sh
diff --git a/bin/pyspark.sh b/bin/pyspark.sh
diff --git a/bin/scratch.sh b/bin/scratch.sh
diff --git a/bin/sparkBash.sh b/bin/sparkBash.sh
diff --git a/bin/sparkExamplePi.sh b/bin/sparkExamplePi.sh
diff --git a/bin/sparkNC.sh b/bin/sparkNC.sh
diff --git a/bin/sparkShell.sh b/bin/sparkShell.sh
diff --git a/bin/sparkSubmitApps.sh b/bin/sparkSubmitApps.sh
diff --git a/bin/sparkSubmitPython.sh b/bin/sparkSubmitPython.sh
diff --git a/bin/sparkTap.sh b/bin/sparkTap.sh
diff --git a/bin/tapInit.sh b/bin/tapInit.sh
diff --git a/bin/webServerFlumeA.sh b/bin/webServerFlumeA.sh
diff --git a/bin/zkServerStart.sh b/bin/zkServerStart.sh
diff --git a/book/Spark Mlib.ipynb b/book/Spark Mlib.ipynb
@@ -1928,4 +1928,4 @@
  },
  "nbformat": 4,
  "nbformat_minor": 4
-}
+}
diff --git a/spark/Dockerfile b/spark/Dockerfile
@@ -7,9 +7,9 @@ ENV PATH $SPARK_DIR/bin:$PATH
 
 ADD setup/spark-${SPARK_VERSION}-bin-hadoop2.7.tgz /opt
 
-RUN apt-get update && apt-get -y install bash python3 python-pip netcat
+RUN apt-get update && apt-get -y install bash python3 python3-pip netcat
 
-RUN pip install pyspark kafka-utils numpy elasticsearch
+RUN pip3 install pyspark kafka-utils numpy elasticsearch
 # Create Sym Link 
 RUN ln -s /opt/spark-${SPARK_VERSION}-bin-hadoop2.7 ${SPARK_DIR} 
 
@@ -22,4 +22,4 @@ ADD apps /opt/tap/apps
 ADD spark-manager.sh $SPARK_DIR/bin/spark-manager
 
 WORKDIR ${SPARK_DIR}
-ENTRYPOINT [ "spark-manager" ]
+ENTRYPOINT [ "spark-manager" ]
diff --git a/spark/Dockerfile-WordCount b/spark/Dockerfile-WordCount
@@ -0,0 +1,24 @@
+FROM openjdk:8-jre
+
+ENV PATH $SPARK_DIR/bin:$PATH
+ENV SPARK_VERSION=3.1.1
+ENV SPARK_DIR=/opt/spark
+ENV PATH $SPARK_DIR/bin:$PATH
+ARG TXT=dataset/cockatiel.csv
+
+RUN apt update && apt -y install bash python3 python3-pip
+
+RUN pip3 install pyspark
+# Create Sym Link 
+ADD setup/spark-${SPARK_VERSION}-bin-hadoop2.7.tgz /opt
+ADD ${TXT} /opt/tap/spark/dataset/
+# Add Python Code
+ADD code/wordcount.py  /opt/tap/
+# Add Spark Manager
+ADD spark-manager-wc.sh $SPARK_DIR/bin/spark-manager-wc
+
+
+RUN ln -s /opt/spark-${SPARK_VERSION}-bin-hadoop2.7 ${SPARK_DIR} 
+
+WORKDIR ${SPARK_DIR}
+ENTRYPOINT [ "spark-manager-wc" ] 
diff --git a/spark/code/wordcount.py b/spark/code/wordcount.py
@@ -0,0 +1,65 @@
+import pyspark
+import string
+import time
+import argparse
+
+parser = argparse.ArgumentParser("Extended Word Counter")
+parser.add_argument("-f", dest="file",  required=True, help="Filepath to analyze")
+parser.add_argument("-c", type=int, dest="cores", required=True, help="Number of cores used by worker")
+parser.add_argument("-s", dest="separator", required=True, help="Separator used by tokenizer")
+
+args = parser.parse_args()
+master = 'local[' + str(args.cores) + ']'
+conf = pyspark.SparkConf().setAppName('WordCounter').setMaster(master)
+print("Spark Session Active! Appname WordCount with " + str(args.cores) + (" cores used"))
+sc = pyspark.SparkContext(conf=conf) 
+absFilename = args.file.split("/")
+relFilename = absFilename[len(absFilename) - 1]
+logfile = "/opt/tap/spark/dataset/" + relFilename
+print("Analyzing file " + relFilename)
+logData = sc.textFile(logfile).cache()
+print("RDD generated from textFile")
+separator = str(args.separator)
+if separator == "w|":
+    separator = " "
+if separator == " ":
+    print("Separator = Whitespace")
+else:
+    print("Separator: " + separator)
+tok_start = time.perf_counter()
+words = logData.flatMap(lambda x: x.split(separator)).filter(lambda x: x != "")
+tok_end = time.perf_counter()
+tok_time = tok_end - tok_start
+print("File tokenized")
+print("Time elapsed for Tokenization: " +  str(tok_time * 1000) + "ms")
+wc_start = time.perf_counter()
+counter = words.count()
+wc_end = time.perf_counter()
+wc_time = wc_end - wc_start
+print("Word number computed. Word count: " + str(counter))
+print("Time elapsed for Word Count: " + str(wc_time * 1000) + "ms")
+lc_start =time.perf_counter()
+lines = logData.flatMap(lambda x: x.split("\n")).count()
+lc_end = time.perf_counter()
+lc_time = lc_end - lc_start
+print("Lines number computed. Line count: " + str(lines))
+print("Time elapsed for Line Count: " + str(lc_time * 1000) + "ms")
+fr_start = time.perf_counter()
+freqs = words.map(lambda x: (x, 1)).reduceByKey(lambda a,b: a + b).sortBy(lambda x: x[1], False).take(10)
+fr_end = time.perf_counter()
+fr_time = fr_end - fr_start
+print("Frequency of words in file computed. Ten most used words:")
+for x in freqs:
+    print(x)
+print("Time elapsed for Frequency Count: " + str(fr_time * 1000) + "ms")
+letters = list(string.ascii_lowercase)
+hp_start = time.perf_counter()
+histo = words.map(lambda x: ((x[0]).lower())).sortBy(lambda x: x).histogram(letters)
+hp_end = time.perf_counter()
+hp_time = hp_end - hp_start
+print("Histogram of words by initial plotted. Histogram: ")
+print(histo)
+print("Time elapsed for Histogram Plotting: " + str(hp_time * 1000) + "ms")
+total_time = tok_time + wc_time + lc_time + fr_time + hp_time
+print("Total time elapsed from job start: " + str(total_time * 1000) + "ms")
+sc.stop()
diff --git a/spark/dataset/cockatiel.csv b/spark/dataset/cockatiel.csv
@@ -0,0 +1,8 @@
+Mutation,EyeColor,MainColor,AccentColor,Sexable
+Ancestral,Brown,Grey,Yellow,True
+Pied,Brown,Grey,Yellow,True
+Pearl,Brown,Grey,Yellow,True
+Lutino,Red,Yellow,Yellow,False
+WhiteFace,Brown,Grey,White,True
+Cinnamon,Brown,Grey-Brown,Yellow,True
+
-Original file line number
+Diff line change
@@ Expand Up / @@ -1928,4 +1928,4 @@ @@
      },
      "nbformat": 4,
      "nbformat_minor": 4
-    }
+    }