Spark Streaming 項目實戰 (4)_ _ 頭條網

統計各廣告最近 1 小時內的點擊量趨勢：各廣告最近 1 小時內各分鐘的點擊量

此部分最終想要得到的結果如下：

一. 得到最近1小時廣告點擊量實時統計

1. 新建類LastHourApp

<code>package com.buwenbuhuo.streaming.project.app import com.buwenbuhuo.streaming.project.bean.AdsInfo import org.apache.spark.streaming.{Minutes, Seconds} import org.apache.spark.streaming.dstream.DStream /* * @author 不溫卜火 * @create 2020-08-17 11:19 * MyCSDN ： https://buwenbuhuo.blog.csdn.net/ */ object LastHourApp extends App { override def doSomething(adsInfoStream: DStream[AdsInfo]): Unit = { adsInfoStream // 1. 先把窗口分好 .window(Minutes(60),Seconds(3)) // 2. 按照廣告分鐘進行聚合 .map(info => (info.adsId,info.hmString) -> 1) .reduceByKey(_+_) // 3. 再按照廣告分組，把這個廣告下所有的分鐘記錄放在一起 .map{ case ((ads,hm),count) => (ads,(hm,count)) } .groupByKey() .print(10000) } } /* 統計各廣告最近1小時內的點擊量趨勢:各廣告最近1小時內各分鐘的點擊量，每6秒統計一次 1. 各廣告，每分鐘 -> 按照(廣告，分鐘) 分組 2. 最近1小時，每6秒統計一次 -> 窗口: 窗口長度1小時窗口的滑動步長 5s ---- 1. 先把窗口分好 2. 按照廣告分鐘進行聚合 3. 再按照廣告分組，把這個廣告下所有的分鐘記錄放在一起 4. 把結果寫在redis中 *//<code> 2. 運行結果

二. 寫入到redis中

1. 源碼(添加)

<code> // 4. 把結果寫在redis中 .foreachRDD(rdd => { rdd.foreachPartition(it=>{ if (it.nonEmpty){ // 只是判斷是否有下一個元素，指針不會跳過這個元素 // 1. 先建立到redis連接 val client: Jedis = RedisUtil.getClient // 2. 寫元素到redis // 2.1 一個一個的寫(昨天) // 2.2 批次寫入 import org.json4s.JsonDSL._ val key: String = "last:ads:hour:count" val map: Map[String, String] = it.toMap.map { case (adsId, it) => (adsId, JsonMethods.compact(JsonMethods.render(it))) } // scala集合轉換成java集合 import scala.collection.JavaConversions._ println(map) client.hmset(key,map) // 3. 關閉redis(用的是連接池，實際是把連接歸還給連接池) client.close() } })/<code> 2. 運行結果

3. 在redis中查看

三. 完整代碼

<code>package com.buwenbuhuo.streaming.project.app import com.buwenbuhuo.streaming.project.bean.AdsInfo import com.buwenbuhuo.streaming.project.util.RedisUtil import org.apache.spark.streaming.{Minutes, Seconds} import org.apache.spark.streaming.dstream.DStream import org.json4s.jackson.JsonMethods import redis.clients.jedis.Jedis /* * @author 不溫卜火 * @create 2020-08-17 11:19 * MyCSDN ： https://buwenbuhuo.blog.csdn.net/ */ object LastHourApp extends App { override def doSomething(adsInfoStream: DStream[AdsInfo]): Unit = { adsInfoStream // 1. 先把窗口分好 .window(Minutes(60),Seconds(3)) // 2. 按照廣告分鐘進行聚合 .map(info => (info.adsId,info.hmString) -> 1) .reduceByKey(_+_) // 3. 再按照廣告分組，把這個廣告下所有的分鐘記錄放在一起 .map{ case ((ads,hm),count) => (ads,(hm,count)) } .groupByKey() // 4. 把結果寫在redis中 .foreachRDD(rdd => { rdd.foreachPartition(it=>{ if (it.nonEmpty){ // 只是判斷是否有下一個元素，指針不會跳過這個元素 // 1. 先建立到redis連接 val client: Jedis = RedisUtil.getClient // 2. 寫元素到redis // 2.1 一個一個的寫(昨天) // 2.2 批次寫入 import org.json4s.JsonDSL._ val key: String = "last:ads:hour:count" val map: Map[String, String] = it.toMap.map { case (adsId, it) => (adsId, JsonMethods.compact(JsonMethods.render(it))) } // scala集合轉換成java集合 import scala.collection.JavaConversions._ println(map) client.hmset(key,map) // 3. 關閉redis(用的是連接池，實際是把連接歸還給連接池) client.close() } }) }) } } /* 統計各廣告最近1小時內的點擊量趨勢:各廣告最近1小時內各分鐘的點擊量，每6秒統計一次 1. 各廣告，每分鐘 -> 按照(廣告，分鐘) 分組 2. 最近1小時，每6秒統計一次 -> 窗口: 窗口長度1小時窗口的滑動步長 5s ---- 1. 先把窗口分好 2. 按照廣告分鐘進行聚合 3. 再按照廣告分組，把這個廣告下所有的分鐘記錄放在一起 4. 把結果寫在redis中 ---- 寫到redis的時候的數據的類型 1. key value 廣告id json字符串每分鐘的點擊量 2. key value "last:ads:hour:count" hash field value adsId json字符串 "1" {"09:24":100,"09:25":110,...} *//<code>

一. 得到最近1小時廣告點擊量實時統計

二. 寫入到redis中

三. 完整代碼

相關文章:

騰訊遊戲Spark More中文翻譯：我全都要

奇異值分解與主成分分析，一文帶你理解Spark分佈式降維方法

Spark分佈式機器學習源碼分析：特徵提取與轉換

華為對新西蘭阻止該國運營商採用華為5G設備的問題發表迴應

親手搭建個spark 環境試試

Hadoop Spark：全面比拼（架構、性能、成本、安全）

Spark大數據處理框架入門-包括生態系統、運行流程以及部署方式

Spark 全套知識體系，終於搞到了

通過Apache Spark和Pandas輕鬆介紹Apache Arrow

華為遭多國抵制，是封鎖我高端通訊科技還是其技術威脅國家安全？

hadoop VS spark 性能原理分析

顏值和性能都很能打、扎達克SPARK臺式機內存條 評測

華為迴應新西蘭5G禁令：沒有華為的5G 就像新西蘭沒有橄欖球一樣

大疆Mavic Air無人機明日發佈，價格感人

東西方文化結合除了結晶還有炸彈，《失落星球3》觸雷暴死啟示錄

以非技術方式解釋（Py）Spark

自定義Spark Partitioner提升es-hadoop Bulk效率

分佈式計算框架spark

DOTA2：DPL-CDA首周戰罷，EHOME第一LGD第二

Niantic董事會成員Megan Quinn將任職首席運營官

Delta Lake，讓你從複雜的 Lambda 架構中解放出來

Spark分佈式機器學習源碼分析：Kmeans族聚類

sprak中的RDD

spark——rdd常用的轉化和行動操作

什麼是最小可行性數據產品（MVP）？如何用它做機器學習？

還在為學習Python沒有路線發愁嗎？

從0到1進行Spark history分析

學透這5個SQL項目，小夥伴都能變數據庫專家

Spark-submit之後，到底發生了什麼？你有踏足過這個領域嗎？

自學大數據需要學哪些內容？

更具個性化的高端內存？ZADAK SPARK 測評報告

影音+遊戲兩種模式自由切換，藍牙耳機還能這樣玩

能源智能化的未來——智慧電廠如何建設

大數據框架對比：Hadoop、Storm、Samza、Spark 和 Flink[轉]

傳音TECNO Spark Power 2發佈，售9999盧比

Spark PK Hadoop 誰是贏家？

唯品會實時平臺架構-Flink、Spark、Storm

大數據學習路線圖【瞧一瞧，看一看了】

Spark應用的結構

沒有基礎可以學習大數據嗎？零基礎怎麼學習大數據？讓專家來教你

《精靈寶可夢Go》開發公司Niantic迎來新COO

Apache Spark：如何選擇正確的數據抽象？

跨界車企蔚來和零跑電機技術哪家強

Spark Streaming，Flink，Storm，Kafka和Samza：選擇流處理框架

萬字詳文：騰訊研究員詳解 Spark 部署與工作原理

像原設計者一樣深入理解 Spark

深度預警:Spark運行原理

30分鐘理解Spark的基本原理

Spark 3.0 新特性搶先看

圖計算框架Giraph 和 GraphX比較

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

當我們在談 SaaS 的時候，在談什麼？

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

5月西安招聘會時間安排來了！找工作的別錯過

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

“幫助當地居民解決用水難題”-今日頭條-手機光明網

灌籃高手無水印壁紙，每一張都是回憶

通遼藍天救援隊成功解救遼河公園水上被困群眾

5月6日·武漢要聞及抗擊肺炎快報

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

相聲界的顏值擔當張雲雷稱號大揭祕

美國百年薅羊毛攻略

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

LOL"中韓對抗賽"遭選手反對？Zoom直言不想打，Doinb的回答太真實

李亞鵬攜李嫣出席慈善晚會，李嫣手上鑽戒搶鏡，1個動作獲誇讚！

53歲郭富城再度升級當爸，方媛懷二胎，Chant要做姐姐了

那些拼命的演員：王寶強喝了一大桶牛奶，孫儷吃10斤瓜子

賈乃亮用上了“一米陽光”這個詞，他依然渴望擁有美麗的愛情！

搞笑GIF開心一刻：我的老家農村，有妹子願意嫁給我嗎？

為什麼只有edg賺錢？

程瀟身材多好？雙腿劈叉才明白，這才是“腿精”

張柏芝承認三胎產子，否認小夥的老爸是孫東海，看來她選擇保密

T1戰隊搶注Faker商標，“囊括多個領域產品，商業潛力媲美喬丹”

雲頂之弈“最不平衡的版本”誕生，全員搶一費卡，運氣成吃雞關鍵

顏值和性能都很能打、扎達克SPARK臺式機內存條評測

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患