Spark Graphx的API操作

2018-07-18 05:58:00 從大數據說起

和RDD一樣，Graph也有一系列的基礎運算，還有GraphOps類。

所有的操作都可以在Graph類中找到。

1.屬性操作：

class Graph[VD, ED] {

def mapVertices[VD2](map: (VertexId, VD) => VD2): Graph[VD2, ED]

def mapEdges[ED2](map: Edge[ED] => ED2): Graph[VD, ED2]

def mapTriplets[ED2](map: EdgeTriplet[VD, ED] => ED2): Graph[VD, ED2]

}

屬性操作：用於修改點邊的屬性。

每個操作都產生一個新的圖，這個新的圖包含通過用戶自定義的map操作修改後的頂點或邊的屬性。

使用mapReduceTriplets、mapEdges、mapVertices操作修改屬性

使用mapVertices修改頂點的屬性使用mapEdges將edge的屬性使用mapTriplets對三元組整體進行操作，即可以利用srcAttr attr dstAttr來修改attr的信息

import java.text.SimpleDateFormat

import org.apache.log4j.{Level, Logger}

import org.apache.spark.graphx.{VertexRDD, EdgeTriplet, Graph, Edge}

import org.apache.spark.{SparkContext, SparkConf}

/**

* Created by lichangyue on 2016/9/18.

object TestPropsOps {

def main(args: Array[String]) {

Logger.getLogger("org.apache.spark").setLevel(Level.ERROR);

Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.ERROR);

val conf = new SparkConf()

val sc = new SparkContext("local","test",conf)

// 1,Taro,100

// 2,Jiro,200

// 3,Sabo,300

val vertexLines = sc.textFile("hdfs://S7SA053:8020/stat/subgraph-vertices.csv")

val vertices = vertexLines.map(line =>{

val cols = line.split(",")

(cols(0).trim.toLong,(cols(1).trim,cols(2).trim.toLong))

})

val format = new SimpleDateFormat("yyyy/MM/dd")

// 1,2,100,2014/12/1

// 2,3,200,2014/12/2

// 3,1,300,2014/12/3

val edgesLines = sc.textFile("hdfs://S7SA053:8020/stat/subgraph-edges.csv")

val edges = edgesLines.map(line =>{

val cols = line.split(",")

Edge(cols(0).toLong,cols(1).toLong,(cols(2).toLong,format.parse(cols(3).trim)))

})

//生成圖

val graph = Graph(vertices,edges)

println("\n\nConfirm edges internal of graph")

graph.edges.foreach(println(_))

// Edge(1,2,(100,Mon Dec 01 00:00:00 EST 2014))

// Edge(2,3,(200,Tue Dec 02 00:00:00 EST 2014))

// Edge(3,1,(300,Wed Dec 03 00:00:00 EST 2014))

println("\nconfirm vertices internal of graph")

graph.vertices.collect.foreach(println(_))

// (2,(Jiro,200))

// (1,(Taro,100))

// (3,(Sabo,300))

// 使用mapVertices修改頂點的屬性，由原先的(String, Long)修改為（String的length*Long的值）

val graph2 = graph.mapVertices((vid ,attr) => attr._1.length * attr._2)

println ("\n\nconfirm vertices internal of graph2")

graph2.vertices.collect.foreach(println(_))

// (2,800) Jiro的長度為4，乘以200得到800，下同

// (1,400)

// (3,1200)

// 使用mapEdges將edge的屬性由(100,Mon Dec 01 00:00:00 EST 2014)變為100

val graph3 = graph.mapEdges(edge => edge.attr._1)

println("\n\nconfirm edges internal of graph3")

graph3.edges.collect.foreach(println(_))

// Edge(1,2,100)

// Edge(2,3,200)

// Edge(3,1,300)

println("\n\nconfirm triplets internal of graph")

graph.triplets.collect.foreach(println(_))

// ((1,(Taro,100)),(2,(Jiro,200)),(100,Mon Dec 01 00:00:00 EST 2014))

// ((2,(Jiro,200)),(3,(Sabo,300)),(200,Tue Dec 02 00:00:00 EST 2014))

// ((3,(Sabo,300)),(1,(Taro,100)),(300,Wed Dec 03 00:00:00 EST 2014))

// 到這裡可以觀察到，上述操作對graph本身並沒有影響

// 使用mapTriplets對三元組整體進行操作，即可以利用srcAttr attr dstAttr來修改attr的信息

val graph4 = graph.mapTriplets(edge => edge.srcAttr._2 + edge.attr._1 + edge.dstAttr._2)

println("\n\nconfirm veteces internal ")

graph4.edges.collect.foreach(println(_))

// Edge(1,2,400) //400 = 100+200+100

// Edge(2,3,700)

// Edge(3,1,700)

// 使用mapReduceTriplets來生成新的VertexRDD

// 利用map對每一個三元組進行操作

// 利用reduce對相同Id的頂點屬性進行操作

val newVertices:VertexRDD[Long] = graph.mapReduceTriplets(

mapFunc = (edge:EdgeTriplet[(String, Long), (Long, java.util.Date)]) => {

val toSrc = Iterator((edge.srcId, edge.srcAttr._2 - edge.attr._1))

val toDst = Iterator((edge.dstId, edge.dstAttr._2 + edge.attr._1))

toSrc ++ toDst

reduceFunc = (a1:Long, a2:Long) => ( a1 + a2 )

)

println("\n\nconfirm vertices internal of newVertices")

newVertices.collect().foreach(println(_))

// (2,300)

// (1,400)

// (3,500)

}

2.結構性操作

class Graph[VD, ED] {

def reverse: Graph[VD, ED]

def subgraph(epred: EdgeTriplet[VD,ED] => Boolean,

vpred: (VertexId, VD) => Boolean): Graph[VD, ED]

def mask[VD2, ED2](other: Graph[VD2, ED2]): Graph[VD, ED]

def groupEdges(merge: (ED, ED) => ED): Graph[VD,ED]

}

結構操作：用於修改圖結構

reverse操作返回一個新的圖，這個圖的邊的方向都是反轉的。例如，這個操作可以用來計算反轉的PageRank。

subgraph(epred: (EdgeTriplet[VD, ED]) ⇒ Boolean = x => true, vpred: (VertexId, VD) ⇒ Boolean = (v, d) => true): Graph[VD, ED]

epred: (EdgeTriplet[VD, ED]) :epred對應是的EdgeTriplet對象,使用對象中的屬性進行過濾。

vpred: (VertexId, VD)：vpred ：對應的是(VertexId, VD),

操作利用頂點和邊的判斷式（predicates），返回的圖僅僅包含滿足頂點判斷式的頂點、滿足邊判斷式的邊以及滿足頂點判斷式的連接頂點（connect vertices）。

subgraph操作可以用於很多場景，如獲取感興趣的頂點和邊組成的圖或者獲取清除斷開鏈接後的圖。

mask:返回的是current graph和other graph的公共子圖

connectedComponents源碼：返回連接成分的頂點值：包含頂點Id。

先對圖進行connectedComponents，轉換成新的圖ccGraph，然後再對原圖Graph進行subgraph操作，最後再mask取交集

groupEdges⇒ED):Graph[VD,ED])操作合併多重圖中的並行邊(如頂點對之間重複的邊)。在大量的應用程序中，並行的邊可以合併（它們的權重合並）為一條邊從而降低圖的大小。

groupEdges將相同邊進行合併,e1和e2是需要合併的兩條邊的屬性。

例1.下面的例子刪除了斷開的鏈接：

過濾掉了頂點第二個屬性為Missing的點及其相關邊

package com.graph.test

import org.apache.log4j.{Level, Logger}

import org.apache.spark.graphx.{Graph, Edge}

import org.apache.spark.{SparkContext, SparkConf}

/**

* Created by lichangyue on 2016/9/13.

object FirstGraph1 {

def main(args: Array[String]) {

Logger.getLogger("org.apache.spark").setLevel(Level.ERROR);

Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.ERROR);

val conf = new SparkConf().setAppName("FirstGrahp").setMaster("local")

val sc = new SparkContext(conf)

val users = sc.parallelize(

Array((3L,("rxin","student")),(7L,("jgonzal","postdoc"

)),

(5L,("franklin","prof")),(2L,("istoica","prof")),

(4L,("peter","student"))))

val relationships = sc.parallelize(

Array(Edge(3L,7L,"collab"),Edge(5L,3L,"advisor"),

Edge(2L,5L,"collegaue"),Edge(5L,7L,"pi"),

Edge(4L,0L,"student"),Edge(5L,0L,"colleague")))

val defaultUser = ("John Doe","Missing")

//創建初始圖

val graph =Graph(users,relationships,defaultUser)

//0號用戶被替換成("John Doe","Missing")

graph.triplets.map(

triplet => triplet.srcAttr._1 +" is the " + triplet.attr +" of " + triplet.dstAttr

).collect.foreach(println(_))

//移除缺失的頂點和他們連接的邊,vpred 是subgraph方法的參數名稱

val validGrap = graph.subgraph(vpred = (id,attr) => attr._2 !="Missing")

validGrap.vertices.collect.foreach(println(_))

validGrap.triplets.map(

triplet=> triplet.srcAttr._1 +" is the "+ triplet.attr + " of " + triplet.dstAttr._1

).collect.foreach(println(_))

}

返回結果：

istoica is the collegaue of (franklin,prof)

rxin is the collab of (jgonzal,postdoc)

peter is the student of (John Doe,Missing)

franklin is the colleague of (John Doe,Missing)

franklin is the advisor of (rxin,student)

franklin is the pi of (jgonzal,postdoc)

(4,(peter,student))

(3,(rxin,student))

(7,(jgonzal,postdoc))

(5,(franklin,prof))

(2,(istoica,prof))

istoica is the collegaue of franklin

rxin is the collab of jgonzal

franklin is the advisor of rxin

franklin is the pi of jgonzal

例2：mask demo：

import org.apache.log4j.{Level, Logger}

import org.apache.spark.graphx.{Graph, Edge}

import org.apache.spark.{SparkContext, SparkConf}

/**

* Created by lichangyue on 2016/9/14.

object TestMask {

def main(args: Array[String]) {

Logger.getLogger("org.apache.spark").setLevel(Level.ERROR);

Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.ERROR);

val conf = new SparkConf().setMaster("local").setAppName("mask")

val sc = new SparkContext(conf)

val users = sc.parallelize(

Array((3L, ("rxin", "student")), (7L, ("jgonzal", "postdoc")),

(5L, ("franklin", "prof")), (2L, (

"istoica", "prof")),

(4L, ("peter", "student"))))

// Create an RDD for edges

val relationships = sc.parallelize(

Array(Edge(3L, 7L, "collab"), Edge(5L, 3L, "advisor"),

Edge(2L, 5L, "colleague"), Edge(5L, 7L, "pi"),

Edge(4L, 0L, "student"), Edge(5L, 0L, "colleague")))

// Define a default user in case there are relationship with missing user

val defaultUser = ("John Doe", "Missing")

val graph = Graph(users,relationships,defaultUser)

//connectedComponents源碼：返回連接成分的頂點值：包含頂點Id，頂點的屬性沒了

val ccGraph = graph.connectedComponents()

ccGraph.triplets.map(

triplet => " srcid:"+triplet.srcId +", dstID:" + triplet.dstId +",srcAttr：" + triplet.srcAttr + " ，attr： " + triplet.attr +" ，dstAttr： " + triplet.dstAttr

).collect().foreach(println(_))

val validGraph = graph.subgraph(vpred = (id,attr) => attr._2 !="Missing")

println("validGraph:")

validGraph.triplets.map(

triplet => " srcid:"+triplet.srcId +", dstID:" + triplet.dstId +",srcAttr：" + triplet.srcAttr + " ，attr： " + triplet.attr +" ，dstAttr： " + triplet.dstAttr

).collect().foreach(println(_))

val

validccGraph = ccGraph.mask(validGraph)

println("validCCGraph:")

validccGraph.triplets.map(

triplet => " srcid:"+triplet.srcId +", dstID:" + triplet.dstId +",srcAttr：" + triplet.srcAttr + " ，attr： " + triplet.attr +" ，dstAttr： " + triplet.dstAttr

).collect().foreach(println(_))

}

輸出結果：

graph:

srcid:2, dstID:5,srcAttr：(istoica,prof) ，attr： colleague ，dstAttr： (franklin,prof)

srcid:3, dstID:7,srcAttr：(rxin,student) ，attr： collab ，dstAttr： (jgonzal,postdoc)

srcid:4, dstID:0,srcAttr：(peter,student) ，attr： student ，dstAttr： (John Doe,Missing)

srcid:5, dstID:0,srcAttr：(franklin,prof) ，attr： colleague ，dstAttr： (John Doe,Missing)

srcid:5, dstID:3,srcAttr：(franklin,prof) ，attr： advisor ，dstAttr： (rxin,student)

srcid:5, dstID:7,srcAttr：(franklin,prof) ，attr： pi ，dstAttr： (jgonzal,postdoc)

ccGraph:

srcid:2, dstID:5,srcAttr：0 ，attr： colleague ，dstAttr： 0

srcid:3, dstID:7,srcAttr：0 ，attr： collab ，dstAttr： 0

srcid:4, dstID:0,srcAttr：0 ，attr： student ，dstAttr： 0

srcid:5, dstID:0,srcAttr：0 ，attr： colleague ，dstAttr： 0

srcid:5, dstID:3,srcAttr：0 ，attr： advisor ，dstAttr： 0

srcid:5, dstID:7,srcAttr：0 ，attr： pi ，dstAttr： 0

validGraph:

srcid:2, dstID:5,srcAttr：(istoica,prof) ，attr： colleague ，dstAttr： (franklin,prof)

srcid:3, dstID:7,srcAttr：(rxin,student) ，attr： collab ，dstAttr： (jgonzal,postdoc)

srcid:5, dstID:3,srcAttr：(franklin,prof) ，attr： advisor ，dstAttr： (rxin,student)

srcid:5, dstID:7,srcAttr：(franklin,prof) ，attr： pi ，dstAttr： (jgonzal,postdoc)

validCCGraph:

srcid:2, dstID:5,srcAttr：0 ，attr： colleague ，dstAttr： 0

srcid:3, dstID:7,srcAttr：0 ，attr： collab ，dstAttr： 0

srcid:5, dstID:3,srcAttr：0 ，attr： advisor ，dstAttr： 0

srcid:5, dstID:7,srcAttr：0 ，attr： pi ，dstAttr： 0

groupEdges將相同邊進行合併,e1和e2是需要合併的兩條邊的屬性。

import java.text.SimpleDateFormat

import org.apache.log4j.{Level, Logger}

import org.apache.spark.graphx.{Graph, Edge, VertexId}

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkContext, SparkConf}

/**

* Created by lichangyue on 2016/9/14.

object StructOpter {

def main(args: Array[String]) {

Logger.getLogger("org.apache.spark").setLevel(Level.ERROR);

Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.ERROR);

val conf = new SparkConf()

val sc =

new SparkContext("local","test",conf)

// day09-vertices.csv

// 1,Taro,100

// 2,Jiro,200

// 3,Sabo,300

val vertexLines :RDD[String] = sc.textFile("hdfs://S7SA053:8020/stat/subgraph-vertices.csv")

val v: RDD[(VertexId,(String,Long))] = vertexLines.map(line => {

val cols = line.split(",")

(cols(0).toLong,(cols(1),cols(2).trim.toLong))

})

val format = new SimpleDateFormat("yyyy/MM/dd")

// day09-01-edges.csv

// 1,2,100,2014/12/1

// 2,3,200,2014/12/2

// 3,1,300,2014/12/3

val edgeLines = sc.textFile("hdfs://S7SA053:8020/stat/subgraph-edges.csv")

val e = edgeLines.map(line=>{

val cols =line.split(",")

Edge(cols(0).toLong,cols(1).toLong,(cols(2).trim.toLong,format.parse(cols(3).trim)))

})

//創建圖

val graph = Graph(v,e)

println("\n\nconfirm Vertices Internal of graph")

graph.vertices.collect.foreach(println(_))

// (1,(Taro,100))

// (3,(Sabo,300))

// (2,(Jiro,200))

println("\n\nconfirm edge internal of graph")

graph.edges.collect.foreach(println(_))

// Edge(1,2,(100,Mon Dec 01 00:00:00 CST 2014))

// Edge(2,3,(200,Tue Dec 02 00:00:00 CST 2014))

// Edge(3,1,(300,Wed Dec 03 00:00:00 CST 2014))

//1.reverse 操作:邊的方向改變了

println("\n\nconfirm edges reversed graph")

graph.reverse.edges.collect.foreach(println)

// Edge(1,3,(300,Wed Dec 03 00:00:00 CST 2014))

// Edge(2,1,(100,Mon Dec 01 00:00:00 CST 2014))

// Edge(3,2,(200,Tue Dec 02 00:00:00 CST 2014))

/**2.subgraph*/

println("\n\nconfirm subgraphed vertices graph ")

//根據頂點條件建立子圖

graph.subgraph(vpred =(vid,v) => v._2 >= 200).vertices.collect.foreach(println(_))

// (3,(Sabo,300))

// (2,(Jiro,200))

println("\n\n confrim subgraph edges graph")

//根據邊條件建立子圖

graph.subgraph(epred =edge => edge.attr._1 >=200).edges.collect.foreach(println(_))

//頂點和邊同時加限制

val subgraph = graph.subgraph(

vpred=(vid,v) => v._2 >=200 ,

epred =edge => edge.attr._1 >= 200)

println("\n\n頂點和邊限制")

subgraph.edges.collect.foreach(println(_))

// Edge(2,3,(200,Tue Dec 02 00:00:00 CST 2014))

//3.mask

val maskedgraph = graph.mask(subgraph)

println("\nmask 操作")

//返回一個子圖，兩個圖的交集

maskedgraph.vertices.collect.foreach(println(_))

// (3,(Sabo,300))

// (2,(Jiro,200))

maskedgraph.edges.collect.foreach(println(_))

// Edge(2,3,(200,Tue Dec 02 00:00:00 CST 2014))

//4.groupEdge

// day09-02-edges.csv

// 1,2,100,2014/12/1

// 1,2,110,2014/12/11

// 2,3,200,2014/12/21

// 2,3,210,2014/12/2

// 3,1,300,2014/12/3

// 3,1,310,2014/12/31

val

edgeLines2 = sc.textFile("hdfs://S7SA053:8020/stat/edgegroup.csv")

val e2 = edgeLines2.map(line =>{

val cols = line.split(",")

Edge(cols(0).toLong,cols(1).toLong,(cols(2).trim.toLong,format.parse(cols(3))))

})

//構建第二個圖

val graph2 = Graph(v,e2)

//使用groupEdges將相同邊進行合併,e1和e2是需要合併的兩條邊的屬性

val edgeGroupedGraph = graph2.groupEdges(

merge =(e1,e2) => (e1._1 + e2._1,if(e1._2.getTime < e2._2.getTime) e1._2 else e2._2) )

println("\n\nconfirm merged edges graph")

edgeGroupedGraph.edges.collect.foreach(println)

// Edge(1,2,(210,Mon Dec 01 00:00:00 CST 2014))

// Edge(2,3,(410,Tue Dec 02 00:00:00 CST 2014))

// Edge(3,1,(610,Wed Dec 03 00:00:00 CST 2014))

sc.stop()

}

3.連接操作

(使用join操作修改屬性)

在許多情況下，有必要將外部數據加入到圖中。

例如，我們可能有額外的用戶屬性需要合併到已有的圖中或者我們可能想從一個圖中取出頂點特徵加入到另外一個圖中。這些任務可以用join操作完成。

join操作：

class Graph[VD, ED] {

def joinVertices[U](table: RDD[(VertexId, U)])(map: (VertexId, VD, U) => VD)

: Graph[VD, ED]

def outerJoinVertices[U, VD2](table: RDD[(VertexId, U)])(map: (VertexId, VD, Option[U]) => VD2)

: Graph[VD2, ED]

}

使用joinVertices操作，根據id進行連接,用user中的屬性替換圖中對應Id的屬性 ,默認不在users中的頂點的屬性不變。

使用outerJoinVertices將user中的屬性賦給graph中的頂點，如果圖中頂點不在user的RDD中，則賦值為None

注意，對於給定的頂點，如果RDD中有超過1個的匹配值，則僅僅使用其中的一個。建議用下面的方法保證輸入RDD的唯一性。下面的方法也會預索引返回的值用以加快後續的join操作。

val nonUniqueCosts: RDD[(VertexID, Double)]

val uniqueCosts: VertexRDD[Double] =

graph.vertices.aggregateUsingIndex(nonUnique, (a,b) => a + b)

val joinedGraph = graph.joinVertices(uniqueCosts)(

(id, oldCost, extraCost) => oldCost + extraCost)

例子說明：利用joinVertices和outJoinVertices對graph的頂點屬性進行修改

import org.apache.log4j.{Level, Logger}

import org.apache.spark.graphx.GraphLoader

import org.apache.spark.{SparkContext, SparkConf}

/**

* 例子說明：利用joinVertices和outJoinVertices對graph的頂點屬性進行修改

* Created by lichangyue on 2016/9/18.

object TestJoin {

def main(args: Array[String]) {

Logger.getLogger("org.apache.spark").setLevel(Level.ERROR);

Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.ERROR);

val conf = new SparkConf()

val sc = new SparkContext ("local","test",conf)

// 利用edge信息生成圖

// dataset info

// 1 2

// 2 3

// 3 1

val graph = GraphLoader.edgeListFile(sc, "hdfs://S7SA053:8020/stat/join-edges.tsv").cache()

// 以[vid, name]形式讀取vertex信息

// day03-vertices.csv

// 1,Taro

// 2,Jiro

val vertexLines = sc.textFile("hdfs://S7SA053:8020/stat/join-vertices.tsv")

val users = vertexLines.map(line =>{

val cols = line.split(",")

(cols(0).toLong, cols(1))

})

// 將users中的vertex屬性添加到graph中，生成graph2

// 使用joinVertices操作，根據id進行連接,用user中的屬性替換圖中對應Id的屬性 ,默認不在users中的頂點的屬性不變。

// 先將圖中的頂點屬性置空

//((vid,attr,user) =>user) 是個map函數

val graph2 = graph.mapVertices((id,attr) => "").joinVertices(users)(

(vid,attr,user) =>user)

println("\n\nConfirm vertices Internal of graph2")

graph2.vertices.collect().foreach(println(_))

// (1,Taro )

// (3,)

// (2,Jiro)

// 使用outerJoinVertices將user中的屬性賦給graph中的頂點，如果圖中頂點不在user的RDD中，則賦值為None

val graph3 = graph.mapVertices((id,attr)=> "").outerJoinVertices(users){

(vid,attr,user) => user.getOrElse("None")}

println("\n\nconfirm vertices Internal of graph3 ")

graph3.vertices.collect.foreach(println(_))

//(1,Taro )

//(3,None)

//(2,Jiro)

// 結果表明，如果graph的頂點在user中，則將user的屬性賦給graph中對應的頂點，否則賦值為None

sc.stop()

}

4.相鄰聚合（Neighborhood Aggregation）

圖分析任務的一個關鍵步驟是彙總每個頂點附近的信息。例如我們可能想知道每個用戶的追隨者的數量或者每個用戶的追隨者的平均年齡。許多迭代圖算法（如PageRank，最短路徑和連通體）多次聚合相鄰頂點的屬性。

為了提高性能，主要的聚合操作從graph.mapReduceTriplets改為了新的graph.AggregateMessages。

4.1.聚合消息

GraphX中的核心聚合操作是aggregateMessages⇒Unit,(A,A)⇒A,TripletFields)(ClassTag[A]):VertexRDD[A])。這個操作將用戶定義的sendMsg函數應用到圖的每個邊三元組(edge triplet)，然後應用mergeMsg函數在其目的頂點聚合這些消息。

aggregateMessages 用於做map和reduce操作

class Graph[VD, ED] {

def aggregateMessages[Msg: ClassTag](

sendMsg: EdgeContext[VD, ED, Msg] => Unit,

mergeMsg: (Msg, Msg) => Msg,

tripletFields: TripletFields = TripletFields.All)

: VertexRDD[Msg]

}

其中用到的Graph類的API

mapReduceTriplets():計算每個節點的相鄰的邊緣和頂點的值，用戶定義的mapFunc函數會在圖的每一條邊調用，產生0或者多個message發送到這條邊兩個頂點其中一個當中，reduceFunc函數用來合併map階段的輸出到每個節點。

例：用aggregateMessages操作計算每個用戶更年長的追隨者的平均年齡。

import org.apache.log4j.{Level, Logger}

import org.apache.spark.graphx.VertexRDD

import org.apache.spark.graphx.util.GraphGenerators

import org.apache.spark.{SparkContext, SparkConf}

/**

* Created by lichangyue on 2016/9/18.

object TestAggregateMessage {

def main(args: Array[String]) {

Logger.getLogger("org.apache.spark").setLevel(Level.ERROR);

Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.ERROR);

val conf = new SparkConf()

val sc = new SparkContext("local","text",conf)

// Create a graph with "age" as the vertex property. Here we use a random graph for simplicity.

val graph = GraphGenerators.logNormalGraph(sc,numVertices = 10)

.mapVertices((id,_) => id.toDouble)

graph.vertices.collect.foreach(println(_))

graph.edges.collect.foreach(println(_))

// Compute the number of older followers and their total age

val olderFollowers:VertexRDD[(Int,Double)] = graph.aggregateMessages[(Int,Double)](

triplet =>{// Map Function

if(triplet.srcAttr > triplet.dstAttr){

// Send message to destination vertex containing counter and age

triplet.sendToDst(1, triplet.srcAttr)

}

(a,b) => (a._1 + b._1, a._2 + b._2)// Reduce Function, 對sendToDst 中的值做reduce操作

)

println("")

olderFollowers.collect.foreach(println(_))

// (4,(2,17.0))

// (0,(4,18.0))

// (1,(3,11.0))

// (6,(3,24.0))

// (3,(3,18.0))

// (7,(2,17.0))

// (8,(2,18.0))

// (5,(2,16.0))

// (2,(2,16.0))

val avgAgeOfOlderFollowers = olderFollowers.mapValues((id,value) =>value match{

case (count,totalAge) => totalAge/count

})

avgAgeOfOlderFollowers.collect().foreach(println(_))

// (4,8.5)

// (0,4.5)

// (1,3.6666666666666665)

// (6,8.0)

// (3,6.0)

// (7,8.5)

// (8,9.0)

// (5,8.0)

// (2,8.0)

}

4.2.計算度信息

最一般的聚合任務就是計算頂點的度，即每個頂點相鄰邊的數量。在有向圖中，經常需要知道頂點的入度、出度以及總共的度。GraphOps 類包含一個操作集合用來計算每個頂點的度。例如，下面的例子計算最大的入度、出度和總度。

// Define a reduce operation to compute the highest degree vertexdef max(a: (VertexId, Int), b: (VertexId, Int)): (VertexId, Int) = {

if (a._2 > b._2) a else b

}

// Compute the max degreesval maxInDegree: (VertexId, Int) = graph.inDegrees.reduce(max)

val maxOutDegree: (VertexId, Int) = graph.outDegrees.reduce(max)

val maxDegrees: (VertexId, Int) = graph.degrees.reduce(max)

4.3. collecting Neighbors

在某些情況下，通過收集每個頂點相鄰的頂點及它們的屬性來表達計算可能更容易

class GraphOps[VD, ED] {

def collectNeighborIds(edgeDirection: EdgeDirection): VertexRDD[Array[VertexId]]

def collectNeighbors(edgeDirection: EdgeDirection): VertexRDD[ Array[(VertexId, VD)] ]

}

例：計算degree和neighbor

import org.apache.log4j.{Level, Logger}

import org.apache.spark.graphx.{EdgeDirection, VertexId, GraphLoader}

import org.apache.spark.{SparkConf, SparkContext}

/**

* Created by lichangyue on 2016/9/18.

object TestDegree {

def main(args: Array[String]) {

Logger.getLogger("org.apache.spark").setLevel(Level.ERROR);

Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.ERROR);

val conf = new SparkConf()

val sc = new SparkContext("local", "test"

, conf)

// 2 1

// 3 1

// 4 1

// 5 1

// 1 2

// 4 3

// 5 3

// 1 4

val graph = GraphLoader.edgeListFile(sc, "hdfs://S7SA053:8020/stat/degree.csv").cache()

println("\n\nConfirm vertices Internal of graph")

graph.vertices.collect().foreach(println(_))

// (4,1)

// (2,1)

// (1,1)

// (3,1)

// (5,1)

println("\n\n confirm edges internal of grahp")

graph.edges.collect.foreach(println(_))

// Edge(2,1,1)

// Edge(3,1,1)

// Edge(4,1,1)

// Edge(5,1,1)

// Edge(1,2,1)

// Edge(1,4,1)

// Edge(4,3,1)

// Edge(5,3,1)

//1.degree

println("\n\nconfirm indegrees")

graph.inDegrees.collect.foreach(d => println(d._1 + "'s inDegree is " + d._2))

// 4's inDegree is 1

// 1's inDegree is 4

// 3's inDegree is 2

// 2's inDegree is 1

println("\n\n confirm outDegrees")

graph.outDegrees.collect.foreach(d => println(d._1 + "'s outDegree is " + d._2))

// 4's outDegree is 2

// 1's outDegree is 2

// 3's outDegree is 1

// 5's outDegree is 2

// 2's outDegree is 1

println("\n\n cofirm degrees"

)

graph.degrees.collect.foreach(d => println(d._1 + "'s degree is " + d._2))

// 4's degree is 3

// 1's degree is 6

// 3's degree is 3

// 5's degree is 2

// 2's degree is 2

def max(a: (VertexId, Int), b: (VertexId, Int)): (VertexId, Int) = {

if (a._2 > b._2) a else b

}

println("\n\nconfirm max indegrees")

println(graph.inDegrees.reduce(max))

// (1,4)

//2.collectNeighborIds

println("\n\nconfirm collectNerighber(In)")

graph.collectNeighborIds(EdgeDirection.In)

.collect

.foreach(n => println(n._1 + "'s in nerghbors:" + n._2.mkString(","

)))

// 4's in neighbors : 1

// 2's in neighbors : 1

// 1's in neighbors : 2,3,4,5

// 3's in neighbors : 4,5

// 5's in neighbors :

println("\n\nconfirm collectNeighborIds(OUT)")

graph.collectNeighborIds(EdgeDirection.Out)

.collect

.foreach(n => println(n._1 + "'s out neighbors:" + n._2.mkString(",")))

// 4's out neighbors:1,3

// 1's out neighbors:2,4

// 3's out neighbors:1

// 5's out neighbors:1,3

// 2's out neighbors:

println("\n\n~~~~~~~~~ Confirm collectNeighborIds(Either) ")

graph.collectNeighborIds(EdgeDirection.Either).collect.foreach(n => println(n._1 + "'s neighbors : " + n._2.distinct.mkString(",")))

// 4's neighbors : 1,3

// 2's neighbors : 1

// 1's neighbors : 2,3,4,5

// 3's neighbors : 1,4,5

// 5's neighbors : 1,3

//3.collectNeighbor~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

println("\n\nconfirm collectNeighbors(IN)")

graph.collectNeighbors(EdgeDirection.In)

.collect

.foreach(n => println(n._1 + "'s in berghbors :" + n._2.mkString(",")))

// 4's in berghbors :(1,1)

// 1's in berghbors :(2,1),(3,1),(4,1),(5,1)

// 3's in berghbors :(4,1),(5,1)

// 5's in berghbors :

// 2's in berghbors :(1,1)

println("\n\n~~~~~~~~~ Confirm collectNeighbors(OUT) ")

graph.collectNeighbors(EdgeDirection.Out).collect.foreach(n => println(n._1 + "'s out neighbors : " + n._2.mkString(",")))

// 4's out neighbors : (1,1),(3,1)

// 1's out neighbors : (2,1),(4,1)

// 3's out neighbors : (1,1)

// 5's out neighbors : (1,1),(3,1)

// 2's out neighbors : (1,1)

println("\n\n~~~~~~~~~ Confirm collectNeighbors(Either) ")

graph.collectNeighbors(EdgeDirection.Either).collect.foreach(n => println(n._1 + "'s neighbors : " + n._2.distinct.mkString(",")))

// 4's neighbors : (1,1),(3,1)

// 2's neighbors : (1,1)

// 1's neighbors : (2,1),(3,1),(4,1),(5,1)

// 3's neighbors : (1,1),(4,1),(5,1)

// 5's neighbors : (1,1),(3,1)

sc.stop

}

5.緩存和不緩存

在Spark中，RDDs默認是不緩存的。為了避免重複計算，當需要多次利用它們時，我們必須顯示地緩存它們。GraphX中的圖也有相同的方式。當利用到圖多次時，確保首先訪問Graph.cache()方法。

分享到:

閱讀更多 從大數據說起 的文章

關鍵字: HDFS Line 屬性

Spark-local本地環境搭建

Spark SQL

Spark 網頁式開發（五）

Spark SQL 使用反射推斷模式

Spark SQL簡介

Spark 安裝教程

Spark RDD介紹

Spark 簡介與特徵

Spark 網頁式開發（二）

Spark 網頁式開發（一）

spark-submit之後，spark集群內發生了什麼？讓我們一探究竟

03.02 Spark+Zookeeper搭建高可用Spark集群

Spark SQL常見4種數據源詳解

Spark 機器學習四大類算法

Spark for Java: SparkCore RDD Value類型方法案例

Spark SQL概述

12.21 Spark RDD 概念以及核心原理

Spark Troubleshooting（故障排除）

Spark 數據傾斜解決方案

Spark JVM調優

Spark Shuffle調優

Spark 算子調優

Spark 常規性能調優

Spark BlockManager解析

Spark 內存管理

Spark-Core：調度

大數據乾貨分享：Spark Streaming 數據清理機制

Spark 核心概念

Spark Streaming狀態管理函數的選擇比較

hive on spark,spark sql 對比測試結果相差很大

Spark，從入門到精通

Hello Spark!

Spark Standalone集群模式部署（Window）及其Python開發環境搭建

11.14 Spark——診斷內存消耗

Spark-關於Shuffle

Spark 處理大數據的異常解決方案彙總

Spark Streaming VS Flink

Spark SQL與DataFrame詳解以及使用

Spark 彈性分佈式數據集（RDD）

Spark SQL支持的功能測試

Spark Shuffle 過程

spark-sql對多層級parquet支持

spark hadoop數據傾斜問題

Spark Runtime概述

Spark Streaming的容錯

Spark 讀取單個文本文件速度很慢解決方法

大數據實戰：spark DataFrame的union函數使用時的坑

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"

Spark Graphx的API操作

1.屬性操作：

2.結構性操作

4.相鄰聚合（Neighborhood Aggregation）

5.緩存和不緩存

相關文章:

Spark-local本地環境搭建

Spark SQL

Spark 網頁式 開發 （五）

Spark SQL 使用反射推斷模式

Spark SQL簡介

Spark 安裝教程

Spark RDD介紹

Spark 簡介與特徵

Spark 網頁式 開發 （二）

Spark 網頁式開發（一）

spark-submit之後，spark集群內發生了什麼？讓我們一探究竟

03.02 Spark+Zookeeper搭建高可用Spark集群

Spark SQL常見4種數據源詳解

Spark 機器學習四大類算法

Spark for Java: SparkCore RDD Value類型方法案例

Spark SQL概述

12.21 Spark RDD 概念以及核心原理

Spark Troubleshooting（故障排除）

Spark 數據傾斜解決方案

Spark JVM調優

Spark Shuffle調優

Spark 算子調優

Spark 常規性能調優

Spark BlockManager解析

Spark 內存管理

Spark-Core：調度

大數據乾貨分享：Spark Streaming 數據清理機制

Spark 核心概念

Spark Streaming狀態管理函數的選擇比較

hive on spark,spark sql 對比測試結果相差很大

Spark，從入門到精通

Hello Spark!

Spark Standalone集群模式部署（Window）及其Python開發環境搭建

11.14 Spark——診斷內存消耗

Spark-關於Shuffle

Spark 處理大數據的異常解決方案彙總

Spark Streaming VS Flink

Spark SQL與DataFrame詳解以及使用

Spark 彈性分佈式數據集（RDD）

Spark SQL支持的功能測試

Spark Shuffle 過程

spark-sql對多層級parquet支持

spark hadoop數據傾斜問題

Spark Runtime概述

Spark Streaming的容錯

Spark 讀取單個文本文件速度很慢解決方法

大數據實戰：spark DataFrame的union函數使用時的坑

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

Spark 網頁式開發（五）

Spark 網頁式開發（二）

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪