- 一个是filter提供条件时,条件的交集,一个是两个pyspark DataFrame 取交集
- 前者会有重复的行,后者则没有
举例说明,假设我们有如下的pyspark DataFrame文章来源:https://uudwc.com/A/X3m0r
d=[[-1],[1],[1],[2],[3],[4]]
df=spark.createDataFrame(d,['id'])
df.show()
'''
+---+
| id|
+---+
| -1|
| 1|
| 1|
| 2|
| 3|
| 4|
+---+
'''
1 第一种方法,使用 filter和&
df.filter(df['id']>0 & df['id']<=2).show()
'''
这样会报错,在pyspark中,各个条件需要括号括起来以示区分
'''
df.filter((df['id']>0)&(df['id']<=2)).show()
'''
+---+
| id|
+---+
| 1|
| 1|
| 2|
+---+
'''
#会发现有两行重复的1
2 第二种方法 使用intersect
a=df.filter(df['id']>0)
a.show()
'''
+---+
| id|
+---+
| 1|
| 1|
| 2|
| 3|
| 4|
+---+
'''
b=df.filter(df['id']<=2)
b.show()
'''
+---+
| id|
+---+
| -1|
| 1|
| 1|
| 2|
+---+
'''
a.intersect(b).show()
'''
+---+
| id|
+---+
| 1|
| 2|
+---+
'''
#此时没有重复列了
2.1 只有完全一模一样的行intersect才会去掉
d=[[1,3],[1,3],[1,4],[2,5],[3,6],[4,7]]
df=spark.createDataFrame(d,['id','a'])
df.show()
'''
+---+---+
| id| a|
+---+---+
| 1| 3|
| 1| 3|
| 1| 4|
| 2| 5|
| 3| 6|
| 4| 7|
+---+---+
'''
a=df.filter(df['id']>0)
b=df.filter(df['id']<=2)
a.intersect(b).show()
'''
+---+---+
| id| a|
+---+---+
| 1| 4|
| 1| 3|
| 2| 5|
+---+---+
'''
文章来源地址https://uudwc.com/A/X3m0r