윈도우 환경에서 임시 테스트 해봄. spark 2.3.0
#Parquet 파일에서 data frame 읽기
val df = spark.read.parquet("d:\\test.parquet")
df.createOrReplaceTempView("TestView")
var namesdf = spark.sql("SELECT RoundX FROM TestView WHERE Col = 31 AND Row = 40")
namesdf.count()
namesdf.map(attributes => "Name: " + attributes(0)).show()
#csv 파일에서 data frame 읽기
import org.apache.spark.sql.types._
val schema= StructType(Array(
StructField("PosX", FloatType,false),
StructField("PosY", FloatType,false),
StructField("Col", ShortType,true),
StructField("Row", ShortType,true),
StructField("Id", IntegerType,true),
StructField("Label", StringType,true)))
val df = spark.read.format("csv").option("header", "false").option("delimiter", ",").schema(schema).load("test001.csv")
#dataframe을 하나의 Parquet 파일로 저장하기.
df.coalesce(1).write.format("parquet").mode("append").save("d:\\tmp\\test003.parquet")
#dataset을 하나의 Parquet 파일로 저장하기
tiny = spark.sql("SELECT * FROM db.big_table LIMIT 500")
tiny.repartition(1).write.parquet("d:\\tmp\db.tiny_table.parquet")
#scala script 읽기
spark-shell에서
:load test.scala
'설정' 카테고리의 다른 글
처음학교로 nprotect키보드 입력 문제 해결 (0) | 2019.11.19 |
---|---|
Visual Studio 2019 / CUDA 10.1 템플릿 설정하기 (8) | 2019.10.27 |
cmd 명령 프롬프트 항상 관리자 모드로 열기 (1) | 2019.05.28 |
동영상 처리 관련 유용한 무료 프로그램 (0) | 2019.04.07 |
svn 접속 오류 (1) | 2019.04.02 |