'csv to parquet save' 태그의 글 목록

csv to parquet save

Apache Spark 에서 데이터 테스트를 위한 Scala 스크립트 몇가지 2019.09.29

Apache Spark 에서 데이터 테스트를 위한 Scala 스크립트 몇가지

에리스 2019. 9. 29. 21:15

2019. 9. 29. 21:15

윈도우 환경에서 임시 테스트 해봄. spark 2.3.0

#Parquet 파일에서 data frame 읽기

val df = spark.read.parquet("d:\\test.parquet")
df.createOrReplaceTempView("TestView")
var namesdf = spark.sql("SELECT RoundX FROM TestView WHERE Col = 31 AND Row = 40")
namesdf.count()
namesdf.map(attributes => "Name: " + attributes(0)).show()

#csv 파일에서 data frame 읽기

import org.apache.spark.sql.types._

val schema= StructType(Array(
    StructField("PosX",        FloatType,false),
    StructField("PosY",        FloatType,false),
    StructField("Col",             ShortType,true),
    StructField("Row",         ShortType,true),
    StructField("Id",    IntegerType,true),
    StructField("Label",            StringType,true)))

val df = spark.read.format("csv").option("header", "false").option("delimiter", ",").schema(schema).load("test001.csv")

#dataframe을 하나의 Parquet 파일로 저장하기.

df.coalesce(1).write.format("parquet").mode("append").save("d:\\tmp\\test003.parquet")

#dataset을 하나의 Parquet 파일로 저장하기

tiny = spark.sql("SELECT * FROM db.big_table LIMIT 500")
tiny.repartition(1).write.parquet("d:\\tmp\db.tiny_table.parquet")

#scala script 읽기

spark-shell에서

:load test.scala

'설정' 카테고리의 다른 글

처음학교로 nprotect키보드 입력 문제 해결 (0)	2019.11.19
Visual Studio 2019 / CUDA 10.1 템플릿 설정하기 (8)	2019.10.27
cmd 명령 프롬프트 항상 관리자 모드로 열기 (1)	2019.05.28
동영상 처리 관련 유용한 무료 프로그램 (0)	2019.04.07
svn 접속 오류 (1)	2019.04.02

PREV 이전 1 NEXT 다음

빅코드