본문 바로가기

Programming/Tip&Informaion

[Spark] 파티션 별로 다른 스키마를 가졌을 때 파일 읽어오기

과거 데이터에서 현재는 다른 컬럼이 추가된 상태에서 데이터를 한 번에 읽으려고

 

/*
데이터 경로가
source/dir/1/
컬럼수 8개
source/dir/2/
컬럼수 10개 라고 가정
*/

spark.read.orc("source/dir/")

로 읽으려고 하니 8개만 읽어오는 문제가 발생했다.

 

spark.read.option("mergeSchema", "true").orc("Dir/")

 

로 해서 전체 데이터를 읽어올 수 있었다.