[Spark] 파티션 별로 다른 스키마를 가졌을 때 파일 읽어오기

과거 데이터에서 현재는 다른 컬럼이 추가된 상태에서 데이터를 한 번에 읽으려고

/*
데이터 경로가
source/dir/1/
컬럼수 8개
source/dir/2/
컬럼수 10개 라고 가정
*/

spark.read.orc("source/dir/")

로 읽으려고 하니 8개만 읽어오는 문제가 발생했다.

spark.read.option("mergeSchema", "true").orc("Dir/")

로 해서 전체 데이터를 읽어올 수 있었다.

vim에서 한글 상태일 때 esc키 세팅 (0)	2022.07.17
[Karabiner] 키보드 세팅 (남은 한자, 한글 키 사용) (1)	2022.07.17
자바스크립트로 s3 delete marker 노가다 줄이기 (0)	2022.02.26
[실수노트] AWS EMR clone 시 문제 (glue 설정) (0)	2022.02.26
[IntelliJ] 실수로 파일 및 폴더 이동 방지 (0)	2022.02.11

Publivate