과거 데이터에서 현재는 다른 컬럼이 추가된 상태에서 데이터를 한 번에 읽으려고
/*
데이터 경로가
source/dir/1/
컬럼수 8개
source/dir/2/
컬럼수 10개 라고 가정
*/
spark.read.orc("source/dir/")
로 읽으려고 하니 8개만 읽어오는 문제가 발생했다.
spark.read.option("mergeSchema", "true").orc("Dir/")
로 해서 전체 데이터를 읽어올 수 있었다.
'Programming > Tip&Informaion' 카테고리의 다른 글
vim에서 한글 상태일 때 esc키 세팅 (0) | 2022.07.17 |
---|---|
[Karabiner] 키보드 세팅 (남은 한자, 한글 키 사용) (2) | 2022.07.17 |
자바스크립트로 s3 delete marker 노가다 줄이기 (0) | 2022.02.26 |
[실수노트] AWS EMR clone 시 문제 (glue 설정) (0) | 2022.02.26 |
[IntelliJ] 실수로 파일 및 폴더 이동 방지 (0) | 2022.02.11 |