사내에 AWS EMR을 만드는 스크립트가 있었는데, 중간에 기능 추가를 하려면 다 같이 쓰는 코드를 바꿔야 해서 clone을 하고 중간에 software 등을 추가했는데 clone한 곳에서는 glue 연동이 제대로 되지 않는 문제가 있었다.
software 탭에 glue를 옵션으로 추가하는 경우가 있어서 이 부분을 사용하니 잘 됐다.
그런데 기존 데이터를 백필하는 경우에 glue가 기존 partition을 인식을 못 하는 지 기존에 존재하는 모든 partition을 삭제하고 해당한 partition만 만들어졌다. (기존의 파티션 내의 데이터는 delete marker 로 삭제된 상태)
그래서 스크립트 내에서 일단 추가하여 해결은 했는데, clone인데 왜 안 불러오는 설정이 있는 지 잘 이해가 되진 않는데 추측으론, aws에서 제공하는 방식이 아닌 다른 방식이라 뭔가 누락되는가 보다.
'Programming > Tip&Informaion' 카테고리의 다른 글
[Spark] 파티션 별로 다른 스키마를 가졌을 때 파일 읽어오기 (0) | 2022.04.18 |
---|---|
자바스크립트로 s3 delete marker 노가다 줄이기 (0) | 2022.02.26 |
[IntelliJ] 실수로 파일 및 폴더 이동 방지 (0) | 2022.02.11 |
[실수노트] json에 대해서.. (number 타입) (0) | 2022.02.07 |
[실수노트] crontab이 실행이 안 되나? 타임존 문제 (0) | 2021.09.28 |