LOG (3) 썸네일형 리스트형 [Spark] spark event log 로 데이터 사용량 추출 (event log 구조 분석) 데이터 라이프 사이클 관리를 위해 실제 데이터가 사용이 되는 지를 추적하고자 spark history server 에서 /applications/[app-id]/sql 방식으로 정리된 데이터를 바탕으로 실제 데이터 사용 여부를 추적하고 있었다.emr on eks를 적용한 이후로 spark history server 도 일회성으로 사라지고 있어서 자체 spark history server를 띄워서 사용하고 있었는데, 이렇게 사용할 경우 위의 api를 사용하면 event log가 클 경우에 서버에 과부하가 가게 되면서 추출에 어려움이 생겼다.그래서 해결 방안으로 적재된 event log에서 직접 데이터를 추출해보는 것을 목표로 하였다. 실제 사용된 이벤트에 대해 정리event log 구조는 여러 json 형.. [go/gin] log에 request, response 출력하기 1. 로그 형식을 json 형태로 출력 (https://stackoverflow.com/a/73936927)func jsonLoggerMiddleware() gin.HandlerFunc { return gin.LoggerWithFormatter( func(params gin.LogFormatterParams) string { log := make(map[string]interface{}) log["status_code"] = params.StatusCode log["path"] = params.Path log["method"] = params.Method log["start_time"] =.. [Spark] spark history server 띄울 때, iam 권한으로 s3 읽기 emr on eks를 적용하면 spark history server를 사용하고 싶은데, ec2의 주소로 접근이 어려워서 직접 띄우기로 하였다. event log 설정과 docker를 활용한 띄우기는 아래 글들을 참고하여서 로컬에서 테스트는 잘 진행했다. https://aws.github.io/aws-emr-containers-best-practices/troubleshooting/docs/self-hosted-shs/ Self Hosted SHS - EMR Containers Best Practices GuidesSelf Hosted Spark History Server In this section, you will learn how to self host Spark History Server inste.. 이전 1 다음