버그 (3) 썸네일형 리스트형 [실수노트] aws에서 여러 eks cluster에서 karpenter 운영 시 실수 1. 최초 설정 시, vpc의 region 별로 subnet을 지정하여 사용하도록 되어 있다. 이걸 subnet에 tag를 지정해서 사용하게 된다. 나중에 생성한 karpenter에서 같은 subnet을 사용할 경우 같은 tag key를 수정하게 돼서 기존의 karpenter가 정상적으로 작동하지 않게 된다. provisioner crd에서 subnet 지정 시, 기존 것과 동일하게 하여 처리하자. 2. karpenter에서는 신규 pod의 pending 상태를 인식해서 신규 instance를 생성까진 했는데, eks에선 해당 instance가 생성된 걸 인식하지 못 하는 현상이 발생했다. 여러가지 확인을 해보니, ec2의 security group이 이전에 생성했던 eks cluster의 securit.. mwaa에서 ModuleNotFoundError 발생 시 대처 (v2.4.3) mwaa에서 reqirements.txt 파일을 통해 라이브러리를 다운받은 후, 실행 시에 에러가 발생했다. ModuleNotFoundError: No module named 'lib.name'; 'lib' is not a package 분명히 설치까진 잘 됐는데, import에서 에러가 발생했다. (비슷하게 관련 프로퍼티가 없다는 식의 에러도 있다.) 원인을 파악하니 custom operator를 만들어서 사용하고 있었는데, 이 operator의 파일명이 라이브러리명이랑 동일할 경우, 라이브러리가 아닌 해당 파일을 import해서 발생한 문제였다. mwaa에서의 버그인 지, airflow 2버전에서 변경사항인 지는 모르겠지만, 굉장히 이상하게 사용이 되고 있는 것 같다. [colab] cuda error device-side assert triggered 모델 학습 후, 예측을 진행하려 하니 cuda error device-side assert triggered 오류가 나왔다. 구글링 결과 batch 사이즈를 줄이라고 했는데, 내 경우에는 줄여도 되지 않았다. 다른 글을 찾아보니, class의 불균형 문제 때문에 그럴 수도 있다고 한다. python의 imblearn 라이브러리를 활용해서 oversampling이나 undersampling을 통해 class의 개수를 비슷하게 맞춰주니 잘 작동했다. 이전 1 다음