본문 바로가기

용량

(3)
[Spark/hdfs] 데이터노드 디스크 확보 에러 발생 An error occurred while calling None.org.apache.spark.api.java.JavaSparkContext. : org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /user/.sparkStaging/application_1681262849232_2058/hive-site.xml could only be written to 0 of the 1 minReplication nodes. There are 1 datanode(s) running and 1 node(s) are excluded in this operation. hdfs 용량 확인 hdfs dfs -df -h hdfs 로그 삭제 hdfs ..
[postgresql/docker] postmaster.pid: No space left on device 에러 airflow 가 중간에 종료된 후, 재기동이 되지 않아 찾아보니 postgresql이 실행되지 않아 worker 등이 제대로 실행되지 않았다. 로그를 확인하니 FATAL: could not write lock file "postmaster.pid": No space left on device 나왔다. docker 관련 용량 문제로 추정돼서 docker volume prune 을 했으나 여전히 안 됨 docker system prune -a 해서 성공했다. -------- 임시 방편일 뿐 해결되지 않아서 https://aws.amazon.com/ko/premiumsupport/knowledge-center/ebs-volume-size-increase/ Amazon EBS에서 ‘No space left o..
[DataScience] pandas의 대안은? modin, dask, vaex 비교하기 데이터 사이언스를 시작할 때 주로 사용하는 언어는 R과 Python이 있습니다. 보통 개발을 시작하신 분들은 python으로 주로 입문하게 되죠. 이 때 주로 사용하는 라이브러리는 Pandas 라는 라이브러리입니다. pandas 는 여러 파일을 파싱하는 것부터 전체 데이터 테이블을 NumPy 형태의 행렬 배열로 변환하는 다양하게 이용가능 합니다. 이런 기능들이 pandas가 데이터 사이언스와 머신러닝에서 잘 사용되는 이유입니다. 이런 pandas에게도 단점이 있으니 데이터가 많아질 수록 사용하는 메모리가 늘어나고 속도가 느려진다는 것입니다. 물론 pandas에서 천만 row도 처리 가능할 수 있지만, 그 경우에 10기가의 메모리가 필요합니다. 또한 pandas는 싱글코어로만 작동하고 ram의 범위 안에서..