Programming/Tip&Informaion (69) 썸네일형 리스트형 [zookeeper] standalon 설치 시, FAILED TO START 에러 standalone 설치 mirror.cc.columbia.edu/pub/software/apache/zookeeper/zookeeper-3.6.2/ Index of /pub/software/apache/zookeeper/zookeeper-3.6.2 mirror.cc.columbia.edu 에서 apache-zookeeper-3.6.2-bin.tar.gz 다운로드 후, 압축해제: tar -zxf apache-zookeeper-3.6.2-bin.tar.gz 적당한 위치로 이동: mv apache-zookeeper-3.6.2-bin/ /usr/local/zookeeper 데이터 디렉토리 생성: mkdir -p /var/lib/zookeeper config 설정: cd /usr/local/zookeepr/co.. [DataScience] DB SQL과 연동하기 DB에 있는 데이터를 가지고 활용하여 분석하는 방법을 소개하겠습니다. 물론 DB에 있는 데이터들을 csv 파일로 저장해서 사용할 수 있지만, 그런 것보다는 DB에 있는 데이터를 직접 불러오는 게 더 효율적이기 때문입니다. 또한, csv 파일이너무 클 경우 대부분의 데이터 핸들링을 DB에서 진행한 후 결과만 가져 온다면 메모리 면에서 훨씬 효율적일 것이라고 예상합니다. 저는 간단히 진행할 것이기에 sqlite 를 활용해보겠습니다. 우선 sqlite 관련 라이브러리를 설치합니다. !pip install pysqlite3 라이브러리를 불러옵시다. import sqlite3 import pandas as pd DB 연결 conn = sqlite3.connect('example.db') cursor 등록 *cur.. [scikit-learn] 사이킷런의 regression 사이킷런을 사용은 해봤지만 공식 사이트는 잘 가보지 못 했는데, 강의를 통해서 들렀는데 제 생각보다 엄청 잘 되어 있어서 놀랐습니다. 그래서 사이킷런 사이트만으로 얼마나 정보를 얻을 수 있는 지 알아보겠습니다. 우선 사이킷런 사이트에선 estimator를 고르는 맵을 제공해줍니다. (저 같은 초보자에겐 정말 좋은 자료 같네요.) scikit-learn.org/stable/tutorial/machine_learning_map/index.html START에서 시작해보겠습니다. 우선, 저는 numerical 변수를 regression으로 예측할 것입니다. 1. sample 데이터가 50보다 큰가? No면 데이터를 더 모으라고 하네요. Yes로 가겠습니다. 2. 예측할 변수가 category 형태인가? No로.. [DataScience] pandas의 대안은? modin, dask, vaex 비교하기 데이터 사이언스를 시작할 때 주로 사용하는 언어는 R과 Python이 있습니다. 보통 개발을 시작하신 분들은 python으로 주로 입문하게 되죠. 이 때 주로 사용하는 라이브러리는 Pandas 라는 라이브러리입니다. pandas 는 여러 파일을 파싱하는 것부터 전체 데이터 테이블을 NumPy 형태의 행렬 배열로 변환하는 다양하게 이용가능 합니다. 이런 기능들이 pandas가 데이터 사이언스와 머신러닝에서 잘 사용되는 이유입니다. 이런 pandas에게도 단점이 있으니 데이터가 많아질 수록 사용하는 메모리가 늘어나고 속도가 느려진다는 것입니다. 물론 pandas에서 천만 row도 처리 가능할 수 있지만, 그 경우에 10기가의 메모리가 필요합니다. 또한 pandas는 싱글코어로만 작동하고 ram의 범위 안에서.. [환경구축] 아치 리눅스, venv 부터 jupyter notebook 까지 OS 재설치 이후, jupyter 환경없이 colab만 사용했는데 데이터가 커지니 연결이 끊기는 상황이 발생해서 로컬에 다시 jupyter 환경을 구축했습니다.이 과정에 대한 정리한 내용입니다. 0. python 및 pip 설치저는 이미 python 과 pip 가 설치되어 있어서 설치가 필요하지 않지만, 혹시 몰라 적어둡니다. $ sudo pacman -S python3$ sudo pacman -S python-pip 1. venv를 사용하여 가상환경 구축 python3 부터는 venv가 내장되어 있어, python 에서 실행이 가능하다.*venv: python의 경우 프로젝트마다 사용하는 라이브러리의 버전 등이 상이한 경우가 많다. (ex. tensorflow 1.x / 2.x / gpu) 이 경우 라.. A/B 테스트 A/B 테스트: 두 집단 평균 비교, 비율 비교 t테스트: 두 집단 평균 비교 기본가설: 평균의 차이가 없다. 두집단의 평균의 차이가 0근처면 T-test 결과 p-value 유의수준 0.05 보다 작으면 가설이 유의하지 않다. 카이 제곱 테스트: 두 집단 비율 비교 카이 제곱이 크면 p-value 작아짐 (예상치와 측정치 차이가 큼) 군집화: 전체 데이터 중 비슷한 데이터끼리 하위 군집 만들기 k-means 군집화 범위의 다르면 범위의 크기가 큰 것으로만 군집이 이루어지기 때문에 1. 변수 - 최소 / 최대 - 최소 2. 표준정규분포 = (변수의값 - 평균값)/표준분차 계층 군집화 전체 집합이 하나가 될 때까지 군집 원하는 군집이 되는 구간을 자르면 됨 [java/db/실수] prepareStatement에서 setString 후 결과가 없는 문제 SELECT COL1 FROM TABLE WHERE COL2 = ?위와 같는 prepareStatement 에서 setString 으로 값을 넘겨준 뒤, resultSet으로 결과를 받은 뒤, next() 함수로 확인해보니 값이 들어가지 않았다. 실제 쿼리를 실행해보면 잘 작동했고 setString과 ? 없는 쿼리를 하면 잘 작동했다. 1) 인자에 공백이 포함되어 있나 확인해봤지만 공백은 없는 것처럼 보였다. oracle 기준 prepareStatement를 출력해봐도 setString 후의 쿼리가 보이질 않았어 난항이었다. 2) setString의 사용 문제로 추정되었고 위의 문제로 쿼리문 자체를 출력은 안 돼서 쿼리문을 수정하여 확인해보았다.SELECT COL1, ? FROM TABLE이런식으로 쿼리.. [clojure/lein] cider.repl 문제 vscode에서 nrepl을 사용하고 있는데 lein 버전을 올리라는 warning이 나오길래 오랜만에 lein 버전업을 했다. 이렇게 하고 나니 cider.repl 문제가 발생핬다. project.clj 등을 살펴봐도 해결이 안 되었고, cider는 emacs를 사용할 때 쓰던 거라 emacs도 지워봤는데 같은 문제가 발생했다. lein에 대해서 찾아보니 cider.nrepl을 사용하려면 프로젝트 생성할 때마다, 프로젝트의 project.clj 에 추가해줘야 한다. 그런데 vscode 자체 플러그인에서 nrepl를 연결할 때 cider를 사용하는 것 같아서 매 프로젝트마다 추가하지 않고 해결하는 것은 ~/.lein/profiles.clj 파일을 생성한 뒤, 여기에 추가해주면 된다. {:user {:pl.. 이전 1 ··· 3 4 5 6 7 8 9 다음