Programming (80) 썸네일형 리스트형 [DataScience] pandas의 대안은? modin, dask, vaex 비교하기 데이터 사이언스를 시작할 때 주로 사용하는 언어는 R과 Python이 있습니다. 보통 개발을 시작하신 분들은 python으로 주로 입문하게 되죠. 이 때 주로 사용하는 라이브러리는 Pandas 라는 라이브러리입니다. pandas 는 여러 파일을 파싱하는 것부터 전체 데이터 테이블을 NumPy 형태의 행렬 배열로 변환하는 다양하게 이용가능 합니다. 이런 기능들이 pandas가 데이터 사이언스와 머신러닝에서 잘 사용되는 이유입니다. 이런 pandas에게도 단점이 있으니 데이터가 많아질 수록 사용하는 메모리가 늘어나고 속도가 느려진다는 것입니다. 물론 pandas에서 천만 row도 처리 가능할 수 있지만, 그 경우에 10기가의 메모리가 필요합니다. 또한 pandas는 싱글코어로만 작동하고 ram의 범위 안에서.. [환경구축] 아치 리눅스, venv 부터 jupyter notebook 까지 OS 재설치 이후, jupyter 환경없이 colab만 사용했는데 데이터가 커지니 연결이 끊기는 상황이 발생해서 로컬에 다시 jupyter 환경을 구축했습니다.이 과정에 대한 정리한 내용입니다. 0. python 및 pip 설치저는 이미 python 과 pip 가 설치되어 있어서 설치가 필요하지 않지만, 혹시 몰라 적어둡니다. $ sudo pacman -S python3$ sudo pacman -S python-pip 1. venv를 사용하여 가상환경 구축 python3 부터는 venv가 내장되어 있어, python 에서 실행이 가능하다.*venv: python의 경우 프로젝트마다 사용하는 라이브러리의 버전 등이 상이한 경우가 많다. (ex. tensorflow 1.x / 2.x / gpu) 이 경우 라.. A/B 테스트 A/B 테스트: 두 집단 평균 비교, 비율 비교 t테스트: 두 집단 평균 비교 기본가설: 평균의 차이가 없다. 두집단의 평균의 차이가 0근처면 T-test 결과 p-value 유의수준 0.05 보다 작으면 가설이 유의하지 않다. 카이 제곱 테스트: 두 집단 비율 비교 카이 제곱이 크면 p-value 작아짐 (예상치와 측정치 차이가 큼) 군집화: 전체 데이터 중 비슷한 데이터끼리 하위 군집 만들기 k-means 군집화 범위의 다르면 범위의 크기가 큰 것으로만 군집이 이루어지기 때문에 1. 변수 - 최소 / 최대 - 최소 2. 표준정규분포 = (변수의값 - 평균값)/표준분차 계층 군집화 전체 집합이 하나가 될 때까지 군집 원하는 군집이 되는 구간을 자르면 됨 [java/db/실수] prepareStatement에서 setString 후 결과가 없는 문제 SELECT COL1 FROM TABLE WHERE COL2 = ?위와 같는 prepareStatement 에서 setString 으로 값을 넘겨준 뒤, resultSet으로 결과를 받은 뒤, next() 함수로 확인해보니 값이 들어가지 않았다. 실제 쿼리를 실행해보면 잘 작동했고 setString과 ? 없는 쿼리를 하면 잘 작동했다. 1) 인자에 공백이 포함되어 있나 확인해봤지만 공백은 없는 것처럼 보였다. oracle 기준 prepareStatement를 출력해봐도 setString 후의 쿼리가 보이질 않았어 난항이었다. 2) setString의 사용 문제로 추정되었고 위의 문제로 쿼리문 자체를 출력은 안 돼서 쿼리문을 수정하여 확인해보았다.SELECT COL1, ? FROM TABLE이런식으로 쿼리.. [clojure/lein] cider.repl 문제 vscode에서 nrepl을 사용하고 있는데 lein 버전을 올리라는 warning이 나오길래 오랜만에 lein 버전업을 했다. 이렇게 하고 나니 cider.repl 문제가 발생핬다. project.clj 등을 살펴봐도 해결이 안 되었고, cider는 emacs를 사용할 때 쓰던 거라 emacs도 지워봤는데 같은 문제가 발생했다. lein에 대해서 찾아보니 cider.nrepl을 사용하려면 프로젝트 생성할 때마다, 프로젝트의 project.clj 에 추가해줘야 한다. 그런데 vscode 자체 플러그인에서 nrepl를 연결할 때 cider를 사용하는 것 같아서 매 프로젝트마다 추가하지 않고 해결하는 것은 ~/.lein/profiles.clj 파일을 생성한 뒤, 여기에 추가해주면 된다. {:user {:pl.. [js] 디버깅 팁 html, css를 수정할 경우에는 DOM 탐색기에서 수정을 해야한다. js의 경우에는 디버거 탭하면 된다. 예로 조건 식에 안 걸리게 하고 싶을 때의 경우 해당 조건식 시작과 끝 부분에 break point를 걸고, 시작 부분에 도달했을 때 조사식 부분에서 값을 수정한 뒤, 재생버튼을 눌러 끝부분으로 도달하면, 다시 값을 원복하면 된다. 또 IE 기준 breakpoint 설정 시 원하는 라인에 안 되는 경우가 있는데 해당 소스 부분을 드래그한 상태로 하면 라인 별로 breakpoint를 지정할 수 있다. [asp.net/mssql] column_name 은(는) Table명 테이블의 DataColumn 또는 DataRelation이 아닙니다. 오류 column_name 은(는) Table명 테이블의 DataColumn 또는 DataRelation이 아닙니다. (영문: column_Name is neither a datacolumn nor a datarelation for table) 해당 내용을 보면 테이블에 존재하지 않은 컬럼을 사용하고 있다는 것으로 보인다. 사실 실제로 그런 내용이긴 했는데, 실제 내가 발생한 내용에서는 컬럼명 은(는) Table4 테이블의 DataColumn 또는 DataRelation이 아닙니다. 이라고 나왔다. 컬럼명은 정상적으로 나왔는데 테이블명이 Table4 라고 나오는 것이다. 해당 프로그램은 mssql의 프로시저를 호출만 하기 때문에 처음에는 프로시저에서 테이블명이 비정상적으로 바뀐 것은 아닌가 의심했다. 그래서 .. [Java/Oracle] DB 인코딩 문제로 한글이 깨질 때 해결 방법 java에서 오라클을 select 쿼리를 실행해야 하는 상황에서 한글의 경우 문자가 깨지는 현상이 발생하는 경우가 있다. POST방식을 기준으로 request.setCharaterEncoding("euc-kr"); 선언. 을 getParameter 등을 하기 전에 선언 해주면 대부분 해결된다. 이게 안 될 경우, 보통 model이나 controller 단에서 getParameter 등을 쓰는 경우가 있어서 그 전에 선언해주면 된다. Oracle (db) 의 인코딩이 한글을 지원 안 할 경우. 이 경우는 인코딩 변환을 수동으로 해줘야 하는데 일단 where절에 한글 값을 주니 값이 아예 나오질 않았다. 그래서 where 절에 자바 스트링 값을 넣어줄 때 string afterStr = new String(.. 이전 1 ··· 4 5 6 7 8 9 10 다음