Python (5) 썸네일형 리스트형 [colab] cuda error device-side assert triggered 모델 학습 후, 예측을 진행하려 하니 cuda error device-side assert triggered 오류가 나왔다. 구글링 결과 batch 사이즈를 줄이라고 했는데, 내 경우에는 줄여도 되지 않았다. 다른 글을 찾아보니, class의 불균형 문제 때문에 그럴 수도 있다고 한다. python의 imblearn 라이브러리를 활용해서 oversampling이나 undersampling을 통해 class의 개수를 비슷하게 맞춰주니 잘 작동했다. [DataScience] DB SQL과 연동하기 DB에 있는 데이터를 가지고 활용하여 분석하는 방법을 소개하겠습니다. 물론 DB에 있는 데이터들을 csv 파일로 저장해서 사용할 수 있지만, 그런 것보다는 DB에 있는 데이터를 직접 불러오는 게 더 효율적이기 때문입니다. 또한, csv 파일이너무 클 경우 대부분의 데이터 핸들링을 DB에서 진행한 후 결과만 가져 온다면 메모리 면에서 훨씬 효율적일 것이라고 예상합니다. 저는 간단히 진행할 것이기에 sqlite 를 활용해보겠습니다. 우선 sqlite 관련 라이브러리를 설치합니다. !pip install pysqlite3 라이브러리를 불러옵시다. import sqlite3 import pandas as pd DB 연결 conn = sqlite3.connect('example.db') cursor 등록 *cur.. [scikit-learn] 사이킷런의 regression 사이킷런을 사용은 해봤지만 공식 사이트는 잘 가보지 못 했는데, 강의를 통해서 들렀는데 제 생각보다 엄청 잘 되어 있어서 놀랐습니다. 그래서 사이킷런 사이트만으로 얼마나 정보를 얻을 수 있는 지 알아보겠습니다. 우선 사이킷런 사이트에선 estimator를 고르는 맵을 제공해줍니다. (저 같은 초보자에겐 정말 좋은 자료 같네요.) scikit-learn.org/stable/tutorial/machine_learning_map/index.html START에서 시작해보겠습니다. 우선, 저는 numerical 변수를 regression으로 예측할 것입니다. 1. sample 데이터가 50보다 큰가? No면 데이터를 더 모으라고 하네요. Yes로 가겠습니다. 2. 예측할 변수가 category 형태인가? No로.. [DataScience] pandas의 대안은? modin, dask, vaex 비교하기 데이터 사이언스를 시작할 때 주로 사용하는 언어는 R과 Python이 있습니다. 보통 개발을 시작하신 분들은 python으로 주로 입문하게 되죠. 이 때 주로 사용하는 라이브러리는 Pandas 라는 라이브러리입니다. pandas 는 여러 파일을 파싱하는 것부터 전체 데이터 테이블을 NumPy 형태의 행렬 배열로 변환하는 다양하게 이용가능 합니다. 이런 기능들이 pandas가 데이터 사이언스와 머신러닝에서 잘 사용되는 이유입니다. 이런 pandas에게도 단점이 있으니 데이터가 많아질 수록 사용하는 메모리가 늘어나고 속도가 느려진다는 것입니다. 물론 pandas에서 천만 row도 처리 가능할 수 있지만, 그 경우에 10기가의 메모리가 필요합니다. 또한 pandas는 싱글코어로만 작동하고 ram의 범위 안에서.. [python] 반복문 index 수정하기 C++의 for문은for(int i = 0; i 이전 1 다음