01-3 이 도서가 얼마나 인기가 좋은가요?

도서 데이터 찾기

코랩에서 데이터 확인하기

데이터 프레임 다루기 : 판다스

판다스는 CSV 파일을 읽어 데이터프레임이라는 표 형식 데이터로 저장함.

배열은 같은 종류의 데이터가 순서대로 나열된 데이터 구조를 말함. 배열은 나열된 축이 하나인 경우 1차원 배열, 축이 2개인 경우 2차원 배열이라고 함

판다스의 시리즈는 1차원 배열, 이때 시리즈에 담긴 데이터는 모두 동일한 종류여야 함. 예를 들면 모두 정수이거나 문자열

리스트는 정수나 문자열을 섞어 쓸 수 있는 훨씬 유연한 데이터 구조

데이터 프레임은 2차원 배열. 열마다 다른 데이터 타입을 사용할 수 있음, 같은 열에 있는 데이터는 모두 같은 종류여야 함

<aside> 💡

Dtype 매개변수

low_memory 매개변수를 False로 지정하면 경고는 발생하지 않지만, CSV 파일을 한번에 모두 읽기 때문에 많은 메모리를 사용함. CSV 아주 큰 경우 메모리 부족 오류가 발생할 수 있음. 다른 방법은 열의 데이터 타입을 자동으로 찾지 않도록 아예 dtype 매개변수로 데이터 타입을 지정하는 것.

→ 경고가 발생했던 열의 데이터 타입을 문자열로 지정

image.png

</aside>