[Pandas] 대용량 CSV 데이터 분석하기: 행 수 제한 및 데이터 조회

Pandas는 데이터를 다루는 데 필수적인 Python 라이브러리로, 특히 CSV 파일을 효율적으로 처리할 수 있습니다. 이 글에서는 Pandas를 사용해 CSV 파일을 읽는 방법과 max_rows를 설정하여 출력되는 행의 수를 제어하는 방법을 알아보겠습니다.

Pandas로 CSV 파일 읽기

CSV 파일은 데이터를 저장하는 가장 간단하고 널리 사용되는 형식 중 하나입니다. Pandas의 read_csv() 메서드를 사용하면 CSV 파일을 쉽게 데이터프레임으로 변환할 수 있습니다.

CSV 파일 읽기 기본 예시:

import pandas as pd

# CSV 파일 읽기
file_path = 'data.csv'
df = pd.read_csv(file_path)
print(df)

위 코드는 CSV 파일을 읽어 데이터프레임으로 변환하고, 그 내용을 출력합니다.

주요 매개변수:

filepath_or_buffer: 읽어올 CSV 파일 경로를 지정합니다.
sep: CSV 파일에서 값을 구분하는 구분자를 지정합니다(기본값은 ,).
header: 열 이름으로 사용할 행 번호를 지정합니다.
usecols: 읽어올 열을 선택합니다.

예시:

# 특정 열만 읽기
columns_to_use = ['Name', 'Age']
df = pd.read_csv(file_path, usecols=columns_to_use)
print(df)

최대 행 수 설정 (max_rows)

Pandas는 데이터가 많을 경우, 데이터프레임 출력 시 화면에 표시되는 행 수를 제한합니다. 기본 설정은 60행입니다. 이 설정은 max_rows를 사용해 변경할 수 있습니다.

현재 설정 확인:

import pandas as pd

print(pd.options.display.max_rows)

max_rows 변경: 출력 행 수를 늘리거나 줄일 수 있습니다.

# 출력 행 수를 100으로 설정
pd.options.display.max_rows = 100

# CSV 파일 읽고 출력
df = pd.read_csv('data.csv')
print(df)

무제한 출력 설정: 모든 데이터를 출력하고 싶다면 None으로 설정합니다.

pd.options.display.max_rows = None

실무 활용 팁

대규모 데이터 처리:
- 대규모 CSV 파일을 읽을 때는 nrows를 사용하여 필요한 만큼의 행만 읽어오는 것이 효율적입니다.
```
# 처음 50행만 읽기
df = pd.read_csv('large_data.csv', nrows=50)
print(df)
```
데이터 확인:
- head()와 tail() 메서드를 사용해 데이터의 일부만 확인할 수 있습니다.
```
print(df.head(10))  # 처음 10행
print(df.tail(5))   # 마지막 5행
```
설정 초기화:
- 작업 후 max_rows를 기본값으로 초기화하려면 아래와 같이 설정합니다.
```
pd.options.display.max_rows = 60
```

결론

Pandas의 read_csv() 메서드는 CSV 파일을 읽고 데이터를 효율적으로 처리하는 강력한 도구입니다. 또한, max_rows를 활용해 출력되는 데이터 행 수를 제어하면 대규모 데이터를 효과적으로 다룰 수 있습니다. 이 가이드를 참고해 Pandas를 활용한 데이터 분석에 도전해 보세요.