반응형
Pandas는 데이터를 다루는 데 필수적인 Python 라이브러리로, 특히 CSV 파일을 효율적으로 처리할 수 있습니다. 이 글에서는 Pandas를 사용해 CSV 파일을 읽는 방법과 max_rows를 설정하여 출력되는 행의 수를 제어하는 방법을 알아보겠습니다.
Pandas로 CSV 파일 읽기
CSV 파일은 데이터를 저장하는 가장 간단하고 널리 사용되는 형식 중 하나입니다. Pandas의 read_csv() 메서드를 사용하면 CSV 파일을 쉽게 데이터프레임으로 변환할 수 있습니다.
CSV 파일 읽기 기본 예시:
import pandas as pd
# CSV 파일 읽기
file_path = 'data.csv'
df = pd.read_csv(file_path)
print(df)
위 코드는 CSV 파일을 읽어 데이터프레임으로 변환하고, 그 내용을 출력합니다.
주요 매개변수:
- filepath_or_buffer: 읽어올 CSV 파일 경로를 지정합니다.
- sep: CSV 파일에서 값을 구분하는 구분자를 지정합니다(기본값은 ,).
- header: 열 이름으로 사용할 행 번호를 지정합니다.
- usecols: 읽어올 열을 선택합니다.
예시:
# 특정 열만 읽기
columns_to_use = ['Name', 'Age']
df = pd.read_csv(file_path, usecols=columns_to_use)
print(df)
최대 행 수 설정 (max_rows)
Pandas는 데이터가 많을 경우, 데이터프레임 출력 시 화면에 표시되는 행 수를 제한합니다. 기본 설정은 60행입니다. 이 설정은 max_rows를 사용해 변경할 수 있습니다.
현재 설정 확인:
import pandas as pd
print(pd.options.display.max_rows)
max_rows 변경: 출력 행 수를 늘리거나 줄일 수 있습니다.
# 출력 행 수를 100으로 설정
pd.options.display.max_rows = 100
# CSV 파일 읽고 출력
df = pd.read_csv('data.csv')
print(df)
무제한 출력 설정: 모든 데이터를 출력하고 싶다면 None으로 설정합니다.
pd.options.display.max_rows = None
실무 활용 팁
- 대규모 데이터 처리:
- 대규모 CSV 파일을 읽을 때는 nrows를 사용하여 필요한 만큼의 행만 읽어오는 것이 효율적입니다.
# 처음 50행만 읽기 df = pd.read_csv('large_data.csv', nrows=50) print(df)
- 데이터 확인:
- head()와 tail() 메서드를 사용해 데이터의 일부만 확인할 수 있습니다.
print(df.head(10)) # 처음 10행 print(df.tail(5)) # 마지막 5행
- 설정 초기화:
- 작업 후 max_rows를 기본값으로 초기화하려면 아래와 같이 설정합니다.
pd.options.display.max_rows = 60
결론
Pandas의 read_csv() 메서드는 CSV 파일을 읽고 데이터를 효율적으로 처리하는 강력한 도구입니다. 또한, max_rows를 활용해 출력되는 데이터 행 수를 제어하면 대규모 데이터를 효과적으로 다룰 수 있습니다. 이 가이드를 참고해 Pandas를 활용한 데이터 분석에 도전해 보세요.
반응형