일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 엘리스 AI 트랙
- 엘리스AI트랙
- 코딩교육
- 팀프로젝트
- 코딩국비지원
- 신입개발자
- 개발자 채용설명회
- 개발자취업특강
- 인공지능모델학습
- 와탭랩스
- 개발자취업준비
- 엘리스AI트랙데모데이
- 코딩 교육
- 블로그와 친해지기
- 코딩부트캠프
- 송리단길
- 웹개발포트폴리오
- 개발자 포트폴리오
- 코딩 부트캠프
- 코딩테스트
- 웹개발프로젝트
- 코딩 국비지원
- 개발자이력서
- 개발자포트폴리오
- 엘리스
- 이미지처리프로젝트
- 부트캠프프로젝트발표
- 프로젝트마무리
- 코딩배우기
- 코딩 배우기
- Today
- Total
자몽이 조아
11주차 엘리스 강의 정리 - Pandas 기본 본문
행렬계산, 엑셀데이터 계산등에 용이한 데이터 프레임이라는 효율적인 데이터구조 이용.
좀더 익숙한 데이터처리.
index, data, datatype 정보가 있음.
pd.Series(data),index=index)형태
딕셔너리로도 만들 수 있다. 여기서 population.values 라고 하면 numpy array가 나온다.
데이터 프레임: 표형태로 나타냄.
딕셔너리의 키가 인덱스가 되고 value가 데이터가 됨.
pd.DataFrame의 키는 column, value는 각 시리즈, 그리고 표에서 index는 시리즈의 키, value는 시리즈의 value다.
dtype="object" 데이터프레임에선 문자열을 기본적으로 파이썬 객체로 본다.
데이터프레임의 각 column에는 시리즈데이터가 담겨있다.
따라서 타입이 pandas.core.series.Series
시리즈데이터는 numpy array가 보강된 형태이다.
csv excel로 저장한다.
읽을 때 데이터프레임형태로 불러온다.
dataframe.loc[index] : 명시적인 인덱싱 참조/
dataframe.loc[index slicing, column slicing]
&
파이썬 스타일 정수 인덱싱
dataframe.loc[index,column]
dataframe.loc[index] = 시리즈
dataframe.loc[index] = np.nan ==> 비어있는 공간 생성
len(dataframe) ==> index개수
dataframe.isnull() : 비어있으면 True
dataframe.notnull() : 채워져있으면 True
dataframe.dropna() : 데이터가 비어있는 row를 제거
dataframe[index] = dataframe[index].filna("없음") : 데이터가 없는 시리즈의 데이터를 없음으로 대체.
시리즈 간 같은 인덱스(시리즈에서는 같은 row column) 끼리만 연산이 되며, 한쪽에 없는 인덱스의 데이터는 NaN이 된다.
이 때 A.add(B, fill_value=0) 에서 데이터가 NaN인것을 0으로 채워서 더해줄 수 있다.
집계함수는 시리즈에서 쓸 수 있으므로 각 시리즈별 집계가 나온다.
데이터프레임.sort_values(column)이라고 하면 column을 기준으로 row가 정렬된다.
ascending=False : 내림차순 정렬
컬럼이 여러개일 때 먼저온 컬럼에 대해서 정리하고, 그 컬럼의 값이 같은 row에 대해 다음 컬럼 기준으로 정렬.
'엘리스 활동' 카테고리의 다른 글
엘리스 AI 개발트랙 - 스터디, 취업 로드맵, 프로젝트를 진행하며 (0) | 2021.09.10 |
---|---|
11주차 엘리스 강의 정리 - Pandas 심화 알아보기 (0) | 2021.09.03 |
11주차 강의 정리- NumPy (0) | 2021.09.02 |
11주차 실시간강의 정리(1) (0) | 2021.09.01 |
엘리스 11주 내용정리(2) (0) | 2021.08.31 |