์ด์ ์ ์ฌ์ฉํ๋ DataFrame์ ๊ฐ์ง๊ณ ๋ฐ์ดํฐ์ ์ ๋ณด๋ฅผ ํ์ธํ๋ ๋ฐฉ๋ฒ์ ์์๋ณด์.
data = {
'์ด๋ฆ' : ['์ฑ์น์', '์ ๋๋ง', '์กํ์ญ', '์ํ์
', '๊ฐ๋ฐฑํธ', '๋ณ๋๊ท', 'ํฉํ์ฐ', '์ค๋ํ'],
'ํ๊ต' : ['๋ถ์ฐ๊ณ ', '๋ถ์ฐ๊ณ ', '๋ถ์ฐ๊ณ ', '๋ถ์ฐ๊ณ ', '๋ถ์ฐ๊ณ ', '๋ฅ๋จ๊ณ ', '๋ฅ๋จ๊ณ ', '๋ฅ๋จ๊ณ '],
'ํค' : [197, 184, 168, 187, 188, 202, 188, 190],
'๊ตญ์ด' : [90, 40, 80, 40, 15, 80, 55, 100],
'์์ด' : [85, 35, 75, 60, 20, 100, 65, 85],
'์ํ' : [100, 50, 70, 70, 10, 95, 45, 90],
'๊ณผํ' : [95, 55, 80, 75, 35, 85, 40, 95],
'์ฌํ' : [85, 25, 75, 80, 10, 80, 35, 95],
'SWํน๊ธฐ' : ['Python', 'Java', 'Javascript', '', '', 'C', 'PYTHON', 'C#']
}
df = pd.DataFrame(data,index =['1๋ฒ','2๋ฒ','3๋ฒ','4๋ฒ','5๋ฒ','6๋ฒ','7๋ฒ','8๋ฒ'])
df
์ซ์ํ์ผ๋ก ๋ํ๋ ๋ฐ์ดํฐ๋ค์ ๋ํด ๊ฐฏ์, Mean ๊ฐ, std, Max ๊ฐ ๋ฑ์ ์ฝ๊ฒ ํ๋์ ๋ํ๋ผ ์ ์๋ ๋ฉ์๋๊ฐ ์๋ค. ๊ณ์ฐ์ด ๊ฐ๋ฅํ ๋ฐ์ดํฐ์ ๋ํด์๋ ์ด(Column) ๋ณ๋ก ์ ๋ณด๋ฅผ ๋ํ๋ธ๋ค.
df.describe() #๊ณ์ฐ์ด ๊ฐ๋ฅํ ๋ฐ์ดํฐ์ ๋ํด์๋ column ๋ณ๋ก ์ ๋ณด๋ฅผ ์ค๋ช
ํด์ค
์ซ์ํ ๋ฐ์ดํฐ๋ณด๋ค ๋ฐ์ดํฐ์ ํ์ ์ด๋ null์ ๊ฐฏ์ ๋ฑ์ ์ ๋ณด๋ฅผ ํ ๋์ ํ์ธํ๊ณ ์ถ์ ๋๋ info() ๋ฉ์๋๋ฅผ ์ฌ์ฉํ๋ฉด ๋๋ค.
df.info() #๊ฐ column์ ๋ํด์ Dtype,NUll๊ฐ์ ๊ฐฏ์ ๋ฑ...
์ด์ ๋ฐ์ดํฐ์ ๊ฐ๋ค์ ํ์ธํด๋ณด์.
๊ต์ฅํ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ํ ๋ฒ์ ๋ณด๋ ๊ฒ๋ณด๋ค, ์ผ๋จ ๋งจ ์๋ถํฐ 5๊ฐ๋ง ๋ณด๊ณ ์ถ์ ๋ ํน์ ์๋๋ถํฐ 5๊ฐ ๋ฑ (๊ฐฏ์๋ ์ค์ ๊ฐ๋ฅ) ๋ณด๊ณ ์ถ์ ๋๋ ๋ค์๊ณผ ๊ฐ์ ์ฝ๋๋ฅผ ์ฌ์ฉํ๋ค.
df.head() #์ฒ์ 5๊ฐ์ row๋ฅผ ๊ฐ์ ธ์ด
df.head(7) #์ฒ์ 7๊ฐ์ row๋ฅผ ๊ฐ์ ธ์ด
df.tail() #๋ง์ง๋ง 5๊ฐ์ row๋ฅผ ๊ฐ์ ธ์ด
df.tail(10) #๋ง์ง๋ง 10๊ฐ row๋ฅผ ๊ฐ์ ธ์ด
df์์ ๊ฐ๋ค์ ๋ชจ๋ ํ์ธํ๊ณ ์ถ๋ค๋ฉด? values๋ฉ์๋๋ฅผ ์ฌ์ฉํ์
df.values
๊ธฐ๋ณธ์ ์ผ๋ก index๋ columns, shape ๋ฑ ๊ธฐ๋ณธ์ ์ธ Data์ ์ ๋ณด๋ ์ถ๋ ฅ์ผ๋ก ๋ฐ์ ์ ์๋ค.
>>> df.index
Index(['1๋ฒ', '2๋ฒ', '3๋ฒ', '4๋ฒ', '5๋ฒ', '6๋ฒ', '7๋ฒ', '8๋ฒ'], dtype='object', name='์ง์๋ฒํธ')
>>> df.columns
Index(['์ด๋ฆ', 'ํ๊ต', 'ํค', '๊ตญ์ด', '์์ด', '์ํ', '๊ณผํ', '์ฌํ', 'SWํน๊ธฐ'], dtype='object')
>>> df.shape #row,column
(8, 9)
Series์ ๋ฐ์ดํฐ ์ ๋ณด ํ์ธ
DataFrame ์ ์ฒด์ ๋ํ ์ ๋ณด ๋ง๊ณ ๋ ๊ฐ Series(Column ๋ฑ)๋ฅผ ์ ํํด์ ์ ๋ณด๋ฅผ ํ์ธํ ์๋ ์๋ค.
์๋ฅผ ๋ค์ด 'ํค'์ ๋ํ ์ ๋ณด๋ง ๋ณด๊ณ ์ถ๋ค๋ฉด ๋ค์๊ณผ ๊ฐ์ด ์ฝ๋๋ฅผ ๊ตฌ์ฑํ๋ฉด ๋๋ค.
>>> df['ํค'].describe()
count 8.000000
mean 188.000000
std 9.985704
min 168.000000
25% 186.250000
50% 188.000000
75% 191.750000
max 202.000000
Name: ํค, dtype: float64
>>> df['ํค'].max()\
202
>>> df['ํค'].nlargest(3) #ํค ํฐ์ฌ๋ ์์๋๋ก 3๋ช
๋ฐ์ดํฐ
์ง์๋ฒํธ
6๋ฒ 202
1๋ฒ 197
8๋ฒ 190
Name: ํค, dtype: int64
>>> df['ํค'].mean()
188.0
>>> df['ํค'].sum()
1504
>>> df['SWํน๊ธฐ'].count()
1504
>>> df['ํ๊ต'].unique() #uniqueํ ๊ฐ์ list๋ฅผ ๋ณด์ฌ์ค
array(['๋ถ์ฐ๊ณ ', '๋ฅ๋จ๊ณ '], dtype=object)
>>> df['ํ๊ต'].nunique() #uniqueํ ๊ฐ์ ๊ฐฏ์๋ฅผ ๋ณด์ฌ์ค
2
Column ์ ํ
์ด๋ฏธ ํ์ง๋ง, DataFrame์์ ์ด๋ง ๋ฐ๋ก ์ ํํ ์ ์๋ค.
์ด์ ์ ํํ๋ ๋ฐฉ๋ฒ์๋ ์ด์ ์ด๋ฆ(label)์ ์ง์ ์ฌ์ฉํด๋ ๋๊ณ , ์ ์๋ฅผ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ด ์๋ค.
>>> df['์ด๋ฆ']
์ง์๋ฒํธ
1๋ฒ ์ฑ์น์
2๋ฒ ์ ๋๋ง
3๋ฒ ์กํ์ญ
4๋ฒ ์ํ์
5๋ฒ ๊ฐ๋ฐฑํธ
6๋ฒ ๋ณ๋๊ท
7๋ฒ ํฉํ์ฐ
8๋ฒ ์ค๋ํ
Name: ์ด๋ฆ, dtype: object
>>> df['ํค']
์ง์๋ฒํธ
1๋ฒ 197
2๋ฒ 184
3๋ฒ 168
4๋ฒ 187
5๋ฒ 188
6๋ฒ 202
7๋ฒ 188
8๋ฒ 190
Name: ํค, dtype: int64
>>> df[['์ด๋ฆ','ํค']]
ํ๊ฐ์ ์ด์ ์ ํํ ๋๋ df['์ด๋ฆ']๊ณผ ๊ฐ์ด ์ ๋ ฅํ๋ฉด ๋์ง๋ง, ์ฌ๋ฌ๊ฐ์ ์ด์ ์ ํํ ๋์๋ listํํ๋ก ์ ๋ ฅํด์ผ ํ๋ค.
๋ค์์ ์ ์ index๋ฅผ ์ฌ์ฉํ์ฌ column์ ์ ํํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ฌ์ค ์ ๋ฐฉ๋ฒ๊ณผ ์ผ๋งฅ์ํตํ๋ ๋ฐฉ๋ฒ์ด๋ค.
>>> df.columns
Index(['์ด๋ฆ', 'ํ๊ต', 'ํค', '๊ตญ์ด', '์์ด', '์ํ', '๊ณผํ', '์ฌํ', 'SWํน๊ธฐ'], dtype='object')
>>> df.columns[0]
'์ด๋ฆ'
df.columns์ 0๋ฒ์งธ ์์๋ '์ด๋ฆ'์ด ์ ํ๋๋ฏ๋ก df[df.columns[0]]๋ df['์ด๋ฆ']๊ณผ ๋์ผํ ๋์์ ํ๊ฒ ๋๋ค.
>>> df[df.columns[-1]] #๋งจ ๋์ ์๋ ๊ฐ์ ๊ฐ์ ธ์ด
์ง์๋ฒํธ
1๋ฒ Python
2๋ฒ Java
3๋ฒ Javascript
4๋ฒ NaN
5๋ฒ NaN
6๋ฒ C
7๋ฒ PYTHON
8๋ฒ C#
Name: SWํน๊ธฐ, dtype: object
์ฌ๋ผ์ด์ฑ
์ฌ๋ผ์ด์ฑ์ ๋ฐ์ดํฐ ๋ถ์์ด ์๋๋๋ผ๋ ๋ง์ด ์ฐ์ด๊ธฐ ๋๋ฌธ์ ์ ์์๋๋ฉด ์ข๋ค.
>>> df['์์ด'][0:5] #0,1,2,3,4 ์์ด ๋ฐ์ดํฐ ๊ฐ์ ธ์ด
์ง์๋ฒํธ
1๋ฒ 85
2๋ฒ 35
3๋ฒ 75
4๋ฒ 60
5๋ฒ 20
Name: ์์ด, dtype: int64
>>> df[['์ด๋ฆ','ํค']][:3] #์ฒ์ 3๋ช
์ ์ด๋ฆ, ํค ์ ๋ณด๋ฅผ ๊ฐ์ ธ์ด
df[3:]
'Data analysis > ๋ฐ์ดํฐ ๋ถ์' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Pandas ์ฌ์ฉ๋ฒ - ํจ์์ ์ฉ, ๊ทธ๋ฃนํ [๊ธฐ๋ณธ] (0) | 2022.01.22 |
---|---|
Pandas ์ฌ์ฉ๋ฒ - ๊ฒฐ์ธก์น ์ฒ๋ฆฌ, ๋ฐ์ดํฐ ์ ๋ ฌ ๋ฐ ์์ [๊ธฐ๋ณธ] (0) | 2022.01.21 |
Pandas ์ฌ์ฉ๋ฒ - ๋ฐ์ดํฐ ์ ํ ๋ฐฉ๋ฒ (iloc, loc, ์กฐ๊ฑด ์ค์ ) [๊ธฐ๋ณธ] (0) | 2022.01.18 |
Pandas ์ฌ์ฉ๋ฒ - ํ์ผ ์ ์ฅ ๋ฐ ์ด๊ธฐ [๊ธฐ๋ณธ] (0) | 2022.01.15 |
Pandas ์ฌ์ฉ๋ฒ - Series์ DataFrame [๊ธฐ๋ณธ] (0) | 2022.01.15 |