여러 데이터베이스 (oracle, mssql 등)가 있으므로 팬더를 db 대체물로 사용하고 있으며 SQL과 동등한 일련의 명령을 만들 수 없습니다.
일부 열이있는 DataFrame에 테이블이로드되었습니다.
YEARMONTH, CLIENTCODE, SIZE, .... etc etc
SQL에서 매년 다른 클라이언트 수를 계산하는 방법은 다음과 같습니다.
SELECT count(distinct CLIENTCODE) FROM table GROUP BY YEARMONTH;
결과는
201301 5000
201302 13245
팬더에서 어떻게 할 수 있습니까?
답변
나는 이것이 당신이 원하는 것이라고 믿습니다.
table.groupby('YEARMONTH').CLIENTCODE.nunique()
예:
In [2]: table
Out[2]:
CLIENTCODE YEARMONTH
0 1 201301
1 1 201301
2 2 201301
3 1 201302
4 2 201302
5 2 201302
6 3 201302
In [3]: table.groupby('YEARMONTH').CLIENTCODE.nunique()
Out[3]:
YEARMONTH
201301 2
201302 3
답변
여기에 매우 간단한 또 다른 방법이 있습니다. 데이터 프레임 이름이 daat
있고 열 이름이YEARMONTH
daat.YEARMONTH.value_counts()
답변
흥미롭게도, 종종 len(unique())
보다 몇 배 (3x-15x) 빠릅니다 nunique()
.
답변
를 사용하면 crosstab
보다 많은 정보를 반환합니다groupby
nunique
pd.crosstab(df.YEARMONTH,df.CLIENTCODE)
Out[196]:
CLIENTCODE 1 2 3
YEARMONTH
201301 2 1 0
201302 1 2 1
약간 수정 한 후 결과를 얻습니다.
pd.crosstab(df.YEARMONTH,df.CLIENTCODE).ne(0).sum(1)
Out[197]:
YEARMONTH
201301 2
201302 3
dtype: int64
답변
나는 또한 사용하고 nunique
있지만 'min', 'max', 'count' or 'mean'
등 의 집계 함수를 사용해야하는 경우 매우 유용합니다 .
df.groupby('YEARMONTH')['CLIENTCODE'].transform('nunique') #count(distinct)
df.groupby('YEARMONTH')['CLIENTCODE'].transform('min') #min
df.groupby('YEARMONTH')['CLIENTCODE'].transform('max') #max
df.groupby('YEARMONTH')['CLIENTCODE'].transform('mean') #average
df.groupby('YEARMONTH')['CLIENTCODE'].transform('count') #count
답변
새로운 팬더 버전을 사용하면 데이터 프레임으로 쉽게 얻을 수 있습니다.
unique_count = pd.groupby(['YEARMONTH'], as_index=False).agg(uniq_CLIENTCODE =('CLIENTCODE',pd.Series.count))
답변
여기서는 여러 열에 대해 카운트를 구별하는 접근 방식입니다. 몇 가지 데이터를 보자.
data = {'CLIENT_CODE':[1,1,2,1,2,2,3],
'YEAR_MONTH':[201301,201301,201301,201302,201302,201302,201302],
'PRODUCT_CODE': [100,150,220,400,50,80,100]
}
table = pd.DataFrame(data)
table
CLIENT_CODE YEAR_MONTH PRODUCT_CODE
0 1 201301 100
1 1 201301 150
2 2 201301 220
3 1 201302 400
4 2 201302 50
5 2 201302 80
6 3 201302 100
이제 관심있는 열을 나열하고 약간 수정 된 구문으로 groupby를 사용하십시오.
columns = ['YEAR_MONTH', 'PRODUCT_CODE']
table[columns].groupby(table['CLIENT_CODE']).nunique()
우리는 다음을 얻습니다.
YEAR_MONTH PRODUCT_CODE CLIENT_CODE
1 2 3
2 2 3
3 1 1