2021-08-112021-08-11IT

【解説】データサイエンス100本ノック【問70〜74 回答】

当ページのリンクには広告が含まれています。

第70問目: 経過日数の計算
第71問目: 経過月数の算出
第72問目: 経過年数の算出
第73問目: 経過時間の算出
第74問目: 月曜日からの経過日数の計算
まとめ: 年月日、月曜からの経過時間の算出方法を学びました。

データサイエンス100本ノックの始め方は、以下の記事を参考にしていただければと思います。

第70問目: 経過日数の計算

P-070: レシート明細データフレーム（df_receipt）の売上日（sales_ymd）に対し、顧客データフレーム（df_customer）の会員申込日（application_date）からの経過日数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。

本問は時間の計算について問われています。

時間の計算は、データを日付型に変換する必要があります。

日付型への変換は、pandas.to_datetime関数を使用すれば良いです。

変換を行った日付型同士では、引き算などの計算が行なえます。

変換元のデータ型毎に、日付型に変換する方法を以下の記事で紹介しているので、こちらも参照してください。

>> 【解説】日付データの変換方法を学ぶ | データサイエンス100本ノック【問45〜問48 回答】

本問を解きながら、使い方を学んでいきましょう。

まずはdf_receiptとdf_customerの構造を確認します。

1	df_receipt.head(5)

出力


sales_ymd	sales_epoch	store_cd	receipt_no	receipt_sub_no	customer_id	product_cd	quantity	amount
0	20181103	1541203200	S14006	112	1	CS006214000001	P070305012	1	158
1	20181118	1542499200	S13008	1132	2	CS008415000097	P070701017	1	81
2	20170712	1499817600	S14028	1102	1	CS028414000014	P060101005	1	170
3	20190205	1549324800	S14042	1132	1	ZZ000000000000	P050301001	1	25
4	20180821	1534809600	S14025	1102	2	CS025415000050	P060102007	1	90

本問を解くために、両者のデータフレームから必要なデータのみを抽出します。

まずは本問を解くために必要なデータであるdf_receiptの売上日とdf_customerの会員申込日を内部結合を行うことで抽出します。

1 2	df_tmp = pd.merge(df_receipt[['customer_id', 'sales_ymd']], df_customer[['customer_id', 'application_date']], how='inner', on='customer_id') df_tmp.head(20)

出力

	customer_id	sales_ymd	application_date
0	CS006214000001	20181103	20150201
1	CS006214000001	20170509	20150201
2	CS006214000001	20170608	20150201
3	CS006214000001	20170608	20150201
4	CS006214000001	20181028	20150201
5	CS006214000001	20181028	20150201
6	CS006214000001	20170509	20150201
7	CS006214000001	20190908	20150201
8	CS006214000001	20180131	20150201
9	CS006214000001	20170705	20150201
10	CS006214000001	20181110	20150201
11	CS006214000001	20170705	20150201
12	CS006214000001	20190410	20150201
13	CS006214000001	20180131	20150201
14	CS006214000001	20181103	20150201
15	CS006214000001	20190601	20150201
16	CS006214000001	20190908	20150201
17	CS006214000001	20190507	20150201
18	CS006214000001	20181110	20150201
19	CS006214000001	20190507	20150201

出力した結果を見ると、重複している行が確認されますので、重複した行を削除します。

重複した行の削除は以下のコードで削除可能です。

1 2	df_tmp = df_tmp.drop_duplicates() df_tmp.head(20)

出力


customer_id	sales_ymd	application_date
0	CS006214000001	20181103	20150201
1	CS006214000001	20170509	20150201
2	CS006214000001	20170608	20150201
4	CS006214000001	20181028	20150201
7	CS006214000001	20190908	20150201
8	CS006214000001	20180131	20150201
9	CS006214000001	20170705	20150201
10	CS006214000001	20181110	20150201
12	CS006214000001	20190410	20150201
15	CS006214000001	20190601	20150201
17	CS006214000001	20190507	20150201
22	CS008415000097	20181118	20150322
23	CS008415000097	20170328	20150322
24	CS008415000097	20180325	20150322
28	CS008415000097	20190417	20150322
30	CS028414000014	20170712	20150711
31	CS028414000014	20180408	20150711
32	CS028414000014	20180527	20150711
33	CS028414000014	20180811	20150711
34	CS028414000014	20191023	20150711

次にsales_ymdとapplication_dateを日付型に変換します。

日付型への変更方法は以下の記事にまとめているので参照してください。

>> 【解説】日付データの変換方法を学ぶ | データサイエンス100本ノック【問45〜問48 回答】

1 2	df_tmp['sales_ymd'] = pd.to_datetime(df_tmp['sales_ymd'], format='%Y%m%d') df_tmp

出力

	customer_id	sales_ymd	application_date
0	CS006214000001	2018-11-03	20150201
1	CS006214000001	2017-05-09	20150201
2	CS006214000001	2017-06-08	20150201
4	CS006214000001	2018-10-28	20150201
7	CS006214000001	2019-09-08	20150201
...	...	...	...
65672	CS004411000027	2017-06-01	20150517
65674	CS040513000029	2018-06-07	20150915
65676	CS004613000146	2017-12-02	20160813
65678	CS002314000037	2018-04-21	20151202
65680	CS040311000022	2019-04-16	20150419
32411 rows × 3 columns

同様にapplication_dateを日付型に変換します。

1 2	df_tmp['application_date'] = pd.to_datetime(df_tmp['application_date'], format='%Y%m%d') df_tmp

出力

	customer_id	sales_ymd	application_date
0	CS006214000001	2018-11-03	2015-02-01
1	CS006214000001	2017-05-09	2015-02-01
2	CS006214000001	2017-06-08	2015-02-01
4	CS006214000001	2018-10-28	2015-02-01
7	CS006214000001	2019-09-08	2015-02-01
...	...	...	...
65672	CS004411000027	2017-06-01	2015-05-17
65674	CS040513000029	2018-06-07	2015-09-15
65676	CS004613000146	2017-12-02	2016-08-13
65678	CS002314000037	2018-04-21	2015-12-02
65680	CS040311000022	2019-04-16	2015-04-19
32411 rows × 3 columns

sales_ymdとapplication_dateの両者を日付型に変換できたので、あとは両データの差分をとり経過日数を計算し、新たなカラムであるelapsed_dateに格納します。

1 2	df_tmp['elapsed_date'] = df_tmp['sales_ymd'] - df_tmp['application_date'] df_tmp.head(10)

出力

	customer_id	sales_ymd	application_date	elapsed_date
0	CS006214000001	2018-11-03	2015-02-01	1371 days
1	CS006214000001	2017-05-09	2015-02-01	828 days
2	CS006214000001	2017-06-08	2015-02-01	858 days
4	CS006214000001	2018-10-28	2015-02-01	1365 days
7	CS006214000001	2019-09-08	2015-02-01	1680 days
8	CS006214000001	2018-01-31	2015-02-01	1095 days
9	CS006214000001	2017-07-05	2015-02-01	885 days
10	CS006214000001	2018-11-10	2015-02-01	1378 days
12	CS006214000001	2019-04-10	2015-02-01	1529 days
15	CS006214000001	2019-06-01	2015-02-01	1581 days

これで完成です。

第71問目: 経過月数の算出

P-071: レシート明細データフレーム（df_receipt）の売上日（sales_ymd）に対し、顧客データフレーム（df_customer）の会員申込日（application_date）からの経過月数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1ヶ月未満は切り捨てること。

前の問題と異なり「経過月数」の計算を求められています。

月単位の演算を行う場合は、dateutil.relativedeltaモジュールを使用します。

以下に簡単な使い方の例を示します。

from datetime import datetime
from dateutil.relativedelta import relativedelta

result = datetime(2020, 12, 1) + relativedelta(months=3)
result

出力

1	datetime.datetime(2021, 3, 1, 0, 0)

また、以下のようにrelativedelta(datetime1, datetime2)とすると、datetime1からdatetime2への経過時間を取得することが出来ます。

from datetime import datetime
from dateutil.relativedelta import relativedelta

datetime1 = datetime(2020, 12,1 ) 
datetime2 = datetime(2019, 2, 1) 

relativedelta(datetime1, datetime2)

出力

1	relativedelta(years=+1, months=+10)

上記の出力では、1年と10ヶ月が経過していることが示されています。

「1年と10ヶ月」ではなく「22ヶ月」という形式で出力させる場合は、以下のようにすればOKです。

1 2	months = relativedelta(datetime1, datetime2).years * 12 + relativedelta(datetime1, datetime2).months print("経過月数: {}".format(months))

出力

経過月数: 22

これらのノウハウを用いて本問を解いていきましょう。

前問と同様に、df_receiptとdf_customerの必要なカラムのみで内部結合させていきます。

1 2	df_tmp = pd.merge(df_receipt[['customer_id', 'sales_ymd']], df_customer[['customer_id', 'application_date']], how='inner', on='customer_id') df_tmp.head(10)

出力

	customer_id	sales_ymd	application_date
0	CS006214000001	20181103	20150201
1	CS006214000001	20170509	20150201
2	CS006214000001	20170608	20150201
3	CS006214000001	20170608	20150201
4	CS006214000001	20181028	20150201
5	CS006214000001	20181028	20150201
6	CS006214000001	20170509	20150201
7	CS006214000001	20190908	20150201
8	CS006214000001	20180131	20150201
9	CS006214000001	20170705	20150201

重複している行が存在しているようなので、drop_duplicates()で重複している行を削除します。

1	df_tmp = df_tmp.drop_duplicates()

sales_ymdとapplication_dateそれぞれを、日付型に変換します。

変換方法は、以下を参照してください。

>> 【解説】日付データの変換方法を学ぶ | データサイエンス100本ノック【問45〜問48 回答】

1
2
3

df_tmp['sales_ymd'] = pd.to_datetime(df_tmp['sales_ymd'], format='%Y%m%d')
df_tmp['application_date'] = pd.to_datetime(df_tmp['application_date'], format='%Y%m%d')
df_tmp.head(10)

出力

	customer_id	sales_ymd	application_date
0	CS006214000001	2018-11-03	2015-02-01
1	CS006214000001	2017-05-09	2015-02-01
2	CS006214000001	2017-06-08	2015-02-01
4	CS006214000001	2018-10-28	2015-02-01
7	CS006214000001	2019-09-08	2015-02-01
8	CS006214000001	2018-01-31	2015-02-01
9	CS006214000001	2017-07-05	2015-02-01
10	CS006214000001	2018-11-10	2015-02-01
12	CS006214000001	2019-04-10	2015-02-01
15	CS006214000001	2019-06-01	2015-02-01

冒頭に紹介した例の用を参考に、経過月数を求めていきます。

ここでは復習も兼ねてapplyとlambda式を使って算出します。

>> 【lambda式とapplyを復習】【データサイエンス】Pythonで最頻値を表示する方法 | データサイエンス100本ノック【問29 回答】

1 2	df_tmp['elapsed_date'] = df_tmp[['sales_ymd', 'application_date']].apply(lambda x: relativedelta(x[0], x[1]).years * 12 + relativedelta(x[0], x[1]).months) df_tmp

出力


customer_id	sales_ymd	application_date	elapsed_date
0	CS006214000001	2018-11-03	2015-02-01	NaN
1	CS006214000001	2017-05-09	2015-02-01	NaN
2	CS006214000001	2017-06-08	2015-02-01	NaN
4	CS006214000001	2018-10-28	2015-02-01	NaN
7	CS006214000001	2019-09-08	2015-02-01	NaN
...	...	...	...	...
65672	CS004411000027	2017-06-01	2015-05-17	NaN
65674	CS040513000029	2018-06-07	2015-09-15	NaN
65676	CS004613000146	2017-12-02	2016-08-13	NaN
65678	CS002314000037	2018-04-21	2015-12-02	NaN
65680	CS040311000022	2019-04-16	2015-04-19	NaN
32411 rows × 4 columns

elapsed_dateがすべてNaNになってしまいました。

原因を探っていきます。

relativedeltaで経過年数を算出する部分だけ抜き取ってコードを実行してみます。

1	df_tmp[['sales_ymd', 'application_date']].apply(lambda x: relativedelta(x[0], x[1]).years)

出力

1
2
3

sales_ymd           1
application_date    0
dtype: int64

本来であれば、6万ほどあるsales_ymdとapplication_dateの経過年数を出してくれるはずなのですが、一つしか出力されませんでした。

これは、applyメソッドがデフォルトで縦方向のデータ間のrelativedeltaの計算をしているためです。言い換えるとapplyメソッドはデフォルトでaxis=0を指定しており、sales_ymd列間の経過年数の計算をしてしまっているのです。

上記のコードの場合x[0]がsales_ymdの0番目である2018-11-03というデータを抽出し、x[1]がsales_ymdの1番目である2017-05-09というデータを取得して経過年数を算出してしまうのです。

以下のようにaxis=1を指定すれば、各レコードにおけるsales_ymdとapplication_date間の経過年数を算出することが出来ます。

1	df_tmp[['sales_ymd', 'application_date']].apply(lambda x: relativedelta(x[0], x[1]).years, axis=1)

出力

0        3
1        2
2        2
4        3
7        4
        ..
65672    2
65674    2
65676    1
65678    2
65680    3
Length: 32411, dtype: int64

これを踏まえ、コードを修正します。

修正は簡単でaxis=1を指定するだけです。

1 2	df_tmp['elapsed_date'] = df_tmp[['sales_ymd', 'application_date']].apply(lambda x: relativedelta(x[0], x[1]).years * 12 + relativedelta(x[0], x[1]).months, axis=1) df_tmp.head(10)

出力

	customer_id	sales_ymd	application_date	elapsed_date
0	CS006214000001	2018-11-03	2015-02-01	45
1	CS006214000001	2017-05-09	2015-02-01	27
2	CS006214000001	2017-06-08	2015-02-01	28
4	CS006214000001	2018-10-28	2015-02-01	44
7	CS006214000001	2019-09-08	2015-02-01	55
8	CS006214000001	2018-01-31	2015-02-01	35
9	CS006214000001	2017-07-05	2015-02-01	29
10	CS006214000001	2018-11-10	2015-02-01	45
12	CS006214000001	2019-04-10	2015-02-01	50
15	CS006214000001	2019-06-01	2015-02-01	52

第72問目: 経過年数の算出

P-072: レシート明細データフレーム（df_receipt）の売上日（sales_ymd）に対し、顧客データフレーム（df_customer）の会員申込日（application_date）からの経過年数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い。（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1年未満は切り捨てること。

経過年数を求める場合経過月数を求める場合と同様に、dateutil.relativedeltaモジュールを使用します。

早速問題を解きながら使い方を学んでいきましょう。

まずはdf_receiptの構造を確認します。

1	df_receipt.head(5)

出力

	sales_ymd	sales_epoch	store_cd	receipt_no	receipt_sub_no	customer_id	product_cd	quantity	amount
0	20181103	1541203200	S14006	112	1	CS006214000001	P070305012	1	158
1	20181118	1542499200	S13008	1132	2	CS008415000097	P070701017	1	81
2	20170712	1499817600	S14028	1102	1	CS028414000014	P060101005	1	170
3	20190205	1549324800	S14042	1132	1	ZZ000000000000	P050301001	1	25
4	20180821	1534809600	S14025	1102	2	CS025415000050	P060102007	1	90

df_customerの構造も確認します。

1	df_customer.head(5)

出力


customer_id	customer_name	gender_cd	gender	birth_day	age	postal_cd	address	application_store_cd	application_date	status_cd
0	CS021313000114	大野 あや子	1	女性	1981-04-29	37	259-1113	神奈川県伊勢原市粟窪**********	S14021	20150905	0-00000000-0
1	CS037613000071	六角 雅彦	9	不明	1952-04-01	66	136-0076	東京都江東区南砂**********	S13037	20150414	0-00000000-0
2	CS031415000172	宇多田 貴美子	1	女性	1976-10-04	42	151-0053	東京都渋谷区代々木**********	S13031	20150529	D-20100325-C
3	CS028811000001	堀井 かおり	1	女性	1933-03-27	86	245-0016	神奈川県横浜市泉区和泉町**********	S14028	20160115	0-00000000-0
4	CS001215000145	田崎 美紀	1	女性	1995-03-29	24	144-0055	東京都大田区仲六郷**********	S13001	20170605	6-20090929-2

まずは、df_receiptとdf_customerという２つのデータフレームから、今回の問題を解く上で必要となるカラムだけを抽出したいと思います。

今回の問題を解く上で、必要となるカラムは、customer_id, sales_ymd, application_dateですね。

df_receiptとdf_customerの間で共通的なカラムとしてcustomer_idが存在しますので、mergeを用いて内部結合で新たなデータフレームdf_tmpを作成します。

1 2	df_tmp = pd.merge(df_receipt[['customer_id', 'sales_ymd']], df_customer[['customer_id', 'application_date']], how='inner', on='customer_id') df_tmp

出力


customer_id	sales_ymd	application_date
0	CS006214000001	20181103	20150201
1	CS006214000001	20170509	20150201
2	CS006214000001	20170608	20150201
3	CS006214000001	20170608	20150201
4	CS006214000001	20181028	20150201
...	...	...	...
65677	CS004613000146	20171202	20160813
65678	CS002314000037	20180421	20151202
65679	CS002314000037	20180421	20151202
65680	CS040311000022	20190416	20150419
65681	CS040311000022	20190416	20150419
65682 rows × 3 columns

重複した行を削除します。

1 2	df_tmp = df_tmp.drop_duplicates() df_tmp

出力

	customer_id	sales_ymd	application_date
0	CS006214000001	20181103	20150201
1	CS006214000001	20170509	20150201
2	CS006214000001	20170608	20150201
4	CS006214000001	20181028	20150201
7	CS006214000001	20190908	20150201
...	...	...	...
65672	CS004411000027	20170601	20150517
65674	CS040513000029	20180607	20150915
65676	CS004613000146	20171202	20160813
65678	CS002314000037	20180421	20151202
65680	CS040311000022	20190416	20150419
32411 rows × 3 columns

経過年数を算出するためには、それぞれのデータを日付型に変換する必要があります。

sales_ymdとapplication_dateをpandas.to_datetimeを用いて日付型に変換します。

1
2
3

df_tmp['sales_ymd'] = pd.to_datetime(df_tmp['sales_ymd'], format='%Y%m%d')
df_tmp['application_date'] = pd.to_datetime(df_tmp['application_date'], format='%Y%m%d')
df_tmp

出力

<ipython-input-24-755911942cfb>:1: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_tmp['sales_ymd'] = pd.to_datetime(df_tmp['sales_ymd'], format='%Y%m%d')
<ipython-input-24-755911942cfb>:2: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_tmp['application_date'] = pd.to_datetime(df_tmp['application_date'], format='%Y%m%d')
customer_id	sales_ymd	application_date
0	CS006214000001	2018-11-03	2015-02-01
1	CS006214000001	2017-05-09	2015-02-01
2	CS006214000001	2017-06-08	2015-02-01
4	CS006214000001	2018-10-28	2015-02-01
7	CS006214000001	2019-09-08	2015-02-01
...	...	...	...
65672	CS004411000027	2017-06-01	2015-05-17
65674	CS040513000029	2018-06-07	2015-09-15
65676	CS004613000146	2017-12-02	2016-08-13
65678	CS002314000037	2018-04-21	2015-12-02
65680	CS040311000022	2019-04-16	2015-04-19
32411 rows × 3 columns

この時、Warningが出力されます。

これはデータサイエンス100本ノックの52問目〜53問目　を解いていく際に出力されたWarningと同様のものです。

今回は本コードを実行した直前のコードを、df_tmp = df_tmp.drop_duplicates().copy()とすればWarningは出力されなくなります。

df_tmp = df_tmp.drop_duplicates().copy()
df_tmp['sales_ymd'] = pd.to_datetime(df_tmp['sales_ymd'], format='%Y%m%d')
df_tmp['application_date'] = pd.to_datetime(df_tmp['application_date'], format='%Y%m%d')
df_tmp

出力


customer_id	sales_ymd	application_date
0	CS006214000001	2018-11-03	2015-02-01
1	CS006214000001	2017-05-09	2015-02-01
2	CS006214000001	2017-06-08	2015-02-01
4	CS006214000001	2018-10-28	2015-02-01
7	CS006214000001	2019-09-08	2015-02-01
...	...	...	...
65672	CS004411000027	2017-06-01	2015-05-17
65674	CS040513000029	2018-06-07	2015-09-15
65676	CS004613000146	2017-12-02	2016-08-13
65678	CS002314000037	2018-04-21	2015-12-02
65680	CS040311000022	2019-04-16	2015-04-19
32411 rows × 3 columns

このようにWarningが出力されなくなりました。

続いて、elapsed_dateという新しいカラムに、経過年数の結果を格納します。

経過年数の計算は、lambda式でateutil.relativedeltaモジュールを活用して算出します。

1 2	df_tmp['elapsed_date'] = df_tmp[['sales_ymd', 'application_date']].apply(lambda x: relativedelta(x[0], x[1]).years, axis=1) df_tmp.head(10)

出力


customer_id	sales_ymd	application_date	elapsed_date
0	CS006214000001	2018-11-03	2015-02-01	3
1	CS006214000001	2017-05-09	2015-02-01	2
2	CS006214000001	2017-06-08	2015-02-01	2
4	CS006214000001	2018-10-28	2015-02-01	3
7	CS006214000001	2019-09-08	2015-02-01	4
8	CS006214000001	2018-01-31	2015-02-01	2
9	CS006214000001	2017-07-05	2015-02-01	2
10	CS006214000001	2018-11-10	2015-02-01	3
12	CS006214000001	2019-04-10	2015-02-01	4
15	CS006214000001	2019-06-01	2015-02-01	4

これで完成です。

第73問目: 経過時間の算出

P-073: レシート明細データフレーム（df_receipt）の売上日（sales_ymd）に対し、顧客データフレーム（df_customer）の会員申込日（application_date）からのエポック秒による経過時間を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。なお、時間情報は保有していないため各日付は0時0分0秒を表すものとする。

日付型(datetime)をエポック秒にする場合、timestampメソッドを使用します。

from datetime import datetime

datetime_test = datetime(2021, 8, 10)

datetime_test.timestamp()

出力

1	1628553600.0

本問では、"2018-11-03"11"というデータ形式で格納されています。

Seriesでの方法としてデータの型変換をastypeを使用し、変換後の方としてint64型に変換するとナノ秒単位の値が得られます。

ナノ秒を秒に変換するには$10^{9}$で割ればOKです。

import pandas as pd
import numpy as np

data = pd.Series(["2021-8-10"])

pd.to_datetime(data).astype(np.int64)/ 10**9

出力

1 2	0 1.628554e+09 dtype: float64

ここまでの前提知識も踏まえて本問を解いていきたいと思います。

まずはdf_receiptとdf_customerにおいて必要なカラムのみを抽出して内部結合させます。

1 2	df_tmp = pd.merge(df_receipt[['customer_id', 'sales_ymd']], df_customer[['customer_id', 'application_date']], how='inner', on='customer_id') df_tmp

出力

	customer_id	sales_ymd	application_date
0	CS006214000001	20181103	20150201
1	CS006214000001	20170509	20150201
2	CS006214000001	20170608	20150201
3	CS006214000001	20170608	20150201
4	CS006214000001	20181028	20150201
...	...	...	...
65677	CS004613000146	20171202	20160813
65678	CS002314000037	20180421	20151202
65679	CS002314000037	20180421	20151202
65680	CS040311000022	20190416	20150419
65681	CS040311000022	20190416	20150419
65682 rows × 3 columns

重複した行を削除します。ここでcopy()を使用しないと、後々warningが出ます。

1 2	df_tmp = df_tmp.drop_duplicates().copy() df_tmp

出力

	customer_id	sales_ymd	application_date
0	CS006214000001	20181103	20150201
1	CS006214000001	20170509	20150201
2	CS006214000001	20170608	20150201
4	CS006214000001	20181028	20150201
7	CS006214000001	20190908	20150201
...	...	...	...
65672	CS004411000027	20170601	20150517
65674	CS040513000029	20180607	20150915
65676	CS004613000146	20171202	20160813
65678	CS002314000037	20180421	20151202
65680	CS040311000022	20190416	20150419
32411 rows × 3 columns

それぞれ日付型に変換をします。

1
2
3

df_tmp['sales_ymd'] = pd.to_datetime(df_tmp['sales_ymd'].astype('str'))
df_tmp['application_date'] = pd.to_datetime(df_tmp['application_date'].astype('str'))
df_tmp

出力

	customer_id	sales_ymd	application_date
0	CS006214000001	2018-11-03	2015-02-01
1	CS006214000001	2017-05-09	2015-02-01
2	CS006214000001	2017-06-08	2015-02-01
4	CS006214000001	2018-10-28	2015-02-01
7	CS006214000001	2019-09-08	2015-02-01
...	...	...	...
65672	CS004411000027	2017-06-01	2015-05-17
65674	CS040513000029	2018-06-07	2015-09-15
65676	CS004613000146	2017-12-02	2016-08-13
65678	CS002314000037	2018-04-21	2015-12-02
65680	CS040311000022	2019-04-16	2015-04-19
32411 rows × 3 columns

エポック秒での経過時間を求めます。

1 2	df_tmp['elapsed_date'] = (df_tmp['sales_ymd'].astype(np.int64)/109) - (df_tmp['application_date'].astype(np.int64)/109) df_tmp.head(10)


customer_id	sales_ymd	application_date	elapsed_date
0	CS006214000001	2018-11-03	2015-02-01	118454400.0
1	CS006214000001	2017-05-09	2015-02-01	71539200.0
2	CS006214000001	2017-06-08	2015-02-01	74131200.0
4	CS006214000001	2018-10-28	2015-02-01	117936000.0
7	CS006214000001	2019-09-08	2015-02-01	145152000.0
8	CS006214000001	2018-01-31	2015-02-01	94608000.0
9	CS006214000001	2017-07-05	2015-02-01	76464000.0
10	CS006214000001	2018-11-10	2015-02-01	119059200.0
12	CS006214000001	2019-04-10	2015-02-01	132105600.0
15	CS006214000001	2019-06-01	2015-02-01	136598400.0

これで完成です。

第74問目: 月曜日からの経過日数の計算

P-074: レシート明細データフレーム（df_receipt）の売上日（sales_ymd）に対し、当該週の月曜日からの経過日数を計算し、売上日、当該週の月曜日付とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値でデータを保持している点に注意）。

日付型(datetime)のweekdayメソッドは曜日を0-6の数字として得ることができます。

また、このweekdayメソッドを使用することで、月曜日の日付を取得することができます。

以下にサンプルコードとともに方法を紹介します。

from datetime import datetime
from dateutil.relativedelta import relativedelta

datetime_test = datetime(2021, 8, 10)
date = datetime_test.weekday()

result = datetime_test - relativedelta(days=date)
result

出力

1	datetime.datetime(2021, 8, 9, 0, 0)

すなわち、2021年8月9日が月曜日であることがわかります。

これらの前提知識をもとに、本問を解いていきましょう。

まずは、必要なカラムのみを抽出します。本問における必要なカラムは、customer_idとsales_ymdとなります。

1 2	df_tmp = df_receipt[['customer_id', 'sales_ymd']] df_tmp.head(5)

出力

	customer_id	sales_ymd
0	CS006214000001	20181103
1	CS008415000097	20181118
2	CS028414000014	20170712
3	ZZ000000000000	20190205
4	CS025415000050	20180821

重複している行は削除します。

1	df_tmp = df_tmp.drop_duplicates()

sales_ymdカラムのデータを日付型に変換します。

1 2	df_tmp['sales_ymd'] = pd.to_datetime(df_tmp['sales_ymd'].astype('str')) df_tmp.head(5)

出力

	customer_id	sales_ymd
0	CS006214000001	2018-11-03
1	CS008415000097	2018-11-18
2	CS028414000014	2017-07-12
3	ZZ000000000000	2019-02-05
4	CS025415000050	2018-08-21

mondayカラムに各々のsales_ymdの日付における月曜日の日付を格納します
各日付における月曜日を算出し、経過日数をelapsed_weekdayカラムに格納して出力します。

1 2	df_tmp['monday'] = df_tmp['sales_ymd'].apply(lambda x: x - relativedelta(days=x.weekday())) df_tmp.head(5)

出力

customer_id	sales_ymd	monday
0	CS006214000001	2018-11-03	2018-10-29
1	CS008415000097	2018-11-18	2018-11-12
2	CS028414000014	2017-07-12	2017-07-10
3	ZZ000000000000	2019-02-05	2019-02-04
4	CS025415000050	2018-08-21	2018-08-20

sales_ymdからmondayを引き算することで経過日数を算出し、elapsed_weekdayというカラムに代入して出力します

1 2	df_tmp['elapsed_weekday'] = df_tmp['sales_ymd'] - df_tmp['monday'] df_tmp.head(10)

出力

	customer_id	sales_ymd	monday	elapsed_weekday
0	CS006214000001	2018-11-03	2018-10-29	5 days
1	CS008415000097	2018-11-18	2018-11-12	6 days
2	CS028414000014	2017-07-12	2017-07-10	2 days
3	ZZ000000000000	2019-02-05	2019-02-04	1 days
4	CS025415000050	2018-08-21	2018-08-20	1 days
5	CS003515000195	2019-06-05	2019-06-03	2 days
6	CS024514000042	2018-12-05	2018-12-03	2 days
7	CS040415000178	2019-09-22	2019-09-16	6 days
8	ZZ000000000000	2017-05-04	2017-05-01	3 days
9	CS027514000015	2019-10-10	2019-10-07	3 days

これで完成です。

まとめ: 年月日、月曜からの経過時間の算出方法を学びました。

本記事は、「【解説】データサイエンス100本ノック【問70〜74 回答】」というテーマでまとめました。

本記事で紹介した方法を元にデータサイエンティストとしての知見を深めていただければと思います。

なお、データサイエンティストに必要な知識は、TechAcademyのデータサイエンスコースでの学習がおすすめです。

#datascience

【解説】データサイエンス100本ノック【問70〜74 回答】

第70問目: 経過日数の計算

第71問目: 経過月数の算出

第72問目: 経過年数の算出

第73問目: 経過時間の算出

第74問目: 月曜日からの経過日数の計算

まとめ: 年月日、月曜からの経過時間の算出方法を学びました。

コメント

カテゴリ

最近の記事

アーカイブ

タグ

广告