taki["blog"] = "200 OK" (R)

社会人4年目(東京1年目)の日常

2019/1/7 解

今日から労働の月曜日(a.k.a.つらい).始業式とか,顔合わせとか,そういうやつ(弊社は1/1が組織などの変更がある).初日から飛ばすと体に悪いと思い,そんなに仕事せずに帰った(定時上がり).夜は歯医者に行って,筋トレして脱力した(Tw参).

ところで新年になったので(自明),昨日の日記で触れていた日記のタイトルについてメモしておく.

作成したスクリプトをこのブログを対象にして実行すると,次の結果が得られた.

> print(len(counter))
269

つまり365日,違う1文字を選んだつもりだったけど,実際のユニークなタイトル数*1は269だったと分かり,そこそこの重複が発生してしまっていた.語彙力を高めたい.もう少し細かく見ていると,上位はこのようなタイトルだった.肉食べ過ぎ雨降り過ぎ飲み過ぎ帰り過ぎ続き過ぎ終わり過ぎ問題が発生していた.この上位漢字以降は2回出現した漢字が42個続き,1回のみ使われた漢字は206個だった.

> print(counter.most_common(n=21))
[('肉', 6),
 ('雨', 6),
 ('帰', 5),
 ('飲', 5),
 ('続', 4),
 ('終', 4),
 ('連', 4),
 ('忘', 3),
 ('記', 3),
 ('試', 3),
 ('疲', 3),
 ('残', 3),
 ('準', 3),
 ('訪', 3),
 ('備', 3),
 ('調', 3),
 ('映', 3),
 ('運', 3),
 ('新', 3),
 ('柔', 3),
 ('雪', 3)]

具体的な出現回数のリストは,次のスクリプトで計算できる(おそらく,もっと良い方法がある).

from itertools import groupby
listvalue = sorted(list(counter.values()))
[len(list(group)) for key, group in groupby(listvalue)]

結果として次を得る.

[206, 42, 14, 3, 2, 2]

意外と楽しかったので,今年の振り返りにも似たようなことをやるつもり.ガチ勢だったら,今年使った漢字は来年使わない,みたいなヤバいゲームができそうだけど,そんなにタイトルを覚えてられない(自明)ので,タイトル遊びはこの辺りで.2-gramとか3-gramまで見てみると,何か面白いかもしれない(たぶん面白くない).

*1:ほぼすべての日記は1文字漢字/記号になっているが,大人気コンテンツの「いきなりデート」という文字列がたまに入る