日本人の姓名データセット
データセットは以下にて構成されています。
- 男性の名 ・・・ first_name_man_org.csv
- 男性の名(最適化) ・・・ first_name_man_opti.csv
- 女性の名 ・・・ first_name_woman_org.csv
- 女性の名(最適化) ・・・ first_name_woman_opti.csv
- 姓 ・・・ last_name_org.csv
- 最適化とは、独断で有名な名前のみを抜粋したものです。
- 各ファイルはCSV形式、文字コードUTF-8、改行コードLFとなります。
一行につき、一つの名です。
各列は、
1列目:ひらがな
2列目:ローマ字
3列目~:漢字
となります。
漢字列については、各名前で可変です。
一行につき、一つの姓です。
各列は、
1列目:漢字
2列目:推定人数
3列目:ひらがな
4列目:ローマ字
となります。
ローマ字はヘボン式です(確認はしていますが、ミスがある可能性もあります)。
姓名の種類は下記の通りです。
- 男性の名 ・・・ 5,678種類
- 男性の名(最適化) ・・・ 703種類
- 女性の名 ・・・ 3,346種類
- 女性の名(最適化) ・・・ 241種類
- 姓 ・・・ 2,000種類
また、漢字の種類の平均、標準偏差、中央値、最頻値、最大値、最小値はそれぞれ下記の通りです。
- 男性の名 ・・・10、26、2、1、447、1
- 男性の名(最適化) ・・・ 45、59、27、4、447、1
- 女性の名 ・・・ 11、26、2、1、398、1
- 女性の名(最適化) ・・・ 51、55、32、2、291、1