Skip to content

shuheilocale/japanese-personal-name-dataset

Repository files navigation

Japanese Persional Name Dataset

日本人の姓名データセット

データ仕様

データセットは以下にて構成されています。

  1. 男性の名 ・・・ first_name_man_org.csv
  2. 男性の名(最適化) ・・・ first_name_man_opti.csv
  3. 女性の名 ・・・ first_name_woman_org.csv
  4. 女性の名(最適化) ・・・ first_name_woman_opti.csv
  5. 姓 ・・・ last_name_org.csv
  • 最適化とは、独断で有名な名前のみを抜粋したものです。
  • 各ファイルはCSV形式、文字コードUTF-8、改行コードLFとなります。

CSVフォーマット

一行につき、一つの名です。
各列は、
1列目:ひらがな
2列目:ローマ字
3列目~:漢字
となります。
漢字列については、各名前で可変です。

一行につき、一つの姓です。
各列は、

1列目:漢字
2列目:推定人数
3列目:ひらがな
4列目:ローマ字
となります。

ローマ字はヘボン式です(確認はしていますが、ミスがある可能性もあります)。

データ数

姓名の種類は下記の通りです。

  1. 男性の名 ・・・ 5,678種類
  2. 男性の名(最適化) ・・・ 703種類
  3. 女性の名 ・・・ 3,346種類
  4. 女性の名(最適化) ・・・ 241種類
  5. 姓 ・・・ 2,000種類

また、漢字の種類の平均、標準偏差、中央値、最頻値、最大値、最小値はそれぞれ下記の通りです。

  1. 男性の名 ・・・10、26、2、1、447、1
  2. 男性の名(最適化) ・・・ 45、59、27、4、447、1
  3. 女性の名 ・・・ 11、26、2、1、398、1
  4. 女性の名(最適化) ・・・ 51、55、32、2、291、1

参考

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages