Evernote 手書き文字データ収集に協力 [実験]
やっと、EN社の日本語手書き文字データ収集に協力した。
しかし、なんだってこんなに難しい漢字ばかり書かせるん?
文字を知らない私の場合は、50題のうちパッと見で書けたのは、数えるほどしかない。
読めもしない漢字が結構ある。
漢字とひらがなのセット、文節でデータ収集して、どう処理するのか、想像もつかないが、このワンセットをインデックス候補とするために選定されているのなら、よほどカバー範囲を大きく見ているのだと思わざるをえない。
広辞苑とは言わないが、簡単な辞書よりは広い。 電子辞書と考えれば当たり前だが。
ひょっとして、何か出題元があって、その文章を分解したインデックス候補を、部首などのある規則で並べなおしてテストペーパーをつくっているのかな?
もし出題元があるなら、文科系の文書だ。 文学作品のような。
しかし、助詞の使い方にわざとらしいというか、不自然な文節もあるので、単語にわけて、ランダムに助詞との組合せを作っているのか?
いずれにしろ、目標サンプル数はかなり多いと見たが、どうだろう。
それとも何か業界で知られたハイテクな方法があるのだろうか?
サンプル音源でボカロつくるんじゃないんだから。
あーーー、単に難度の高い文字を手書きすると、ひらがなとのバランスが崩れるところを見ているのか?
いや、私が文字を知らないからか。 「一攫千金が」なんて生まれてこのかた、書いたことあったかな。
しかし、なんだってこんなに難しい漢字ばかり書かせるん?
文字を知らない私の場合は、50題のうちパッと見で書けたのは、数えるほどしかない。
読めもしない漢字が結構ある。
漢字とひらがなのセット、文節でデータ収集して、どう処理するのか、想像もつかないが、このワンセットをインデックス候補とするために選定されているのなら、よほどカバー範囲を大きく見ているのだと思わざるをえない。
広辞苑とは言わないが、簡単な辞書よりは広い。 電子辞書と考えれば当たり前だが。
ひょっとして、何か出題元があって、その文章を分解したインデックス候補を、部首などのある規則で並べなおしてテストペーパーをつくっているのかな?
もし出題元があるなら、文科系の文書だ。 文学作品のような。
しかし、助詞の使い方にわざとらしいというか、不自然な文節もあるので、単語にわけて、ランダムに助詞との組合せを作っているのか?
いずれにしろ、目標サンプル数はかなり多いと見たが、どうだろう。
それとも何か業界で知られたハイテクな方法があるのだろうか?
サンプル音源でボカロつくるんじゃないんだから。
あーーー、単に難度の高い文字を手書きすると、ひらがなとのバランスが崩れるところを見ているのか?
いや、私が文字を知らないからか。 「一攫千金が」なんて生まれてこのかた、書いたことあったかな。
タグ:Evernote
コメント 0