カルチャロミクス
文化をビッグデータで計測する
エレツ・エイデン
ジャン=バティースト・ミシェル
阪本 芳久 (訳)
Google Ngram Viewer なるサイトがある。
過去100年以上に世界中で出版された大半の本に使われた言葉をデータ化し、その言葉がどれぐらい使われたかを年ごとにグラフ化できるサービスだ。無料。
(残念ながら2020年2月時点で日本語は非対応)
たとえばこれは、1800年以降に[America][USA][China][Japan]という言葉がどれだけ本に使われたかを示すグラフ。
ところが1900年頃から[China]と[Japan]に関する記述が増えはじめる。日清戦争(1894-1895)を経て、世界的に存在感を増してきたことが原因だろう。
その後、第一次世界大戦(1914-1918)と第二次世界大戦(1939-1945)の時期には三国とも記述が増える。おそらくこの時期は大戦に参加したすべての国が多く言及されたことだろう。
その後[China]は横ばい。
戦後になって急激に[USA]が増える。[USA]は戦後に使われるようになった言葉なんだね。[USA]にとって代わられた[America]は微減。
Japanは戦後一定を保つが、1980年頃から急上昇。ジャパン・アズ・ナンバーワンの時代。この時期はじめて[China]を超える。
が、バブル崩壊とともに[Japan]は失速。急激に世界からの関心を失い、入れ替わるように存在感を増した[China]に大きく水をあけられている(ちなみにこのグラフの右端は2008年なので、現在はもっと大差をつけられているはず)。
こんなふうに、人名、俗語、一般名詞など、いろんな言葉の隆盛が手に取るようにわかる。
ふうむ、おもしろい。
早く日本語版をリリースしてくれー。
『カルチャロミクス』は、このNgram Viewerを開発したふたりの研究者による、開発の顛末とそこから導き出される知見についての本。
Ngram Viewerを生みだすまでには並々ならぬ苦労があったようだ。
まずこれまでに出版されたありとあらゆる本を電子データ化すること。これはGoogleが既にやっていたプロジェクトらしいが、何人ものスタッフが1ページずつ本をめくってスキャンしていったそうで、とんでもない労力だ。
金になるかわからないけど莫大な労力のかかるプロジェクトに金を出すなんて、さすがはGoogleだよなあ。でも金になるんだろうなあ。
国家がやらなきゃいけないことを私企業がやってるんだもんなあ。[Google]の影響力が[Japan]を上回るのも時間の問題かもしれない。
ちなみにGoogle Ngram Viewerにおける[Toyota][Sony][Google]の1950-2008年のグラフがこちら。
Googleの躍進ぶりがいかにすごいかがよくわかる(何度も言うけどグラフの右端は2008年だから今はもっと差があるからね!)。
Google Ngram Viewerが日本語に非対応なのは、スキャンデータを電子化するのが難しいからだろうね。アルファベットは形がシンプルだし種類も少ないから文字を自動判別するのが楽だろうけど、漢字は難しいんだろうな。
画数が多い字なんかはスキャンの仕方やフォントによって別の字とまちがえられてしまうだろうから(柿(かき)と杮(こけら)なんか見分けるのはほぼ不可能だろう)。
技術的な問題だけでなく、法的な問題も立ちはだかったらしい。
本には著作権があるから、万が一スキャンデータが流出したりしたらとんでもないことになる。一億冊以上の本のデータが流出したら、数百万件の訴訟を起こされるリスクがある。
そのため、新しい本の情報は扱いにくい、単語単位での分析はできるが文章単位での分析はできないなどいろんな制約がかかったらしい。
たいへんだあ。
いくらGoogleとはいえ数百万件の訴訟を起こされたらひとたまりもないだろう。
そりゃ扱いも慎重にもなるわな。
そんな幾多の試練を乗り越え、完成した Ngram Viewer。
著者たちは、まるで新しいおもちゃを与えられた子どものようにNgram Viewerでいろんなことを調べている。
たとえば不規則動詞について。
ふつうの動詞は[-ed]をつければ過去形、過去分詞形になるが、たとえば[go]は[go-goed-goed]ではなく[go-went-gone]という不規則な変化をする。
英語を勉強した人なら、きっと誰しもが「なんで不規則動詞があるんだよ」とおもったことだろう。ぼくもおもった。
すべてが規則動詞なら英語の勉強もぐっと楽になったのに。
ところが、不規則動詞が今も残っているのにはちゃあんとわけがあるのだ。
元々動詞の活用の仕方はばらばらだったらしい。
だがあるときから[-ed]をつければ過去形、過去分詞系になるという法則ができ、次第に動詞の活用は置き換わっていった。
まっさきに置き換わったのは、めったに使われない動詞だ。
めったに使われないので「これの過去形ってどうだったっけ? まあ[-ed]つけときゃいっか!」みたいな感じで、あっさり置き換わってしまうのだ。
その結果、現在生き残っている不規則動詞はよく使われるものばかり。
[be] [do] [go] [think] [have] [say] など、使用頻度の高い動詞ほど規則的な活用をしにくいのだ。
使用頻度が高いから、イレギュラーな活用をしても忘れられないからだ。
筆者たちは過去のデータを元に、今後も不規則動詞はどんどん減っていくと予想する。既にいくつかの不規則動詞が消滅(規則動詞化)に瀕しているらしい。
未来の中高生はちょっとだけ英語学習が楽になるね。
思想弾圧があると、ある種の単語の使用頻度が急激に減る。
一部の芸術家、思想家、ユダヤ人学者などはナチス政権下で弾圧されたため、その期間のドイツ語の本に登場する頻度ががくっと下がる。
「急に注目されるようになった人物・事象」は話題にのぼることが多いので目に付くが、「話題にならなくなった人物・事象」には気づきにくい。
死語といえば? と尋ねたら「ナウなヤング」といった答えが返ってくるだろうが、そういう言葉は意識されているのでほんとには死んでいない。ほんとの死語は死語として意識されることすらないのだ。
だが Ngram Viewerを見れば、特定の国・時代だけで不自然に使われなくなった言葉がわかる。それはつまり「抑圧された思想」なのだ。
弾圧が化石として残る。これは後世のためにもぜひ残しておかなければならないプロジェクトだ。国家を挙げてでも。
でも、権力者からすると弾圧の痕跡が残ってしまうのは避けたいだろうから無理かもしれない……。
Ngram Viewerで得られた考察を見ても「ふーん。おもしろいねー」とおもうだけで特に何の役に立つわけでもない。だが研究とはそういうものだ。それでいい。
著者たちが楽しんでいることだけは存分に伝わってくる。
Ngram Viewerみたいなおもちゃ、言語マニアにはたまらないだろうなあ。
国語辞典が好きな人なら一日中 Ngram Viewer で楽しめるはず。
その他の読書感想文はこちら
0 件のコメント:
コメントを投稿