2020年2月19日水曜日

【読書感想文】思想弾圧の化石 / エレツ・エイデン ジャン=バティースト・ミシェル『カルチャロミクス』

このエントリーをはてなブックマークに追加

カルチャロミクス

文化をビッグデータで計測する

エレツ・エイデン
ジャン=バティースト・ミシェル
阪本 芳久 (訳)

内容(Amazonより)
Googleがスキャンした過去数世紀分の膨大な書籍データから、年ごとに使われている単語・フレーズの使用頻度をグラフに示す「グーグル・Nグラム・ビューワー」が誕生した。この技術の登場で、文献をビッグデータとして活用するまったく新しい人文科学が誕生した。実現に導いたふたりの科学者は本をビッグデータとして扱い、研究に活用する新しい学問を「カルチャロミクス」と名づけ、その誕生の経緯と意義を熱く語る。人文科学が「定量化」時代に突入する“文系”フロンティアの幕開けだ!
Google Ngram Viewer なるサイトがある。

過去100年以上に世界中で出版された大半の本に使われた言葉をデータ化し、その言葉がどれぐらい使われたかを年ごとにグラフ化できるサービスだ。無料。
(残念ながら2020年2月時点で日本語は非対応)

たとえばこれは、1800年以降に[America][USA][China][Japan]という言葉がどれだけ本に使われたかを示すグラフ。

19世紀、世界的に中国も日本も重要な国ではなかった。日本などほぼ話題にされていないに等しい。
ところが1900年頃から[China]と[Japan]に関する記述が増えはじめる。日清戦争(1894-1895)を経て、世界的に存在感を増してきたことが原因だろう。
その後、第一次世界大戦(1914-1918)と第二次世界大戦(1939-1945)の時期には三国とも記述が増える。おそらくこの時期は大戦に参加したすべての国が多く言及されたことだろう。
その後[China]は横ばい。
戦後になって急激に[USA]が増える。[USA]は戦後に使われるようになった言葉なんだね。[USA]にとって代わられた[America]は微減。
Japanは戦後一定を保つが、1980年頃から急上昇。ジャパン・アズ・ナンバーワンの時代。この時期はじめて[China]を超える。
が、バブル崩壊とともに[Japan]は失速。急激に世界からの関心を失い、入れ替わるように存在感を増した[China]に大きく水をあけられている(ちなみにこのグラフの右端は2008年なので、現在はもっと大差をつけられているはず)。

こんなふうに、人名、俗語、一般名詞など、いろんな言葉の隆盛が手に取るようにわかる。
ふうむ、おもしろい。
早く日本語版をリリースしてくれー。



『カルチャロミクス』は、このNgram Viewerを開発したふたりの研究者による、開発の顛末とそこから導き出される知見についての本。

Ngram Viewerを生みだすまでには並々ならぬ苦労があったようだ。
まずこれまでに出版されたありとあらゆる本を電子データ化すること。これはGoogleが既にやっていたプロジェクトらしいが、何人ものスタッフが1ページずつ本をめくってスキャンしていったそうで、とんでもない労力だ。
金になるかわからないけど莫大な労力のかかるプロジェクトに金を出すなんて、さすがはGoogleだよなあ。でも金になるんだろうなあ。
国家がやらなきゃいけないことを私企業がやってるんだもんなあ。[Google]の影響力が[Japan]を上回るのも時間の問題かもしれない。

ちなみにGoogle Ngram Viewerにおける[Toyota][Sony][Google]の1950-2008年のグラフがこちら。

Googleの躍進ぶりがいかにすごいかがよくわかる(何度も言うけどグラフの右端は2008年だから今はもっと差があるからね!)。


Google Ngram Viewerが日本語に非対応なのは、スキャンデータを電子化するのが難しいからだろうね。アルファベットは形がシンプルだし種類も少ないから文字を自動判別するのが楽だろうけど、漢字は難しいんだろうな。
画数が多い字なんかはスキャンの仕方やフォントによって別の字とまちがえられてしまうだろうから(柿(かき)と杮(こけら)なんか見分けるのはほぼ不可能だろう)。



技術的な問題だけでなく、法的な問題も立ちはだかったらしい。
本には著作権があるから、万が一スキャンデータが流出したりしたらとんでもないことになる。一億冊以上の本のデータが流出したら、数百万件の訴訟を起こされるリスクがある。
そのため、新しい本の情報は扱いにくい、単語単位での分析はできるが文章単位での分析はできないなどいろんな制約がかかったらしい。

たいへんだあ。
いくらGoogleとはいえ数百万件の訴訟を起こされたらひとたまりもないだろう。
そりゃ扱いも慎重にもなるわな。

そんな幾多の試練を乗り越え、完成した Ngram Viewer。
著者たちは、まるで新しいおもちゃを与えられた子どものようにNgram Viewerでいろんなことを調べている。


たとえば不規則動詞について。
ふつうの動詞は[-ed]をつければ過去形、過去分詞形になるが、たとえば[go]は[go-goed-goed]ではなく[go-went-gone]という不規則な変化をする。

英語を勉強した人なら、きっと誰しもが「なんで不規則動詞があるんだよ」とおもったことだろう。ぼくもおもった。
すべてが規則動詞なら英語の勉強もぐっと楽になったのに。

ところが、不規則動詞が今も残っているのにはちゃあんとわけがあるのだ。
drive(その過去形がdrove)は英語の不規則動詞の一つである。不規則動詞には意外なところがある。不規則動詞も他の品詞に属す大半の単語と同じようにジップの法則に従うのなら、不規則動詞の大半はめったに使用されないと考えていいだろう。ところが実際には、ほぼすべての不規則動詞がきわめて頻繁に使用されている。不規則動詞は動詞全体の三パーセントを占めるにすぎないが、使用頻度の上位一〇位までに入る動詞は、すべて不規則動詞なのだ20。簡単に言えば、不規則動詞はジップの法則の印象的な例外なのである。不規則動詞こそ、われわれが追い求めていたものにほかならなかった。ティラノサウルス・レックスの骨格のありかが、うまいぐあいに統計的データという目印によって示されたのと同じように、調査すべき対象が見つかった。
元々動詞の活用の仕方はばらばらだったらしい。
だがあるときから[-ed]をつければ過去形、過去分詞系になるという法則ができ、次第に動詞の活用は置き換わっていった。
まっさきに置き換わったのは、めったに使われない動詞だ。
めったに使われないので「これの過去形ってどうだったっけ? まあ[-ed]つけときゃいっか!」みたいな感じで、あっさり置き換わってしまうのだ。

その結果、現在生き残っている不規則動詞はよく使われるものばかり。
[be] [do] [go] [think] [have] [say] など、使用頻度の高い動詞ほど規則的な活用をしにくいのだ。
使用頻度が高いから、イレギュラーな活用をしても忘れられないからだ。

筆者たちは過去のデータを元に、今後も不規則動詞はどんどん減っていくと予想する。既にいくつかの不規則動詞が消滅(規則動詞化)に瀕しているらしい。
未来の中高生はちょっとだけ英語学習が楽になるね。



思想弾圧があると、ある種の単語の使用頻度が急激に減る。
 検閲や抑圧・弾圧といった行為は、どの地で行なわれているかにかかわらず、特徴的な痕跡を残す場合が多い。特定の語や言葉が突然メディアに登場しなくなるのだ。このような語彙の欠落は、出現頻度の統計的データに顕著に現われる場合が多いので、何が抑圧の対象になっているのかを解明する一助として、ビッグデータの「数の力」を利用することができる。
 この手法の仕組みを理解するために、ナチス・ドイツの時代に戻ってみよう。ここでの目標は、一九三三年から一九四五年までの第三帝国の時代に、知名度(名声)がシャガールと同じように下がった人物を探すことである。知名度の下落の大きさは、ある人物の第三帝国時代の知名度と第三帝国成立前および消滅後の知名度を比較すれば、数値として表わせる。たとえば、ある人物の名の本の中での言及頻度が一九二〇年代と一九五〇年代は一〇〇〇万語当たり一回だったのに、ナチス政権下では一億語当たり一回だったとすれば、知名度は一〇分の一に下がったことになる(下落の大きさは一〇という数値で表わせる)。これは、その人物の名前が検閲の対象となって削除されたか、当人が何らかの形で抑圧されていたことを示唆している。逆に、一〇〇〇万語当たり一回だった言及頻度がナチス政権下では一〇倍の一〇〇万語当たり一回に上昇していれば、その人物は政府による宣伝の恩恵を受けていた可能性がある。このように、ナチス政権下での知名度とその前後の時代での知名度を比較すれば、さまざまな人物の名を取り上げて、それぞれに知名度の下落の大きさ、ないしは上昇の大きさを表わす「抑圧スコア」を割り当てることができる。こうしておけば、次はこの抑圧スコアが、社会的に抑圧されていた人物を割り出すのに一役買ってくれる。
一部の芸術家、思想家、ユダヤ人学者などはナチス政権下で弾圧されたため、その期間のドイツ語の本に登場する頻度ががくっと下がる。

「急に注目されるようになった人物・事象」は話題にのぼることが多いので目に付くが、「話題にならなくなった人物・事象」には気づきにくい。
死語といえば? と尋ねたら「ナウなヤング」といった答えが返ってくるだろうが、そういう言葉は意識されているのでほんとには死んでいない。ほんとの死語は死語として意識されることすらないのだ。

だが Ngram Viewerを見れば、特定の国・時代だけで不自然に使われなくなった言葉がわかる。それはつまり「抑圧された思想」なのだ。
弾圧が化石として残る。これは後世のためにもぜひ残しておかなければならないプロジェクトだ。国家を挙げてでも。
でも、権力者からすると弾圧の痕跡が残ってしまうのは避けたいだろうから無理かもしれない……。



Ngram Viewerで得られた考察を見ても「ふーん。おもしろいねー」とおもうだけで特に何の役に立つわけでもない。だが研究とはそういうものだ。それでいい。

著者たちが楽しんでいることだけは存分に伝わってくる。
Ngram Viewerみたいなおもちゃ、言語マニアにはたまらないだろうなあ。

国語辞典が好きな人なら一日中 Ngram Viewer で楽しめるはず。

【関連記事】

【読書感想文】人の言葉を信じるな、行動を信じろ/セス・スティーヴンズ=ダヴィドウィッツ『誰もが嘘をついている』

なぜ「死ぬ」を「死む」といってしまうのか



 その他の読書感想文はこちら


このエントリーをはてなブックマークに追加

0 件のコメント:

コメントを投稿