N-gramとの比較
- pafumars
- 4月22日
- 読了時間: 3分
前回のブログで書いた風景と景観という言葉についていの分析(『名所の誕生―「名」を与えられた風景』所収)ですが、その要点の一つが、視覚的な眺めの受容を表す言葉として、戦前は「風景」という言葉が一般的に使われてきたが、戦後になり、それに代るように「景観」が主に使われるようになったという変遷を、論文・記事のデータの頻度の解析から示しました。その言葉の使用の変化がなぜ起こったかを考えたのが、論文の主題なのですが、この統計分析そのものをめぐって、他にも言葉の使用頻度を明らかにできるデータがあります。
国立国会図書館がNDLラボとして公開しているNDL Ngram Viewerです。これは、国立国会図書館が勧めているデジタル化資料のOCR全文テキストデータを利用したものなのですが、言葉の使用頻度の変化を瞬時に表示できるという画期的なものです。それを使って風景と景観の使用頻度の変化を示したのが、上の図です(「雑誌」分類に登場した言葉の頻度の変化)。下の図は私が論考で示した、風景と景観の使用頻度の変化を別々に示したものです。うーむ、だいぶ違いますよね。ただし、下の私の図については縦軸の頻度(%)が二つのグラフで大きな違いがあります。つまり、景観の方が%が極めて低いものになっているのです。ですので、この二つのグラフを一つのグラフに収めてしめせば、上の図のように、景観の頻度がずっと低いままで、それが反転するのは2000年代後半から、という同じようなグラフになるのかなとも思います。ちなみにそれ以降上の図で風景も景観も極端に頻度が低くなっているのは、まだOCR化が追いついていないからなのではないかと判断できます。
しかし、そうした補正を行って上の図と下の図を比較しても、やはり大きな違いを指摘できるところはたくさんありそうです。そもそも下の私が作成した図は民間のデータベースを使っていて、その制約から単に雑誌のタイトルに風景・景観を含む論文・記事をすべて拾ってしまっているので、変化が極端になってこともあるでしょう。それと、このことが、こうした頻度の変化を考える上で重要になるのですが、私の図(下)が、それぞれの言葉が含まれるものを全体の論文・記事の中での割合で示した単純な数値で頻度を表したものであるのに対して、NDL(上の図)は、名称にもあるようにNgramの数値を使っています。Ngramとは、任意の文字列をN文字で区切った形で表す方法で、統計処理、とりわけこうした全文検索では一般的に使われる言葉の把握(解析)方法です。簡単に言ってしまうと、下の図が示す頻度とは、データベース上のすべての雑誌の文章を一つの文章に繋げてしまって、その中でどれだけの頻度になっているかを計っているのですね。
そうなると、上の図と下の図の違いは、例えば上の図では1つの論文に数多く風景という言葉が使われていても、それはあくまで1件としてカウントしますが、Ngramを使った頻度では、その使われた回数も頻度のアカウントに組み入れられることになるわけです(ややこしいですかね)。ですので、この違いによる頻度データの差も、改めて分析してみる価値はあるのかもしれません。

