コンユウメモ @kon_yu

作ったガラクタとか、旅行とかの話

「C」の茶の国から「T」の茶の国へと、本当に違う種類の国へ行くことができるのかデータ分析

f:id:kon_yu:20200208162245p:plain

イントロダクション

バックパッカーのバイブル沢木耕太郎深夜特急で、ハナモチ氏という人物がお茶について語っているシーンが有る。

手元にある文庫版の第5巻を確認するとこんな一節である。

「彼らはTで始まるチャイを飲んでいる。でも、僕たちはCのチャイを飲んでいるのさ」

中略

私はトルコからギリシャに入ることで、アジアからヨーロッパへ、イスラム教圏からキリスト教圏へ、茶の国からコーヒーの国へ、「C」の茶の国から「T」の茶の国へと、違う種類の国へ来てしまっていたのだ。

というようにユーラシア大陸を東から西に行くとお茶の名前がChaからTeに変わるのだ。

北京語でお茶のことをチャーと発音するように、中国から陸路で伝わった茶はトルコまでCha系の発音で呼ばれることになる。

ではTeの方はというと、オランダがお茶を輸入した福建省あたりのビン南語ビン南語ではお茶のことをテーと発音するようで、そのオランダが海路で運んでいたため、オランダの植民地やヨーロッパ諸国ではお茶のことをティーやテーなどの発音表現する。

というわけでこのどこの国がCha系の国で、どこの国がTe系のなのか、テクノロジーを駆使して調べてみた。

調査方法

Googleスプレッドシートの翻訳関数

Googleスプレッドシートの関数に、GOOGLETRANSLATEというものがあり、日本語から英語へなど翻訳を行ってくれる。

例えばこんな風にセルにかいてあげると

=GOOGLETRANSLATE("tea","en","ja")

お茶と出力される

この関数の変数はそれぞれ

  1. 訳したい文字
  2. 翻訳元の言語2文字の略称
  3. 翻訳先の言語2文字の略称

となっている。つまり各言語のこの2文字のコードを片っ端から調べて、英語のteaから翻訳してやれば良いのだ。

この機能を知ったきっかけはサンミンさん@gijigaeのこのツイート

このツイートを見て各言語ごとにChaかTeか調べることができると思ったのがこの調査を始めたきっかけである。

ISO 639-1 言語を2文字表現

さきほどの2文字のコードは何かというと、国際規格のISO 639-1であるようだ。 このISO 639-1のリストをWikipediaから引っ張ってきた。

ja.wikipedia.org

そして翻訳した結果はこちら docs.google.com

表の中で#VALUE! となっているのはGoogle翻訳が対応していない。すべてのISO 639-1で定義されている言語にGoogle翻訳は対応していないようだ。

この結果ISO 639-1の言語184言語中、101言語の翻訳できた。

というかGoogle翻訳って101言語対応してるの?すごない!!

ここまでの結果により翻訳に対応していない言語をフィルタリングできる。

Google翻訳ページ

Google翻訳のページでは、メジャーな言語はその翻訳とともに発音を再生してくれる機能が存在する。

またGoogle翻訳のページのURLは、ISO 639-1コードと翻訳したい文字をURLに含めることで動的に生成できる。

このようにセルを設定する

=concatenate("https://translate.google.com/?hl=ja&op=translate&sl=en&tl=", D77,"&text=tea")

するとGoogle翻訳のリンクを作ることができる

https://translate.google.com/?hl=ja&op=translate&sl=en&tl=ja&text=tea

forvo.com

forvo.comは各地の言語の単語の発音を登録できるサービスでありこちらもURLを動的に生成できる。

こちらもこのようにセルを設定する

=concatenate("https://forvo.com/word/",E77 ,"/#", D77)

するとforvo.comのリンクを作ることができる

https://forvo.com/word/お茶/#ja

それぞれの音声をすべて耳で聞いてChaかTeかを振り分け

それぞれの音声をGoogle翻訳で発音を再生できなかった場合はfevor.comで音声を確認した。 聞いた音声を元に下記のカラムを追加した。どちらにも音声がないものは今回は対象外とした。

  • 聞いた音声にフリガナ
  • ChaかTeかを分類
    • 音声がチャに近い音で発音されるか、テに近い音で発音されるかそれぞれ分けた
  • 話されている国をラベリング
    • 各言語が話されている国がどこかを荒く調べて、それぞれ独立したデータとした

※ 話されている国のラベリングは、南北のアメリカ大陸で話される英語やスペイン語ポルトガル語については茶の伝来について分布を見る際にノイズになるので英語はイギリス、スペイン語スペイン語ポルトガル語ポルトガルだけにしてある。

このあたりはデータ分析と言うよりは根性である。

振り分けした一例 f:id:kon_yu:20200208163654p:plain

結果

データを地図上にプロットすると以下のように、Chaの国、Teの国、 ChaでもTeでもないその他の国を作成した

Chaの国とTeの国

青がChaの国、赤がTeの国

f:id:kon_yu:20200210092211p:plain datastudio.google.com

グラフの濃淡は、対象の言語の種類が複数あると濃くなる

ChaでもTeでもないその他の国

f:id:kon_yu:20200210091842p:plain

datastudio.google.com

考察

ChaやTeについて

冒頭の深夜特急の引用文のように、トルコでChaの国が終わり、ギリシャからTeの国々になるのがデータをプロットした地図から分かる。

ヨーロッパはだいたいTe系統で、その他の国々はだいたいCha系統。

しかし東ヨーロッパの国々は結構Chaの国であった。これは意外でイメージだとギリシャでバッツリTeの国だと思っていた。

南インドやその近くのスリランカではなされるタミル語はお茶のことをテニーと発音し、インドはChaの国でありTeの国でもあることがわかった。

Teの国は海路で茶が伝わったとされるが、インドネシアや、南アフリカナミビアはかつてオランダの植民地だった影響でTeの国なのだと思われる。先程のタミル語が話されるスリランカもオランダの植民地だったのでTeの国であるのだろう。

Teの国だと思っていたヨーロッパの中でもポルトガルはChaの国

ポルトガル語はChaの国でお茶のことをチャと発音する。

ポルトガルは植民地のマカオから茶を輸入していたので、広東語の茶とおそらく同じ音で伝わったものだと思われる。 (これは友達の @Y_Hirano が教えてくれた。多謝)

ウィキペディアの茶の項目にも書かれている(出典は無いが) ja.wikipedia.org

Chaの国で話されるお茶の発音は大体チャイ

各言語の音を直接自分の耳で聞いてフリガナを振っていくと、Chaの国86ヶ国中、32ヶ国がチャイと発音し37%の国がお茶のことをチャイと発音する。

特に東西問わずアジア圏でチャイが多く、アジアのカフェやレストランではチャイと言うとお茶が出てくる可能性が高いのでぜひチャレンジしてみてほしい。

お茶をチャイと発音する国一覧

f:id:kon_yu:20200211180627p:plain datastudio.google.com

ChaでもTeでもない国が存在する

ChaでもTeでもない国がいくつかあった。

ポーランド語、リトアニア語、ソマリ語である。

ポーランド語はのお茶を表すherbata(ハルバータ)はラテン語herba theaが語源らしい herbata - ウィクショナリー日本語版

そのラテン語herba theaはそれぞれ

つまりラテン語ハーブティーが語源のようである。

リトアニア語のお茶を表すarbata(アルバータ)はリトアニアポーランドに隣接しているので文化圏が近いためポーランド語がなまったものだと思われる。

ソマリア語のお茶を表すshaahはfevor.comにもGoogle翻訳にも存在しなかったので特別にyoutubeで検索してみるとソマリア語で喋っている動画にshaahを発音しているものを見つけた。

https://www.youtube.com/watch?v=BAAt03W2z7g , https://www.youtube.com/watch?v=1lz87j-pKwM

これら2つの動画からどうやらshaahはシャーと発音するらしい。

今回はアラビア語の茶、”シャーイ”はChaの国と分けている。字面で見るとChaじゃないじゃないかと思うだろうが、音を聞くとTeかChaかどちらかで分類するとCha寄りだと判断した。

アラビア語のシャーイがなまってソマリア語はシャーであろう。広義の意味ではChaの国としても良いかも知れない。

その他、今回の調査でわかったこと

じゃーねー。ロケットビーバーイ