GoogleがBERTを70以上の言語に展開へ

日本時間の2019年12月10日午前6時34分に、Googleは独自の自然言語処理モデルBERTを日本語含む世界の70以上の言語に適用させたことを発表しました。

この記事は、このBERTのアップデートが2時間経過した現在(午前9時時点)、確認できる情報をまとめたものです。

GoogleはBERTのアップデートをTwitterで発表

Googleはいつも通り、このBERTのアップデート情報を『Google Searchliaison』アカウントを通して、公表しました。以下が実際のTweetです。

【翻訳】
Google検索で言語をよりよく理解できる新しい方法であるBERTが、現在世界中の70を超える言語に展開されています。米国英語向けに10月に最初にリリースされました。 BERTの詳細については以下をご覧ください。言語の完全なリストはこのスレッドにあります...

世界の70を超える言語に適用されるGoogle BERT

このアップデートによって、Google BERTは日本語をはじめとする、世界70以上の言語における検索に適用されたことになります。

適用言語のリストは以下です。

アフリカーンス語、アルバニア語、アムハラ語、アラビア語、アルメニア語、アゼリ語、バスク語、ベラルーシ語、ブルガリア語、カタロニア語、中国語(簡体字&台湾)、クロアチア語、チェコ語、デンマーク語、オランダ語、英語、エストニア語、ペルシア語、フィンランド語、フランス語、ガリシア語、グルジア語、ドイツ語、ギリシャ語、グジャラート語、ヘブライ語、ヒンディー語、ハンガリー語、アイスランド語、インドネシア語、イタリア語、日本語、ジャワ語、カンナダ語、カザフ語、クメール語、韓国語、クルド語、キルギス語、ラオス語、ラトビア語、リトアニア語、マケドニア語、マレー語(ブルネイダルサラーム&マレーシア)、マラヤーラム語、マルタ語、マラーティー語、モンゴル語、ネパール語、ノルウェー語、ポーランド語、ポルトガル語、パンジャブ語、ルーマニア語、ロシア語、セルビア語、シンハラ語、スロバキア語、スロベニア語、スワヒリ語、スウェーデン語、タガログ語、タジク語、タミル語、テルグ語、タイ語、トルコ語、ウクライナ語、ウルドゥー語、ウズベク語、ベトナム語、スペイン語

*順番はGoogleの発表順

前回のアップデートから2ヶ月を待たずして、70言語に適用された事実が示すこと。

GoogleがBERTを検索に導入すると発表したのは2019年の10月25日。それもアメリカにおける英語検索のみへの適用でした。それが、約1ヶ月半ほどの短期間で世界の70以上の言語に展開されたという早さには驚きを隠せません。

*前回のBERTアップデートに関してはこちらの記事をご参照ください。

こういった大規模なアップデートをする際には地域限定で実験的に開始(今回の場合はアメリカ)して、実験結果を見てから、全検索に適用するかの決定を下すものです。この早さでBERTが世界中の言語に適用されたということは、BERTを適用した際に検索結果の改善が見られたという証でしょう。

また、BERTは多言語転移性能が高いことが、短期間での世界規模のアップデートにつながったと考えられます。

まとめ

この記事では、GoogleがBERTを世界70以上の言語での検索に適用させたことについてまとめました。

BERTがどのような自然言語処理モデルなのか、またどのような対策方法が考えられるかに関してはこちらの資料でまとめておりますので、ぜひご覧いただければと思います。

BERTの基本情報と対策方法

おすすめの記事