『ゴジラ検定』なるものがあり、そのための
『公式テキスト』が販売されている。
しかも…すでに購入済みである。
グラフデータベースの学習も兼ねて、Neo4jを使ってゴジラ映画のグラフデータベースを作成している。
データソースは、ウィキペディアなのだが、正直なところでいえば、東宝のMOVIE DATABASEも、ある意味オープンデータ化して一般の利用も可能なようにしてほしい…と、思うこともあったりする。
ゴジラ映画グラフデータベースは、Wikipediaにあるゴジラ映画の[テンプレート]の部分からコピペして使っている。
このページの右側にある四角で囲まれた部分だ。
ひとまず、Neo4jを使って出来上がったグラフがこちら。
朱色が[人物](水色の線がキャスト、黄色の線がスタッフ)
黄色が[登場怪獣]
である。
こうしてみると、右側の最新作アニメ版ゴジラシリーズはかなり別体系感があり、実写版においても、「ゴジラ FINAL WARS」や「シン・ゴジラ」は、他の作品とはちょっと違う感じの島をつくっていたりする。
『ゴジラ検定』公式テキストによると、映画に関する情報、登場人物に関する情報(役者というより役名が重要らしい)、登場する怪獣、それらに加えて[登場兵器]がある。このグラフにも新しいラベルとして[登場兵器]を作らなければなるまい。
さて、今回はウィキペディアの映画テンプレートをコピペでExcelに移してから、Cypherクエリーを作成して作ったが、Wikipediaのテンプレートは DBpedia (ディービーペディア)として公開されている。 DBpedia からは SPARQL(スパークル)という問い合わせ言語でデータを取得し、Cyperクエリーに整形してグラフデータベースを作成している事例もあるという。次回はそんな方法で構築してみたい。
オープンデータ時代の標準Web API
SPARQL (NextPublishing)
加藤 文彦 (著)
川島 秀一 (著)
岡別府 陽子 (著)
山本 泰智 (著)
片山 俊明 (著)
インプレスR&D
平日は山中湖村の森の中にある図書館 山中湖情報創造館に、週末は清里高原の廃校になった小学校を活用したコワーキングスペースもある 八ヶ岳コモンズにいます。「わたしをかなえる居場所づくり」をイメージしながら、テレワークに加えて動画撮影やネット副業などにもチャレンジできる図書館/コワーキングスペースづくりに取り組んでいます。
コメント