プロジェクト型共同研究「国文研所蔵字形・字体資料の利活用性向上に関する研究」

史的文字データベース連携検索システムの改良

史的文字データベース連携検索システム（歷史文字資料庫統合檢索系統）は別個に作られた複数の字体・字形データベースの統合検索を実現したという意味で画期的なサービスであるが、各データセットにはそれぞれの目的・背景・用途があって、グリフ粒度やその他メタデータが異なるため、それらを単純に串刺し検索すると、複数の字体が混在したまま大量の検索結果が表示されてしまい字体の変遷がわかりづらいという問題がある。

一方、漢字字体規範史データセット (Hanzi Normative Glyphs dataset; HNG dataset) では対象となる資料における出現字形を大字典を参考に字体に分類し、各資料を地域毎に版本と写本に分け概ね時代順に出現する字体の代表字形だけを並べるという検索結果の表示法を採った結果、字体標準／規範の媒体・地域・時代毎の変遷を把握しやすい。よって、漢字字体史研究のためのツールという観点では、HNG と同様に字形・字体整理を行うことが重要であるが、これには多大な労力がかかる。また、楷書以外における字体標準の様相を示す機械可読データの蓄積はまだ途上であり、史的文字データベースに収録されたデータセットの全体を対象に字形の整理を行うことは現実的でないと考えられる。そこで、HNG 風な字形整理適用のためのケーススタディーとして、国文研所蔵の字形データを対象に機械学習等を利用した字形の効率的な整理のための技術開発を行うとともに、字形整理のためのモデル開発、字体と字形という２つの粒度をもつ統合検索用プロトコルや UI の開発などを行うことを計画している。

日本古典籍くずし字データセットの再整理（楷書的な漢字字形の分離）

日本古典籍くずし字データセット中の中の漢字には楷書的な字形が含まれておりその分離を試みるとともに、楷書的な字形の出現箇所に関する文脈情報をデータ化し分析を試みる。

また、ここで抽出された楷書字体系の字形を、HNG と同様に、初唐標準字体／開成石経規範字体という２系統への分類を試み、日本における楷書の通行字体に対する初唐標準字体の影響とその後の開成石経規範字体の浸透がどのように進んだかを調査する。

国書データベースの全文画像やOCR関連データ管理用プラットフォームの構築

国書データベースに収録された全文画像データ中に現れる字形を効率的に抽出・分類するために、大量の高精細画像とそれらに対する OCR 結果や学習用データセットや関連プログラム等を版管理するためのプラットフォームを構築する。大量の高精細画像を格納するためにストレージをなるべく低コストで構築し運用するための実験を行うとともに、OCR 結果や切り出し字形データ、その他、学習用データセットや関連プログラム等を Git 等で版管理を行い、国文研内に構築した GitLab サーバー (https://gitlab.nijl.ac.jp) で統一的に管理し、自動処理を行うための環境を構築する。

書体や包摂粒度、時代、地域等の分類を考慮したプロトコルや検索サービスの検討

書体や包摂粒度、時代、地域等の分類を考慮したプロトコルや検索サービスの実現可能性について検討する。

その先に

変体仮名の広がりとその収斂過程などを視野にいれて「列島における文字運用の多様性と標準化の過程を可視的にあきらかにする」 …その過程での「政治的影響」＝律令制・御家流など、「文化的影響」＝出版文化など

データセット・データベース

イベント

HNG公開20周年記念連続研究集会「字体史研究と文字情報データベース」