デジタル文献学が漢籍と出会う

研究者から研究者への電子テキスト

まえおき

学者や編集者にとって今の時代における挑戦の一つは、幾多の時を経て私たちの手に届いた文化遺産をデジタル形式に保存することである。これらの新しい形式は紙メディアの持つ限界の多くを取り除き、刺激的で新たな可能性を開いてくれる。それらは数多くの方法で実現できるが、そうした方法は、望ましい結果を得るための最良の方法は何か、作品のどの側面は保存すべきでどの側面は変えたり切り捨てたりできるか、デジタルの産物へのアクセスはどのように準備すべきかについての私たちの暗黙の前提に基づいている。 これらの前提のいくつかは、今日の技術によって可能になった新たな自由についての認識不足によるものかもしれない。しかしながら、これらの前提のほとんどが、それ自体は技術的でない一方で、文化遺産にアクセスするためのインターフェースやツールの設計にいずれかの時点で影響を及ぼす技術的実装実現についての決定を必要としている。 提をここで論じる。まず一つ目は、文化遺産を、現代のユーザーが容易にや りとりできない博物館のそれのように、陳列ケースに固定することでこの保 存を達成すべきではない。むしろそれを探求、研究、その他の想像し得る、 また未だ想像し得ないありとあらゆるやりとりに供与することで達成すべき である。もう一つの前提は、この保存のプロセスが、多様性を包括する自由 で非権威主義的な討議の理念に基づいて、できるだけオープンで透明である これらの前提はシステムの技術的な側面の設計に関わっており、またそれだけでなく、この保存の方法についてどのように決定がなされるか、どのようなゴールを描くべきかなどにも関わっている。後世の人々も含めたすべてのユーザーがこれに関与し、発言権を持たなければならない。しかし、それは明らかに可能なことではなく、また文化遺産へのアクセスとその利用は基盤であるので、できるだけ多く、またできるだけ多様な用途を可能にするシステムを設計することが重要なゴールとなる。これは、デジタル作品においてはどのような中央権力も持たないこと、ゆえにそれを必要としない方法で実現されるべきであることを意味する。その一方で、信頼と評判はユーザー自身がそのデジタル作品の権威を評価するために重要である。それゆえに、しっかりとした、また好意的なユーザーコミュニティを培うシステムを開発することにも励むようにする。

文献学とデジタルテキスト

漢籍リポジトリ(漢リポ)は古典中国語文献のためのもの保管場所としての役目を果たしている。これらのテキストは、それを必要とするあらゆる種類の研究の信頼できる情報源として使える形で提供されている。このシステムは幅広い種類のさまざまな研究手法と方法論をサポートするが、それでもこのリポジトリが基盤とする前提を認識していることは、研究者がそれをより効率的に使う助けとなる。そうした方法論の前提をここに概説する。

テキストとドキュメント

中国の古典文化を研究する学者は、そのほぼすべての側面において、過去の事柄のテキストでの「典拠」に依存している。そしてこれらの典拠は物質的な形をとって私たちのもとに伝えられてきた。しかし、ほとんどの場合、私たちはそうしたモノそのものにではなく、むしろそれが伝える内容に興味を持つ。ここで、抽象的な実体であるテキストとそのテキストを伝えるための媒体とを区別することは有用である。一つのテキストは、それぞれがテキストの内容にまで及び得る違いを持った多くの異なるモノの形で伝えることができる。それゆえに、その有形物のこうした異なる側面を考慮にいれることができるモデルが必要である。 国際図書館連盟(frbr-report-1997 を参照)が開発したモデルは、検討に値する有用なモデルである。これは「書誌レコードの機能要件」(FRBRと略)を説明したもので、書誌データのすべての側面を表したかなり複雑なものである。その中でここに関連するのは「グループ1」用語一式のみであり、著作、表現形、体現形、個別資料という四つの関係した実体で「知的あるいは芸術的活動の所産」を指している(図1を参照)。これら四つの用語を以下に説明する。

  • 著作(Work)は「明確な知的あるいは芸術的産物である」(frbr-report-1997, p.17)。例えば、孔子の『論語』、また『道徳經』は著作である。著作は特定の版や言語への表現とは独立している。それゆえに、日本語翻訳は、中国語の原作がそうであるのと同様に、著作の表れとみなされる。このモデルによるところの著作は、言葉による特定の表現に依存しない抽象的な実体である。
  • 表現形(Expression)は「著作が実現される度にそれが要する特定のレンダリングである」(frbr-report-1997, p.19)。『論語』のテキストの特定の形態、またその特定の翻訳、あるいは王弼による注釈の付いた『道徳經』のテキスト、これらはすべて表現形の例である。表現形もまだ特定の版とは独立している。
  • 体現形(Manifestation)は「著作の表現の物質的な具体化である」(frbr-report-1997, p.21)。テキストでの著作において、これは通常、特定の出版社から出版された特定の版のことである。1999年に岩波書店から出版された金谷治氏による『論語』の訳注の改定版、また1929年の四部叢刊に入っている王弼の注釈版がその例である。
  • 個別資料(Item)は「体現形の一つの見本である。個別資料として定義された実体は具体的な実体である」(frbr-report-1997, p.21)。金谷治氏の翻訳の私個人の所蔵本、また王弼の四部叢刊版の私個人のコピーが個別資料の例である。

frbr-entities.png

図 1:「グループ1」における実体とそれらの関係

私たちは学術分野の編集者として、著作の典拠を伝えている個別資料を使い、その個別資料が記録している表現形を通じて仕事をする。その著作に複数のテキストでの典拠があるならば、通常私たちはその表現形についての複数の体現形を使う。一方、特定のテキストとそれらが歴史的に伝えられてきた伝達の成り行きに関する文献学の議論において、焦点は通常、表現形と体現形におかれる。すなわち、抽象レベルは個別資料レベルの上に位置し、しかし著作レベルの下に位置する。 漢籍リポジトリにおいて、二つの「デジタル個別資料」を別々の表現形に関連づけるか、ゆえにそれらは目録に別々の項目を持つか、あるいは同じ表現形を別々の体現形に分けるだけにして目録には同じ項目の元で二つの典拠(版)を表すかを決めるのに、このモデルが使われてきている。 この専門用語を実用的に簡素化するならば、「著作」の代わりにテキスト、「個別資料」の代わりにドキュメントという、少し曖昧ではあってもよりよく知られている用語を使うことができる。そうであれば、著作の複数の典拠は複数の「個別資料」と対応するが、それらは同じ「表現形/体現形」と対応したりしなかったりする。これらの用語は、FRBRのそれより正式でも正確でもないが、十分に表現でき、文献学者によりよく知られている。それで、私は可能な限り、これらの用語、テキストとドキュメントを使うことにする。 では、テキストとドキュメントの関係をどのように理解したらよいだろうか。そしてこの理解は、学術的に信頼でき、文献学に基づいたテキストのデジタル版を作る課題においてどのような意味を持つのか? このことを更に探求する前に、他の重要な事柄を明らかにする必要がある。

記録と解釈

スイスの学者ハンス・ツェラーzeller_record-and-interpretation_1995 は、その影響力を持った論文の中で、すべての学術的な編集は「ドキュメント」の中で何が伝えられているかの記録とその学術的な解釈とを明確に区別しなければならないという事実を強調した。この専門用語において、記録とは、本質的に客観的な証拠、または物質的なドキュメントの形でのテキストの記録である。一方、解釈とは、このドキュメントの特定の読者が、一つの版の編集者という役割において、書き方についての知識やその他、必ずしもこの特定のドキュメントの一部でなくてもこのテキストについての知識に由来している裏付け証拠に基づいて、テキストを主観的に読み、理解することである。このような知識を持って、編集者はテキストを構成している文字の誤り、乱丁や落丁、またテキストの内容の付加や抜けを指摘するかもしれないし、認知されている欠点を改善したテキストの新しい版(体現形)を作ることを試みるかもしれない。ゼラーは、編集作業におけるこの客観性と主観性を私たち自身で認識するだけでなく、私たちが作り出した版の利用者が過剰な期待を持ち、その版によっては不可能な分析方法を試みることのないように、それをその利用者にも伝えるべきだと力説する。言うまでもなく、この客観性と主観性の区別は新しいものではない。ゼラー自身が指摘するように、ヨーロッパの伝統において、これは少なくとも、ホメーロスの詩の学者であり影響力のあったサモトラケのアリスタルコス(\textgreek{Ἀρίσταρχος}; c.220 - c.143 BC)までさかのぼる。彼は、自らが疑わしいとみなす詩の行を却下し、また印をつけ、しかし常に何を基準にしてその判断を下したか、またどんなドキュメントの典拠を使用したかを明確にし、ホメーロスの作品の最初の校訂版を確立した。 この区別は時として曖昧であるかもしれず、また記録における客観の概念そのものを疑問視する者もいるが、それでもこの区別はまだ有用であるように思われ、またそれは漢籍リポジトリの設計に影響を与えている。この漢籍リポジトリは、それが表すテキストの版を、テキストでの典拠に従って忠実にテキストを再現することに尽力するもの(記録)と、例えば句読点を加えたり、文字を正規化したり、別の典拠を照合するなどしてテキストに変更や追加をするもの(解釈)に分類する。

追加の必要事項

テキストでの内容(すなわちただのテキスト)のみを分離して研究することは、理解を厳しく制限することになる。多くの場合、より多くのコンテキスト、あるいは外部にある裏付け典拠を持つことが望ましい。ピーター・シリングスバーグshillingsburg-view_2015 は以下のようなデジタル版の必要事項を挙げた(明確にするために多少の手を入れた): a. すべてのドキュメントのデジタル化した画像。これが、例えば東京とマールブルクやニューヨークの間を移動する必要をなくし、あるドキュメントと別のドキュメントを、それらが世界中のどこにあろうとも、並べて見ることを可能にする。 b. すべてのドキュメンタリー・テキスト(記録)について、それぞれがどのように異なっているかを示すための異同の一覧表。 c. 異同のドキュメント間の関係や、なぜそうした関係に関心を持つ必要があるかを説明したテキストの伝達の歴史。 d. 異同のリストをより容易に使えるようにするために、少なくとも一つのドキュメントの翻刻。そうでなければ、読者がどのドキュメントも選択し、読めるようにするために、すべてのドキュメントの翻刻。これはまた機械による照合も可能とする。 e. 個々の解釈に基づいて新しい版を作るために、編集し 誤りを訂正した翻刻のコピー。記録の別の版が歴史的なドキュメンタリー・ テキストとしてテキストを保存するのに対し、このような改訂は読者が筆 写や植字による誤りによって気がそらされるのを避ける助けをする。 上記のように、「記録」(すなわち記述的で中立的なテキストの表れ)と記録の「解釈」(すなわちテキストのあらゆる編集バージョン、テキストへの注釈、その他のテキストの改善)の間に厳しい分別が維持されている。この目的のために、以前出されたテキストの現代版も含め、現代の編集者の作業以前になされたものはすべて、記録の一部とみなされる。 これはユーザーがいつ何時でも、伝統の中で導入された見解や変更と後になって導入されたものとを明確に区別することを可能にする。

記録:デジタルテキストの二つの顔

ここまでで述べたことは印刷されたテキストにも同じように適用でき(シリングスバーグ)、また場合によっては印刷版だけを念頭において書かれたものもある(ゼラー)。しかしデジタル版特有の問題もある。 記録に入れられる版のそれぞれが、二つの別個の、しかし関連しているデジタル形式で表される。デジタルファクシミリ1とデジタル翻刻2である。両方とも、使用する媒体により、必要に迫られ変更を導入するが、それでもできるだけオリジナルに近い状態で維持されるべきである。ゆえに、デジタルファクシミリは、白のマージンが切り取られコントラストが強調されたモノクロ(白黒)の画像にまで引き下げられているかもしれないが、それでもオリジナルテキストの忠実な表れであるとみなされる。同様にして、テキストの翻刻は、完全な同一性を達成することは決してないままに、ファクシミリの中の文字にできるだけ近づけてテキストを表すように(より正確には、タイピストや入力プログラムによって読み解釈されるように)励む。(これは、コード化された文字一式の中で、一つの文字にいくつかの異同がある場合、ページ上でその文字に最も近いものが選ばれることを意味する)。

krp07-tpjtext-and-image.png

図 2:太平經抄の中の一ページ分のデジタルファクシミリ(右)とその翻刻テキスト(左)

完全を期すと、記録はまた、リポジトリにはまだ含まれていない、理想としては知られているすべての版を含めた、利用可能な版の記述で構成されている。 テキストのこれら二つのタイプを容易に区別するための慣例を以下に概説する。

解釈

記録ができるだけ中立的で偏らない形で典拠を提供しようとする一方、解釈の中でこそ真の学術的な編集が行われる。記録は細かに調べられ、修正され、注釈を付けられる。このような変更と解釈は、それが最初に文字の形で固定されて以来ずっとそうしてきたように、テキストがこれからも生き残り、進化し続けることを保証する。 漢籍リポジトリのコンテキストにおけるこの概念の重要な効用の一つは、記録の中に記された版で使用された文字ではなく、現代の文字用法を使った版を提供することである。これにより私たちは現代のユーザーのニーズに応えることができ、そうしながらも「記録」の中の版を参照することで現存するテキストでの伝統の記録を提供する。 何世紀もの間、美しい木版印刷の形で伝えられてきた漢籍は、その所有者がテキストを物として入手したことから、この種の変遷の数多くの形跡を示している。彼らは蔵書印を押しただけでなく、欄外注、訓点、句読点などを自由勝手に加えた。それゆえに、何世代にもわたる読者たちの軌跡を反映して、特定の著作一部一部のほぼすべてが唯一無二の個別資料になった。同様にして、リポジトリのユーザー全員が、個々の訓点や注釈を記し、それぞれ自分の一部を作ることができる。しかしながら、デジタルの蔵書印に相当するものはまだ存在しない。 こうした個々の個別資料にその場限りの注釈を付けることに加えて、注釈や詳説、また音注を、それらを際だたせるために通常は小さめの文字で、本文の間に差し込む割注もある。そしてその結果は新しい版として出版された。別のテキストでも、例えば注釈の最初の行をインデントするなど他の版式を使って、本文と注釈を区別した。ゆえに、仏教経典を除き、古典に数えられるテキストはほぼすべて、そのままの、混ぜ物なしのテキストとしてではなく、むしろ何層もの注釈や注解に包まれて伝えられてきた。漢籍リポジトリの中で、そのような「注釈の付いたテキスト」は通常、別々のテキストとして扱われ、目録に別々の項目を持つ。ここで使われる文献学的な意味において、これらは本文の解釈というよりむしろそれ自体が記録となる。

実装の技術的な詳細

リポジトリに収められたテキストは、それらがサポートしているシステムの中で機能するのに絶対必要 であるマークアップだけを付けて表示される。テキストの一版一版が別々 に確立され、他の版と並べて提示される。このテキストの形式はEmacs Org-modeのテキスト形式3 を発展させたものであ り、並べて提示する技術的方法は、以下の項で概説する「版管理システム」 を使っている。

このアプローチは、学術的な編集やデジタル文献学において、標準としてテキスト・エンコーディング・イニシアティブ(TEI: tei を参照)のXMLベースのテキストモデルを使うという現在の慣行にかなり反しており、それゆえに説明を必要とする。 まず第一に、現存するデジタル形式のテキストの正しい再現方法は一つだけでないことに留意する必要がある。それぞれの再現について、それに見合った方法を開発しなければならず、またその元になるテキストの特定の特徴を表す方法やデジタル媒体への移行において何を不必要とみなして取り去るかを決めなければならない。それゆえに、デジタル版のどれ一つ取っても、それが別の版の直接のデジタルコピーである場合を除いて、他と同じものはない。 このような版を区別する一つの重要な特徴は、当然ながら、そこで使用されたテクノロジーである。デジタル文献学において今世紀に入ってからなされた仕事のほとんどは、TEIが開発したテキストモデルを基盤にしており、また他のさまざまなもの、中でもほとんどのウェブを動かしているテクノロジーであるXMLを構文的な基盤にしている。その洗練されたテキストモデル、およびエンコーダーに興味深いテキストの特徴を記録する数多くの方法ゆえに、これは重要なテクノロジーであり、その表現度はここで使われている構文の質素な方法をはるかに上回るものである。 このリポジトリにTEIとXMLは使われていないが、それはこれらが当面の課題に適していないという表明であると理解してはならない。実のところ、これらはとても適しており、またとても効率的にここで提示しているものと共に使うことができる。あるいは、通常の方法で、これらだけで使うこともできる。しかしながら、20年以上もこうした方法論を使って仕事をしてきた中で、私はこれらが(編集者としての)読者から制作者へ、そして制作者から読者へのテキストの道中すべての中継点にいつも理想的に合うわけではないことを実感してきた。生産パイプラインに合わせて必要であればより表現度の高い構文へと機械的に「アップコンバート」できる、よりシンプルで、それでもしっかりと定義されたテキストモデルの入り込む余地はあると考える。これに加えて、出版プロセスの最終段階でプレーン形式のテキストもまた提供すると役立つであろう。 漢籍リポジトリで使用したシンプル形式はテキストを確立し、読み、訳し、また注解をつけるのにうまく機能する一方で、言語学的な注解や名前、人物、場所のマークアップといった、より洗練された用法には不十分4であることになるかもしれない。そのような場合、テキストのXML表現へのコンバージョンが適している。 要するに、すべての場合において技術的に優れている表現はひとつもないということである。実践的に、その時点でテキストと読者の必要を最もよく満たすものが選ばれるべきである。 このことはとても自然に別の観察へと私たちを導く:デジタルテキストは、そのテキストを表すビットやバイトの列をただ眺めるだけで十分に理解することはできない。つまり、読者へのテキストの提供をサポートするシステム全体を考慮に入れる必要がある。テキストをレンダリングするためのアプリケーション・ソフトウェア、基礎をなすオペレーティング・システムとその特徴、テキストをレンダリングするために使われたフォント、そしてテキストがレンダリングされたスクリーン(あるいは紙!)のサイズや解像度、明るさはすべて、ユーザーにテキストを提供するシステムに貢献している。これらすべての項目について、テキストを見る目的により、数多くのバリエーションがある。それゆえに、漢籍リポジトリのユーザーにはこの自由を試してみて、自分が必要とするものに一番合うものを使うことを奨めたい。第3章でこの更なる詳細について述べる。

漢籍リポジトリにおいてテキストと版はどのように表示されるか

前に述べた通り、ほぼプレーンテキストであるEmacs Org-mode形式を少し拡張したものは、例えばそれをタイプすることなど、デジタル形式のテキストを準備する第一段階としても、またテキストが出版され配布されるところの最終段階としてもその役目を果たす。これは受信システムについて、それを最小共通項、つまり「プレーンテキスト」5まで技術的に抑えることにより、最も少ない前提を作る形式である。 漢リポは上記した原則を以下の方法で実行する:

  • テキスト「リポジトリ」6が、それぞれのテキストごとに作成される。これは、そのテキストに関するすべての情報を保持するためで、そこにはページのファクシミリ・レンダリングへのリンクやテキストそのものの内容も含まれる。
  • 漢籍という文字化し概念的な領域の中でテキストに適切な場所を与える慣例に従って、このリポジトリに名前が付けられる。ここで使われる慣例とは、原則として、四庫全書総目提要や正史の古籍誌のような偉大な作品によって例証される、伝統的な漢籍目録が用いられる分類法に従うが、幾つかの変更もあり、それらについては次の章で概説する。このリポジトリの名前はテキストの識別子の役割を果たし、この識別子はテキストを一意にそして明確に識別するために使われる。
  • このリポジトリは「git」7 と呼ばれるソフトウェアを使って作成される。このソフトウェアは異なる時間帯や場所の全域でソフトウェア・デベロッパーが共同して働く助けとなるために設計された。詳細は省略するが、要点は「ブランチ」の概念で、これは異なるテキストのバージョンで仕事を同時に行うことを可能にし、また複数のバージョン間で切り替えることも可能にする。このソフトウェアは必要なだけ多くの異なるテキストのバージョンを扱うことができ、効率的な保存と検索、違いの表示など多くの機能を提供する。
  • 漢リポにデジタル表現を持つ「記録」の中の版の一つ一つが、その版を表すブランチを持つ。そのようなブランチにはそれを識別するための名前が付けられる。記録の中の版を表すブランチを指すのに大文字(及びハイフン「ー」)だけを含めた名前を使うことにする。例えば、WYG(四庫全書の文淵閣、ピンインでWenyuan ge版の影印版)、あるいはCK-KZ(重刊道藏輯要、Chongkan Daozang jiyaoの考正社(Kaozheng)の影印版)である。これらのブランチ名は任意に選ぶことができるが、それらは記録のどこかに記載しておかなければならない。
  • 他のブランチは記録の一部を成さないが、新しい批判校訂版、リーディング・ノート、訳、注釈などの作成といった特定の目的のために編集者か研究者によって加えられたテキストの版やバージョンを表す。もしそのような版が記録の中の版を基盤にしているならば、漢リポへよりよく統合するために、その基盤である版の参照システムが持ち越される。これらのブランチは通常、解釈的でないブランチ8と明確に区別するために、大文字と小文字の組合せ、あるいは小文字のみで名付けられる(例えばWYG-chrisやtrans-en)
  • 記録の中の版の一つが「ベース版」として選ばれる。このベース版のページナンバーやライン・マーカーはこのテキストのすべての版の参照用枠組みとして使われる。これは文献学的に最も価値のある版である必要はなく、むしろ「記録」中の他の版に参照用枠組みを提供するための実際的な選択となる。これはすべての版にわたって異なる版における位置を相互参照することを可能とする。すべての版がそれぞれのファイルの始めに情報の一部としてそのベース版が何かを表示している。
  • 他のブランチの中で漢籍リポジトリにおいて特別の意味を持つブランチが二つある。 master ブランチと _data ブランチである。
  • masterは漢籍リポジトリの編集者がそれと決めた最新のテキストを表すブランチである。最新テキストは最もアクティブな編集作業の焦点となるテキストである。これはベース版のテキストかもしれないし、または、そちらの方が学術的な編集のよりよいスターティングポイントになると思われるのであれば、それとは異なるテキストであるかもしれない。それはまた通常、(異なった)句読点、文字の正規化、構造的マークアップ、その他の特徴を導入する。このことが示すように、masterブランチはテキストの記録ではなく、その解釈を表している。それゆえに、その名前には小文字が使われている。
  • _dataはシステムが使用するデータを保持するブランチである。これらのデータは他のブランチと関係しているかもしれない。例えば、どのファクシミリページがどのテキスト・ロケーションに属しているかの情報はここに保持されている。
  • リポジトリの各ブランチの中に「Readme.org」というファイルがある。このファイルはテキスト内容そのものの一部ではないが、記録(メタデータ)についての必要最低限の情報、とりわけそのファイル(Readme.org)の置かれているブランチに記述されている特定の版についての情報を与えてくれる。この理由から、このファイルの内容はさまざまな版のそれぞれで異なる。慣例では、masterブランチのReadme.orgファイルは、早見表としても使えるように、他のすべてのブランチの情報を必ず保有している。テキストについてのより詳細な情報は目録にも見ることができる。

漢籍リポジトリにおける「テキスト」

他の多くのプロジェクトと比べ、漢籍リポジトリの顕著な特徴の一つは、それがテキストのできるだけ多くの版を記録することを第一に努めていることである。したがって、それはデフォルトとして特定の版を基盤にしていない。それぞれの版ごとに、その版の翻刻されたバージョンとデジタルファクシミリが保持され、それらは並べて読むことができる。 時として、同じタイトルで同じ著者/編集者のテキストであっても、かなりの違いがあることもここで述べておく。この例は雲笈七籤(KR5d0055)に見ることができる。これは正統道藏では120巻あるのに対し、道藏輯要では40巻しかない。これらは同じテキストであるとみなすべきだろうか、あるいはむしろ異なるものとみなすべきだろうか? 双方の見解とも、すぐれた論拠を持っている。目下のところ、漢籍リポジトリはそれらを同じテキストのバージョンとみなしており、同じリポジトリの中でブランチとして並べて置いてある。このような配置がこれらのテキストの違いについての研究を容易にするからである。 歴史的な版をドキュメントすることに加え、例えば現存版を照合することによって、また句読点、さらなるマークアップ、注解、訳などを追加することによって、漢籍リポジトリの中でテキストの追加版をたくさん作ることができる。

目録

目録はテキストについての情報を維持するのに使われる。これはテキストに似た形式で保持され、同じ方法で配布される。リポジトリのユーザーは特定の分析的な必要に合わせて自らの目録バージョンを維持することができる。

これを書いている今現在、目録は kr-catalog においてアクセスできるが、まだシステムに統合されていない。

1
「デジタルファクシミリ」という用語の使用についてここでいくらかの説明が必要かもしれない。デジタル的な要素の持つ柔軟性ゆえに、デジタル画像は、多くの点において、その原本であるテキストが記載されている物と「似て作る」ことがなされていない。これを補う方法は、例えば、ドキュメントの写真中のキャリブレーションに寸法やカラーバーを含めるなどいくつかあるが、それでもソフトウェアを使う時にはいつでも、説明のつかない変更の可能性が常にある。それゆえに、デジタルテキスト画像のキュレーターの中には、「デジタルアバター」という用語の方を好む者もいる。単なる複製ではなくデジタル世界で再現された類似品を表していることを強調するためにである。しかしながら、このコンテキストにおいて、私はデジタルファクシミリの方を使うことにした。より混乱を招きにくいし、十分に正確だと考えるからである。
2
言うまでもなく、ファクシミリを正しく保存するためには、それをできるだけ高解像度で保存しなければならず、できるだけ多くの補助的情報を確保しなければならない。入力デバイスが取り込んだraw画像も、その画像がどのように再現されたかの記録と共に含めなければならない。(テキストをデジタル化する方法についての詳細にわたる説明はここでの範囲外である)
3
この形式の詳細にわたる説明は付録に掲載し た。またオンラインにも説明があり、それは必要に応じて更新される: mandoku-format-ja
4
この線を厳密にどこで引くかもまた、当然ながらユーザー次第である。そしてここで使用しているテキスト形式はシンプルな注解を付けることができる。
5
私が最初にCBETA(中華電子仏典協会)のプロジェクトに参入した時、すべてはプレーンテキスト形式を使って行われていた。時間をかけて、私は特定の量のXMLを仕事の流れに投入していった。しかしながら、自動化されたスクリプトによってテキストのXMLソースから出版されるプレーンテキストのレンダリングもまだ広く使われている。
6
ここでの「リポジトリ」はコンピューター上のフォルダーという特定の技術的な意味で使われており、その内容は版管理システムによって決まる。
7
gitはソフトウェア・デベロッパーによって広く使われている班管理システムのカテゴリーに属する。gitについての入門書は数多くあるが、それらのほとんどはプログラマー向きである。gitの使い方について更なる情報を得るための有用なスターティングポイントは次のとおり:git-docu
8
さらにまた別の形のブランチ名があるが、これらは大正新脩大藏經から派生した仏教のテキストに特定されるものである。この版は本文批評の脚注の中で他のテキストでの典拠を説明しているので、これらは漢リポの別のブランチでテキストを再構成するのに使われている。しかしながら、ここで別のテキスト典拠を元々のテキスト典拠に実際に結びつけることはまだ可能ではない。それで、ブランチの呼称が、テキストを構成するこの間接的なやり方を示している。例えば、原本へのリファレンスがない時、T@SONGと大→宋は両方とも、いわゆる宋版を示す方法である(実のところ宋版とみなされている版はいくつかあるが、大正蔵の編集者たちはそれらを一つの版として分類した)。当然ながら、やがてはこのような当座しのぎの手段が宋版の実際の典拠のリファレンスに取って代わることが望まれている。

参考文献