【MeL】人文学のためのテキストデータ構築入門 ―TEIガイドラインに準拠した取り組みにむけて―
石田 友梨, 大向 一輝, 小風 綾乃, 永崎 研宣, 宮川 創, 渡邉 要一郎 著
※表示価格は「学術機関向け・同時1アクセス」の価格となります。ご注文を承った際には、実際のご契約内容により算出した価格でご請求いたします。
内容
目次
はじめに:人文学のためのテキストデータ構築●永﨑研宣 ・課題に正面から取り組むためのガイドブック ・知を蓄積・共有し、より広い世界へつなげる ・本書の構成 本書の読み方 第1部 概説編 第1章 人文学のためのテキストデータの構築とは●永﨑研宣 1.テキストデータベース構築に関する概況 2.元資料とテキストデータの整合性 3.元資料との関係をどう位置づけるか 3-1.文字がUnicodeに入ってない場合 3-2.字形・字体の相違をどう扱うか 3-3.文字の扱い方を記録しておく 3-4.誤転記を含むテキストの扱い 3-5.テキストデータ構築の深さ 3-6.学術編集のためのタグ付けについて 3-7.そもそもタグ付けとは 3-8.タグを介した外部情報との連結 3-9.参照情報ファイルを独立させる 3-10.タグの共通化に向けて 第2章 日本におけるテキストデータ構築の歴史●永﨑研宣 1.はじめに 2.大まかな時期の区分 3.1980年代の状況 4.1990年代の状況 5.2000年代の状況 6.2010年代の状況 7.2020年代から今後の可能性へ COLUMN 1 TEIガイドラインで自分の資料を作り始めるには●永﨑研宣 1.はじめに 2.「モデル」を考えてみる 3.TEIの適用可能性について検討する 4.全体的な構造の方針 5.個別的な検討 6.人手で作業すべきかどうか 7.どこまで人手をかけるか 8.TEIを適用すべきでない場合 9.おわりに 第2部 実践編 第1章 Transkribusによる手書きテキスト資料の自動翻刻●宮川 創 1.OCRとHTR 2.Transkribusの概要 3.文字資料のスキャンに関する基礎事項 3-1.Transkribusに取り込めるファイル形式や枠組み 3-1-1.JPEG(Joint Photographic Experts Group; ジェイペグ) 3-1-2.TIFF(Tagged Image File Format; ティフ) 3-1-3.PDF(Portable Document Format; ピーディーエフ) 3-1-4.IIIF(International Image Interoperability Framework; 国際画像相互利用枠組み; トリプルアイエフ) 3-2.画像の単位 3-2-1.DPI(dots per inch;ディーピーアイ) 3-2-2.画素(ピクセル) 3-3.スキャナとカメラの種類 3-3-1.スキャナ 3-3-2.カメラ 3-3-3.ScanTent 4.画像前処理ソフトScanTailor 4-1.ScanTailorのインストール 4-2.プロジェクトの作成と画像読み込み 4-3.向きの訂正 4-4.ページ分割 4-5.傾きの修正 4-6.版面を選択 4-7.余白 4-8.出力 5.Transkribusのインストール 5-1.Transkribusアカウントを作る 5-2.Transkribus.zipのダウンロード 5-3.Transkribus.zipの解凍 5-4.Javaのインストール 6.Transkribusで画像を読み込む 6-1.Transkribusを開く 6-2.Transrkibusアプリ上でログインする 6-3.新しいコレクションを作る 6-4.ドキュメントのインポート 7.レイアウト分析 7-1.レイアウト分析の設定 7-2.リージョンの調整 7-3.ベースラインの調整 7-4.ポリゴンの調整 8.グラウンド・トゥルースの作成 9.トレーニング 9-1.デフォルトのトレーニング 9-2.追加トレーニング 9-2-1.コレクションやモデルの共有方法 9-2-2.追加トレーニングの実行 10.学習済みモデルを用いた文字認識 10-1.トレーニング 10-2.クレジット購入 11.TEI XMLやPDFへの出力、バージョン管理 11-1.TEI XML、PDF、プレインテキストなどへの出力 11-2.バージョン管理、その他 12.Transkribus Lite(ブラウザ版) 13.OCRopy 14.Kraken 15.eScriptorium 16.OCR4all 17.おわりに 第2章 Transkribus実践レポート:100年分のフランス語議事録翻刻プロジェクト●小風綾乃 1.はじめに 2.使用する史料について 3.約100年分の議事録に適応できるHTRモデルの作成は可能か 3-1.史料における前提と想定される選択肢 3-2.画像のインポート 3-3.レイアウト認識 3-4.翻刻テキストの作成 3-4-1.単年の議事録を使用したCITlab HTR+、PyLaia HTRモデルの比較 3-4-2.複数年に適用できるHTRモデルの作成 3-4-3.差分の可視化による翻刻精度の比較 3-4-4.小括:最善の翻刻方法 3-5.マークアップ 3-6.エクスポート 4.おわりに 第3章 TEIガイドラインとは●永﨑研宣 1.はじめに 2.TEI登場の文脈 3.TEIガイドラインの内容 4.TEI ガイドラインのアップデートと「国際化」 5.TEIガイドラインと人文情報学 6.本章のまとめ 第4章 実践演習:漱石書簡を用いたTEIによるテキスト構造化入門●原作:James Cummings・翻案:永﨑研宣 0.この演習を始める前に 0-1.ソフトウェアとデータの準備 0-2.XMLに関する最低限の基本的な知識 0-2-1.タグを追記して意味を付与する 0-2-2.タグには開始タグ・終了タグ・空白タグがある 0-2-3.タグは入れ子構造にできるが、オーバーラップはできない 0-2-4.エレメント(要素)とは0-2-5.アトリビュート(属性)とは 0-2-6.XMLにおけるサブセットの必要性とスキーマ 0-2-7.整形式の(Well-formed)XML文書と妥当な(valid)XML文書 1.実践演習1:基本的なマークアップでXML文書を作成する 1-1.学習の成果 1-2.要点 1-3.XMLファイルの新規作成を始める 1-4.〈text〉 エレメントを付与する 1-5.テキストを挿入する 1-6.手紙の基本的な構造を符号化(encodeing)する 1-7.段落と行をマークアップする 1-8.散文における改行 1-9.整形式(Well-formed)のXML文書を整形しインデントする 1-10.あなたの作業を保存する 1-11.セルフチェック 1-12.次回にすべきこと 2.実践演習2:妥当な(valid)TEI/XML文書の作成 2-1.学習の成果 2-2.要点 2-3.新しいXMLファイルを作成して開始する 2-4.〈TEI〉エレメント(要素)の挿入 2-5.〈teiHeader〉を追加する 2-6.〈text〉を追加する 2-7.日本語 TEIスキーマを関連づける 2-8.マークアップを改良する 2-8-1.日付・地名をマークアップ 2-8-2.〈add〉と〈del〉を追加する 2-8-3.〈closer〉を改良する 2-8-4.明らかな〈sic〉間違い〈/sic〉をタグ付けする 2-8-5.記述の正規化 2-8-6.縦書きスタイルと言語コードの記述 2-9.あなたの作品を保存する 2-10.セルフチェック 2-11.さらに先へ 3.実践演習3:より良い符号化(エンコーディング)の実践:書誌情報を深める 3-1.学習の成果 3-2.要点 3-3.はじめに 3-4.〈publicationStmt〉を改良する 3-5.〈sourceDesc〉に詳細な書誌情報を記述する 3-6.〈fileDesc〉 の他の構成要素 3-7.〈encodingDesc〉を追加する 3-8.〈profileDesc〉を追加する 3-9.〈revisionDesc〉を追記する 3-10.固有表現(人物・地名情報等)を記述する 3-11.あなたの作品を保存する 3-12.自己評価 3-13.もっと読みたい人へ 3-14.実践演習1〜3のまとめ 第5章 利活用演習:TEI準拠テキストの活用方法●永﨑研宣 1.基本的な考え方 2.Oxygen上での高度な検索 2-1.XMLの構造を活かした検索 2-2.XPath検索 2-2-1. XPathでエレメントを検索 2-2-2. XPathでエレメントを絞り込み 2-2-3. XPathで属性を絞り込み 2-2-4. XPathへの理解を深めるには 2-2-5.複数ファイルの同時検索 3.XSLTによる処理 3-1. XSLT文書を新規作成する 3-2. TEIの名前空間に関する情報を記述して保存 3-3. XML文書にXSLファイルを関連付ける 3-4. 「変換シナリオの設定」 3-5. 「新しいシナリオ」の設定-XSLT 3-6. 「新しいシナリオ」の設定-出力 3-7. 「変換シナリオの適用」をする 3-8. 本文〈body〉の内容を表示させる 3-9. 本文の段落を表示 3-10. 〈choice〉の選択を行う 3-11. 〈subst〉の表示を行う 3-12. 〈add〉を表示する 3-13. 〈closer〉の表示 3-14. 〈lb〉を改行させる 3-15. 縦書き表示 3-16. 余計な空白を削除する:適切な検索のために 3-17. 人名リストを取り出してみる 3-18. さらなる挑戦 3-19. XSLTのまとめ 4.既存のツールによる活用 5.保存と共有 6.おわりに COLUMN 2 TEI協会 東アジア/日本語分科会の活動●永﨑研宣 1.はじめに 2.EAJ分科会の設置 3.EAJ分科会の活動 4.TEI翻訳会 5.TEI勉強会 ・青空文庫でTEI ・TEI日本語ガイドライン作成とルビエレメントの提案 ・『校異源氏物語』の校異情報マークアップ 6.おわりに 第3部 事例編:テキストデータ構築の最新事情① [古辞書から最低限の共通要素を取り出す] 第1章 日本古辞書のTEI符号化 ●岡田一祐 1.はじめに 2.日本の古辞書について 3.文字標準化の埒外にある文献の翻刻 3-1.翻刻とはなにをすることか 3-2.古辞書の電子的な原典的翻刻の実際 4.TEI辞書モジュールとTEI Lex-0プロジェクト 4-1.辞書モジュールの前提とする構造と漢字字書の構造との相違 4-2.本モデルでの符号化について 4-3.TEI Lex-0 5.日本古辞書の符号化モデル 5-1.符号化の段階 5-2.ヘッダー 5-2-1.引用文献の記載 5-3.前置き・後置き 5-4.本文構造:分巻・分部 5-5.本文構造:項目 5-5-1.項目の符号化 5-5-2.親子項目の符号化 5-5-3.連続項目の符号化 5-5-4.組み込まれた・欠損した・欄外にある項目 5-6.本文構造:掲出字 5-6-1.単字項目 5-6-2.複字項目:熟字のばあい 5-6-3.複字項目:重出のばあい 5-7.本文構造:注文 5-7-1.注文の符号化 5-7-2.引用 5-7-3.字音 5-7-4.語釈 5-7-5.異体字 5-7-6.和訓 5-8.本文要素:書き入れ 5-9.本文要素:校訂 5-10.本文要素:割書きおよび改行の保存 6.符号化の例 6-1.『篆隷万象名義』 6-2.図書寮本『類聚名義抄』 6-3.参考:『色葉字類抄』 6-4.参考:『康煕字典』 7.おわりに [日記および日程表のテキストデータを再構築して公開する] 第2章 TEIを用いた『渋沢栄一伝記資料』テキストデータの再構築:「渋沢栄一ダイアリー」公開まで●金 甫榮・井上さやか 1.まえがき 2.『渋沢栄一伝記資料』デジタル化の歩み 3.TEIマークアップ の検討 3-1.TEIを用いる理由 3-2.構造化について考える 4.テキストデータの再構築 4-1.共同研究の始まり 4-2.マークアップ方針 4-2-1.マークアップの深さ 4-2-2.構造化 4-2-3.固有表現 5. 成果 5-1.テキストデータの改善 5-2.「渋沢栄一ダイアリー」の公開 6.あとがき [財務史料の原史料へのアクセスと計算可能性を確保する] 第3章 TEIとRDFを用いた財務史料の構造化:古代日本・近世スペイン・近代イギリスを事例に●小風尚樹 1.はじめに 2.財務史料の構造化におけるふたつの困難 3.財務史料の構造化に関する方法論的考察 3-1.TEI P5 3-2.Transactionography 3-3.XBRL 3-4.DEPCHA 4.事例研究 4-1.古代日本史 4-2.近世スペイン複式簿記史料 4-3.近代イギリス会計史料 5.財務史料の標準的構造化データの意義 5-1.TEIにおける相互運用性の限界と克服に向けた取り組み 5-2.分析プログラムの開発 6.まとめ [TEI/XMLファイルを作成した後のプロセス] 第4章 TEIデータの可視化方法と事例紹介●中村 覚 1.はじめに 2.TEIデータの可視化方法 2-1.導入 2-2.可視化ツールの例 2-2-1.Voyant Tools 2-2-2.校異情報の可視化 2-2-3.TEI Publisher 2-2-4.Omeka S 3.独自開発 3-1.導入 3-1-1.CETEIcean 3-1-2.発展:JavaScriptフレームワークでの利用 3-2.事例紹介 3-2-1.事例1:TEI-C東アジア/日本語分科会[2] TEI Multi Viewer 校本風異文可視化ツール 戯曲のLINE風チャット画面での表示 書簡の送受信情報の可視化 3-2-2.事例2:デジタル源氏物語[3] 3-2-3.事例3:渋沢栄一ダイアリー[4] 日付、時間 人物関係の可視化 3-2-4.事例4:東京大学史料編纂所「蒋洲咨文」[5] 4.まとめ [プログラミングなしに人名を自動抽出するための道を拓く] 第5章 Transkribusを用いたTEIの人名タグ付きテキストの機械学習による自動人名抽出:ジャアファル・ブン・イドリース・カッターニー『目録』を例に●石田友梨 1.はじめに 2.カッターニーの『目録』について 3.人名の自動抽出方法 4.抽出結果の評価 5.おわりに COLUMN 3 TEIにおけるセマンティック記述と〈standOff〉●小川 潤 1.はじめに 2.インラインとスタンドオフ 3.TEIにおける〈standOff〉要素の導入 4.TEIとセマンティックデータ 第4部 事例編:テキストデータ構築の最新事情② [マークアップの方針をどう立てるか] 第1章 大正新修大蔵経TEI化に関する概略●渡邉要一郎 1.はじめに 2.概要 3.本文の構造化 3-1.広義の本文の確定 3-2.狭義の本文の階層性 3-3.奥書に関して 3-4.【補足】孤立的なブロックの階層性について 3-5.「巻」の区分 3-6.「巻」に付随する
カート
カートに商品は入っていません。