商品詳細 | Knowledge Worker

前のページに戻る

この商品の冊子版はこちら

丸善のおすすめ度

【MeL】人文学のためのテキストデータ構築入門 ―TEIガイドラインに準拠した取り組みにむけて―

石田友梨, 大向一輝, 小風綾乃, 永崎研宣, 宮川創, 渡邉要一郎　著

一般財団法人人文情報学研究所　監修

		数量冊
価格 \9,075（税込）
※表示価格は「学術機関向け・同時1アクセス」の価格となります。ご注文を承った際には、実際のご契約内容により算出した価格でご請求いたします。

この商品について問合せる

発行年月	2022年07月
出版社／提供元	文学通信
言語	日本語
媒体	電子
ページ数／巻数	421p
ジャンル	和書／総記／総記／知識・学問・学術
商品コード	1035657824
NDC分類	002.7
基本件名	人文科学-データ処理
本の性格	学術書
商品URL	https://kw.maruzen.co.jp/ims/itemDetail.html?itmCd=1035657824

内容

より効果的にテキストデータを蓄積・共有し、広く世界につなげるために、人文学研究においてテキストデータはこれからどう作っていけばいいのか。本書では、今後の人文学のための、より広い世界につながっていけるようにするためのテキストデータの構築手法を、全4部構成でレクチャーします。第1部ではテキストデータの構築に関する概要とこれまでの日本での動向、第2部は、テキストデータ構築のための実践、第3部、4部はテキストデータ構築やその利活用に関する事例を紹介します。特に実践編では、実際使用するソフトウェアについての紹介とチ

はじめに：人文学のためのテキストデータ構築●永﨑研宣・課題に正面から取り組むためのガイドブック・知を蓄積・共有し、より広い世界へつなげる・本書の構成本書の読み方第1部　概説編第1章　人文学のためのテキストデータの構築とは●永﨑研宣 1．テキストデータベース構築に関する概況 2．元資料とテキストデータの整合性 3．元資料との関係をどう位置づけるか 3-1．文字がUnicodeに入ってない場合 3-2．字形・字体の相違をどう扱うか 3-3．文字の扱い方を記録しておく 3-4．誤転記を含むテキストの扱い 3-5．テキストデータ構築の深さ 3-6．学術編集のためのタグ付けについて 3-7．そもそもタグ付けとは 3-8．タグを介した外部情報との連結 3-9．参照情報ファイルを独立させる 3-10．タグの共通化に向けて第2章　日本におけるテキストデータ構築の歴史●永﨑研宣 1．はじめに 2．大まかな時期の区分 3．1980年代の状況 4．1990年代の状況 5．2000年代の状況 6．2010年代の状況 7．2020年代から今後の可能性へ COLUMN 1 　TEIガイドラインで自分の資料を作り始めるには●永﨑研宣 1．はじめに 2．「モデル」を考えてみる 3．TEIの適用可能性について検討する 4．全体的な構造の方針 5．個別的な検討 6．人手で作業すべきかどうか 7．どこまで人手をかけるか 8．TEIを適用すべきでない場合 9．おわりに第2部　実践編第1章　Transkribusによる手書きテキスト資料の自動翻刻●宮川　創 1．OCRとHTR 2．Transkribusの概要 3．文字資料のスキャンに関する基礎事項 3-1．Transkribusに取り込めるファイル形式や枠組み 3-1-1．JPEG（Joint Photographic Experts Group; ジェイペグ） 3-1-2．TIFF（Tagged Image File Format; ティフ） 3-1-3．PDF（Portable Document Format; ピーディーエフ） 3-1-4．IIIF（International Image Interoperability Framework; 国際画像相互利用枠組み; トリプルアイエフ） 3-2．画像の単位 3-2-1．DPI（dots per inch；ディーピーアイ） 3-2-2．画素（ピクセル） 3-3．スキャナとカメラの種類 3-3-1．スキャナ 3-3-2．カメラ 3-3-3．ScanTent 4．画像前処理ソフトScanTailor 4-1．ScanTailorのインストール 4-2．プロジェクトの作成と画像読み込み 4-3．向きの訂正 4-4．ページ分割 4-5．傾きの修正 4-6．版面を選択 4-7．余白 4-8．出力 5．Transkribusのインストール 5-1．Transkribusアカウントを作る 5-2．Transkribus.zipのダウンロード 5-3．Transkribus.zipの解凍 5-4．Javaのインストール 6．Transkribusで画像を読み込む 6-1．Transkribusを開く 6-2．Transrkibusアプリ上でログインする 6-3．新しいコレクションを作る 6-4．ドキュメントのインポート 7．レイアウト分析 7-1．レイアウト分析の設定 7-2．リージョンの調整 7-3．ベースラインの調整 7-4．ポリゴンの調整 8．グラウンド・トゥルースの作成 9．トレーニング 9-1．デフォルトのトレーニング 9-2．追加トレーニング 9-2-1．コレクションやモデルの共有方法 9-2-2．追加トレーニングの実行 10．学習済みモデルを用いた文字認識 10-1．トレーニング 10-2．クレジット購入 11．TEI XMLやPDFへの出力、バージョン管理 11-1．TEI XML、PDF、プレインテキストなどへの出力 11-2．バージョン管理、その他 12．Transkribus Lite（ブラウザ版） 13．OCRopy 14．Kraken 15．eScriptorium 16．OCR4all 17．おわりに第2章　Transkribus実践レポート：100年分のフランス語議事録翻刻プロジェクト●小風綾乃 1．はじめに 2．使用する史料について 3．約100年分の議事録に適応できるHTRモデルの作成は可能か 3-1．史料における前提と想定される選択肢 3-2．画像のインポート 3-3．レイアウト認識 3-4．翻刻テキストの作成 3-4-1．単年の議事録を使用したCITlab HTR+、PyLaia HTRモデルの比較 3-4-2．複数年に適用できるHTRモデルの作成 3-4-3．差分の可視化による翻刻精度の比較 3-4-4．小括：最善の翻刻方法 3-5．マークアップ 3-6．エクスポート 4．おわりに第3章　TEIガイドラインとは●永﨑研宣 1．はじめに 2．TEI登場の文脈 3．TEIガイドラインの内容 4．TEI ガイドラインのアップデートと「国際化」 5．TEIガイドラインと人文情報学 6．本章のまとめ第4章　実践演習：漱石書簡を用いたTEIによるテキスト構造化入門●原作：James Cummings・翻案：永﨑研宣 0．この演習を始める前に 0-1．ソフトウェアとデータの準備 0-2．XMLに関する最低限の基本的な知識 0-2-1．タグを追記して意味を付与する 0-2-2．タグには開始タグ・終了タグ・空白タグがある 0-2-3．タグは入れ子構造にできるが、オーバーラップはできない 0-2-4．エレメント（要素）とは0-2-5．アトリビュート（属性）とは 0-2-6．XMLにおけるサブセットの必要性とスキーマ 0-2-7．整形式の（Well-formed）XML文書と妥当な（valid）XML文書 1．実践演習1：基本的なマークアップでXML文書を作成する 1-1．学習の成果 1-2．要点 1-3．XMLファイルの新規作成を始める 1-4．〈text〉エレメントを付与する 1-5．テキストを挿入する 1-6．手紙の基本的な構造を符号化（encodeing）する 1-7．段落と行をマークアップする 1-8．散文における改行 1-9．整形式（Well-formed）のXML文書を整形しインデントする 1-10．あなたの作業を保存する 1-11．セルフチェック 1-12．次回にすべきこと 2．実践演習2：妥当な（valid）TEI/XML文書の作成 2-1．学習の成果 2-2．要点 2-3．新しいXMLファイルを作成して開始する 2-4．〈TEI〉エレメント（要素）の挿入 2-5．〈teiHeader〉を追加する 2-6．〈text〉を追加する 2-7．日本語 TEIスキーマを関連づける 2-8．マークアップを改良する 2-8-1．日付・地名をマークアップ 2-8-2．〈add〉と〈del〉を追加する 2-8-3．〈closer〉を改良する 2-8-4．明らかな〈sic〉間違い〈/sic〉をタグ付けする 2-8-5．記述の正規化 2-8-6．縦書きスタイルと言語コードの記述 2-9．あなたの作品を保存する 2-10．セルフチェック 2-11．さらに先へ 3．実践演習3：より良い符号化（エンコーディング）の実践：書誌情報を深める 3-1．学習の成果 3-2．要点 3-3．はじめに 3-4．〈publicationStmt〉を改良する 3-5．〈sourceDesc〉に詳細な書誌情報を記述する 3-6．〈fileDesc〉の他の構成要素 3-7．〈encodingDesc〉を追加する 3-8．〈profileDesc〉を追加する 3-9．〈revisionDesc〉を追記する 3-10．固有表現（人物・地名情報等）を記述する 3-11．あなたの作品を保存する 3-12．自己評価 3-13．もっと読みたい人へ 3-14．実践演習1〜3のまとめ第5章　利活用演習：TEI準拠テキストの活用方法●永﨑研宣 1．基本的な考え方 2．Oxygen上での高度な検索 2-1．XMLの構造を活かした検索 2-2．XPath検索 2-2-1. XPathでエレメントを検索 2-2-2. XPathでエレメントを絞り込み 2-2-3. XPathで属性を絞り込み 2-2-4. XPathへの理解を深めるには 2-2-5．複数ファイルの同時検索 3．XSLTによる処理 3-1. XSLT文書を新規作成する 3-2. TEIの名前空間に関する情報を記述して保存 3-3. XML文書にXSLファイルを関連付ける 3-4. 「変換シナリオの設定」 3-5. 「新しいシナリオ」の設定-XSLT 3-6. 「新しいシナリオ」の設定-出力 3-7. 「変換シナリオの適用」をする 3-8. 本文〈body〉の内容を表示させる 3-9. 本文の段落を表示 3-10. 〈choice〉の選択を行う 3-11. 〈subst〉の表示を行う 3-12. 〈add〉を表示する 3-13. 〈closer〉の表示 3-14. 〈lb〉を改行させる 3-15. 縦書き表示 3-16. 余計な空白を削除する：適切な検索のために 3-17. 人名リストを取り出してみる 3-18. さらなる挑戦 3-19. XSLTのまとめ 4．既存のツールによる活用 5．保存と共有 6．おわりに COLUMN 2 　TEI協会　東アジア／日本語分科会の活動●永﨑研宣 1．はじめに 2．EAJ分科会の設置 3．EAJ分科会の活動 4．TEI翻訳会 5．TEI勉強会・青空文庫でTEI ・TEI日本語ガイドライン作成とルビエレメントの提案・『校異源氏物語』の校異情報マークアップ 6．おわりに第3部　事例編：テキストデータ構築の最新事情① ［古辞書から最低限の共通要素を取り出す］第1章　日本古辞書のTEI符号化　●岡田一祐 1．はじめに 2．日本の古辞書について 3．文字標準化の埒外にある文献の翻刻 3-1．翻刻とはなにをすることか 3-2．古辞書の電子的な原典的翻刻の実際 4．TEI辞書モジュールとTEI Lex-0プロジェクト 4-1．辞書モジュールの前提とする構造と漢字字書の構造との相違 4-2．本モデルでの符号化について 4-3．TEI Lex-0 5．日本古辞書の符号化モデル 5-1．符号化の段階 5-2．ヘッダー 5-2-1．引用文献の記載 5-3．前置き・後置き 5-4．本文構造：分巻・分部 5-5．本文構造：項目 5-5-1．項目の符号化 5-5-2．親子項目の符号化 5-5-3．連続項目の符号化 5-5-4．組み込まれた・欠損した・欄外にある項目 5-6．本文構造：掲出字 5-6-1．単字項目 5-6-2．複字項目：熟字のばあい 5-6-3．複字項目：重出のばあい 5-7．本文構造：注文 5-7-1．注文の符号化 5-7-2．引用 5-7-3．字音 5-7-4．語釈 5-7-5．異体字 5-7-6．和訓 5-8．本文要素：書き入れ 5-9．本文要素：校訂 5-10．本文要素：割書きおよび改行の保存 6．符号化の例 6-1．『篆隷万象名義』 6-2．図書寮本『類聚名義抄』 6-3．参考：『色葉字類抄』 6-4．参考：『康煕字典』 7．おわりに［日記および日程表のテキストデータを再構築して公開する］第2章　TEIを用いた『渋沢栄一伝記資料』テキストデータの再構築：「渋沢栄一ダイアリー」公開まで●金　甫榮・井上さやか 1．まえがき 2．『渋沢栄一伝記資料』デジタル化の歩み 3．TEIマークアップの検討 3-1．TEIを用いる理由 3-2．構造化について考える 4．テキストデータの再構築 4-1．共同研究の始まり 4-2．マークアップ方針 4-2-1．マークアップの深さ 4-2-2．構造化 4-2-3．固有表現 5．成果 5-1．テキストデータの改善 5-2．「渋沢栄一ダイアリー」の公開 6．あとがき［財務史料の原史料へのアクセスと計算可能性を確保する］第3章　 TEIとRDFを用いた財務史料の構造化：古代日本・近世スペイン・近代イギリスを事例に●小風尚樹 1．はじめに 2．財務史料の構造化におけるふたつの困難 3．財務史料の構造化に関する方法論的考察 3-1．TEI P5 3-2．Transactionography 3-3．XBRL 3-4．DEPCHA 4．事例研究 4-1．古代日本史 4-2．近世スペイン複式簿記史料 4-3．近代イギリス会計史料 5．財務史料の標準的構造化データの意義 5-1．TEIにおける相互運用性の限界と克服に向けた取り組み 5-2．分析プログラムの開発 6．まとめ［TEI/XMLファイルを作成した後のプロセス］第4章　TEIデータの可視化方法と事例紹介●中村　覚 1．はじめに 2．TEIデータの可視化方法 2-1．導入 2-2．可視化ツールの例 2-2-1．Voyant Tools 2-2-2．校異情報の可視化 2-2-3．TEI Publisher 2-2-4．Omeka S 3．独自開発 3-1．導入 3-1-1．CETEIcean 3-1-2．発展：JavaScriptフレームワークでの利用 3-2．事例紹介 3-2-1．事例1：TEI-C東アジア/日本語分科会［2］ TEI Multi Viewer 校本風異文可視化ツール戯曲のLINE風チャット画面での表示書簡の送受信情報の可視化 3-2-2．事例2：デジタル源氏物語［3］ 3-2-3．事例3：渋沢栄一ダイアリー［4］日付、時間人物関係の可視化 3-2-4．事例4：東京大学史料編纂所「蒋洲咨文」［5］ 4．まとめ［プログラミングなしに人名を自動抽出するための道を拓く］第5章　Transkribusを用いたTEIの人名タグ付きテキストの機械学習による自動人名抽出：ジャアファル・ブン・イドリース・カッターニー『目録』を例に●石田友梨 1．はじめに 2．カッターニーの『目録』について 3．人名の自動抽出方法 4．抽出結果の評価 5．おわりに COLUMN 3 　TEIにおけるセマンティック記述と〈standOff〉●小川　潤 1．はじめに 2．インラインとスタンドオフ 3．TEIにおける〈standOff〉要素の導入 4．TEIとセマンティックデータ第4部　事例編：テキストデータ構築の最新事情② ［マークアップの方針をどう立てるか］第1章　大正新修大蔵経TEI化に関する概略●渡邉要一郎 1．はじめに 2．概要 3．本文の構造化 3-1．広義の本文の確定 3-2．狭義の本文の階層性 3-3．奥書に関して 3-4．【補足】孤立的なブロックの階層性について 3-5．「巻」の区分 3-6．「巻」に付随する

カート

カートに商品は入っていません。

前のページに戻る