特集 ながれの電子出版について/城之内 忠正

それでは永続性のためにマークアップ言語で保存するとして,HTMLやXMLの中のどれを使うとよいのでしょうか.保管する目的は,保管しておき必要に応じてデータを検索して(取り出して)配布できるということですから,コンピュータで文書を処理できるということが重要になります.HTMLは人間が読むために作られたマークアップ言語であり,タグに基づいてWebブラウザ(閲覧ソフト)が描画するわけですが,データの意味に基づいて処理をするわけではないのです.つまりHTML文書は人間が理解するための書式ですが,コンピュータの文書処理には向いていないのです.XMLはコンピュータが文書を処理するために,必要なタグセットを自ら定義できるマークアップ言語です.例えば<abstract>タグを定義して,そこに概要を書くように取り決めれば,コンピュータですべての論文から<abstract>タグのデータを取り出して列挙できるわけです.

コンピュータが文書の意味を処理できるというところがポイントです.キーワードで検索したり,著者名とアブストラクトを抽出して論文一覧表を作ったりすることをコンピュータが処理してくれます.

その他に,携帯電話からある論文の表示を要求してきたら,携帯画面表示に合わせて携帯用のHTMLに変換したり,概要だけを送ったり出来ます.また,印刷用のデータの要求については,その要求時点で,論文をPDFに変換して送ることが可能になります.(そのようなWebアプリケーションシステムを作れば,いろいろなことが実現できます.)