特集 ながれの電子出版について/城之内 忠正

最後に紹介するのがXMLというマークアップ言語によるデータ形式です.XMLは言語仕様が複雑なSGMLを単純にして,インターネットに対応させたものです.XMLはSGMLと同様に独自のタグを定義できるので,言語を定義するためのメタ言語という位置づけです.HTMLはXMLの仕様を満たしていないので,XML文書として扱えるHTMLとして,XHTMLという仕様が作られました.リスト2はリスト1のHTMLタグをXHTMLタグに直しものです.

 
<h1> XHTMLのタグについて</h1>
<img src="image.jpg" /><ul><li>タグは小文字で書く</li>
<li>タグは必ず閉じる</li>
</ul>
リスト2 XHTMLの例

リスト2からわかるようにタグが小文字になったことと,開始タグ(例えば<li>)の後で必ず終了タグ(例えば</li>)が必要になっています.

このような変更をしても通常のブラウザでは今までどうり表示できるので閲覧する上で問題はないのですが,世界中の膨大なHTML文書の資産を前に,このような些細な変更を要求したことには訳があります.それは,コンピュータに文書を解析させて適当な処理をさせるためです.人間にとっては,HTML文書をブラウザが解析して,結果をディスプレイに表示するだけで十分です.しかし,膨大なデータを調べるのは人間だけではありません.コンピュータこそ膨大なデータを分類し加工することが出来るのです.XMLの仕様に沿って作成された文書からは,パーサという字句解析ソフトを使って,タグでくくられた文字列を容易に抽出できます.(開始タグの後に終了タグを必ず書くという規則性が,字句解析を容易にするわけです.)例えば,蓄積された文書データ群の中から特定のタグ(例えば<conclusion>結論はどうたらこうたら</conclusion>)の内容を抽出して一覧表示出来るわけです.コンピュータで容易に処理できるということは,このデータ形式から別のデータ形式へ情報を落とすこと無く自動変換できるわけです.(異なるワープロ間のデータ変換のように情報の欠落がなく,専用プログラムを作成する必要も無いのです)