第6回 「文書」類の電子化の標準をめざすXMLの試み
今週全般は、W3CでXMLワーキンググループの議長をしているSUNマイクロシステムズ Jon Bosak氏の講演会の準備等で忙殺されていた。彼は、ヨーロッパで開催されるXMLカンファレンスの直前にもかかわらず、忙しい時間をぬって快く訪日してくれ、六本木にある東京大学生産技術研究所で、 「XML:TheUniversal Document Format」と題して90分あまりの講演を行ってくれた。
XMLワーキンググループは、1996年の7月頃より活動を始め、2年足らずの期間で勧告案の発表に至ったものであり、そのスピードにいささか驚嘆している。 Bosak氏を中心とし、携わった方々の並々ならぬ努力がうかがわれる。
私がこのコラムでこだわっているテーマは「紙」媒体を前提に生活してきた我々が、どのように「電子」媒体情報に対応していくかと言う点にあり、その意味で、XMLが目指している文書情報を標準化されたルールに基づいて電子化していくことは、重要な位置を占める。
もちろん「情報」の電子化に際しては「文書」だけではなく、商取引に関わる「伝票」類や、エンジニアリングに関わる「図面」などなど様々な情報の種類がある。XMLは、その母体とされているSGMLと同様に「文書」類の電子化にむけての標準であり、「情報」の電子化の一部でしかないが、今後の情報の「電子」化に向けては極めて重要な役割を果たすと考えるところである。
XMLのねらいを単純に言えば、Bosak 氏の講演タイトルにあるように「ユニバーサルな文書形式」と言う言葉に集約される。すなわち、Aさんの書いた電子文書が、BさんCさんでも、また場合によっては国境を超えて誰でもその文書を取得することができるための標準化された形式を目標としたものである。
もちろん、XML出現以前においても、テキストを含む文書類を電子化する試みは幾つもなされてきた。しかしながら、各々の利用者のコンピュータ環境や使用する文字コード・フォントなどを背景として、文書を電子化する際の形式は各々の利用者によってさまざまに工夫され、相互に異なるものであった。簡単に言えば、Aさんの書いた電子文書はAさんのコンピュータ環境でしか見ることができない代物であったといえる。
本コラムの読者諸兄であれば、間違いなくワープロをお使いであろう。現在数多くの種類のワープロが世の中に出回っている。このためあなたのお使いのワープロで書かれた文書は、となりのどなたかの違う種類のワープロで見ることは不可能とされる。このため、ワープロで作成された文書も結局は「紙」に印刷され配布されている。一旦、紙になった文書は、もはやネットワークで送ることは不可能であり、結局は郵便やファクシミリなどの従来からの情報伝達手段に委ねられることとなる。さらには、受け手側で再度その文書を入力し直したりする結果を招いている。
あなたの作成した電子文書が、そのままネットワークを経由して誰かに送ったり、また受け手側で、その文書の続きを作成したりできれば、いろいろな意味で仕事の効率化が期待できる。そのような意味において、今日電子メイルにアタッチした電子文書の送受信が頻繁になされているが、これとて送信者・受信者ともに同じワープロを使っていると言う前提が必要となり、新しいバージョンが年々販売されている今日の状況では、相互に電子文書を円滑に交換する上で大きな制約がある。
ドキュメント構造を標準化し、オープンに交換したり加工するための努力は1960年代に開始され、1986年にISO標準としてのSGMLが制定された。ただし、当時の状況においては、今日のようにネットワークが普及し、オープンなシステムが一般化している訳ではなく、SGMLの主たる目的は、異なるコンピュータ組織で生成された文書群を相互に交換することに目的が置かれていた。言い換えればAさんがAさんの手元で生成した文書をBさんのコンピュータ組織に運び込む際の形式を主たる目的としたものであった。
XMLは、今日のWEBの広範な普及を背景に、「電子文書の交換形式」としてのSGMLの領域を大きく超えて、ネットワーク上で「電子文書」を共有化することを前提においている。その意味ではWEB上で広く利用されているHTMLが、もはや情報の共通形式として成立しているじゃないかとの意見もあろう。
ただし、これほどまでに普及したHTMLにも幾つかの問題点がある。
- HTMLのブラウザがほぼ2社の寡占状況にあり、各々の社の戦略によって新たな機能追加がなされつつある。
- HTMLの主眼は、「かっこいい表現」を可能とするところに集約されており、文書の構造(タイトルや著者、パラグラフ構成など)の表現手段がない。また、複雑な構造を持つ文書を表現し難い。
- 共通に定められたタグ構造が全てであり、利用領域に応じた新しいタグ追加ができない。
XMLは、HTMLのこのような弱点を克服しつつ、一方でSGMLの煩瑣な規約を大胆に取り除き、しかも利用者相互間で共通に解釈できる「正規化」された文書の電子化に対する規約として成立させようとする試みを持つものである。
このように、見方によっては相反する目的を融合させて、一つの体系に結び付けていく上では、大変な努力があったに違いない。
Bosak氏を始めとする、XML制定に関わった方々の情熱と努力にただただ敬服するばかりである。
執筆 菊田昌弘(前代表取締役)