http://www.sw.it.aoyama.ac.jp/2006/PB1/lecture2.html
duerst@it.aoyama.ac.jp, O 棟 529号室
© 2006 Martin J. Dürst 青山学院大学
自分のパソコンにソフトをインストールする:
<?xml version="1.0" ?> <Letter date="2006-04-17"> <to>Students</to> <from>Martin</from> <Title>Reminder</Title> <Text>Please don't forget your homework.</Text> </Letter>
<?xml version="1.0" ?>
文字符号化の指定の場合:
<?xml version="1.0"
encoding="
文字符号化" ?>
バージョンが 1.0 で、符号化が UTF-8 (又は UTF-16 か別途指定の場合) の場合には XML 宣言が無くてもよい
encoding
で指定したものと実際の符号化が合わないといけない!
(Character encoding)
文字をコンピュータの中で表すやり方が複数ある。このやり方は(文字) 符号化という。
符号化の種類:
US-ASCII
:
ローマ字と一部の特殊文字だけ。ほぼ世界全体で使われている。Shift_JIS
(シフト JIS、SJIS): PC や MacIntosh
で伝統的な日本語用の符号化EUC-JP
(EUC): UNIX/Linux
などで伝統的な日本語用の符号化iso-2022-jp
(JIS):
電子メールなどで伝統的に使われている日本語用の符号化UTF-8
: ユニコードに基づく世界の文字を
(ほぼ) すべて扱える符号化。US-ASCII と互換UTF-16
: UTF-8 と似ているが、US-ASCII
と互換でない括弧内は通称、encoding
では必ず正式なラベルを使う
(大文字・小文字は問わない)
(element)
例: <to>Students</to>
<
と >
で区切る。</
と >
で区切る。date="2006-04-17"
=
が入る"
(もしくは '
)
で囲む (両側は同じでないといけない)XML では文字符号化と関係なくテクストのところでユニコードのすべての文字を、数字を使って表せる (要素名などを抜く)
書き方:
&#x
ABCD;
&#
12345;
&#x
の x
は小文字でないといけない&
そのものは &
で表す。他に < (<), > (>), ' ('),
" (") がある<?xml version="1.0" encoding="shift_jis" ?>
<from>
のところを「Martin J.
Dürst」に完成する (ヒント: 名前の書き方の「MS
IME」参照)<?xml version="1.0" encoding="UTF-8" ?>
<?xml version="1.0" ?>
<to>
のところの「Students」を自分の名前に変更する0xABCD
みたいな番号が出る。これを ꯍ
として XML 文書に入れる)<from>
の内容以外)
完全に日本語にする