テキストデータの構造。

コンピュータ業界では、文字だけの文書データのコトを
「テキスト」(Text)と呼びます。
“Text”とは、英語で”文書”のコトです。
教科書のコトではありません。

「テキストデータ」は、ワープロやメールの元になるデータです。
どのソフトも、このテキストを基本にして文書を保存しています。
「テキストファイル」と言えば、テキストデータを保存したファイルのコトです。
テキストファイルには、ファイル名の末尾に”.txt”とつけるのが一般的です。

テキストはあくまで文書を保存するためのモノなので
改行位置を直す場合など、不思議な現象が色々起こります。
目に見えない文字が、どうして必要なのでしょうか。
これは、テキストデータの構造を知ると、意味が分かると思います。

普通、文章を書くというと原稿用紙や便せんを思い浮かべますよね。
縦横に並んだマス目が紙の上にあって、それを埋めていく感じです。
この想像図は、直感的にわかりやすいんですけど欠点もあります。
まだ一文字も書く前からマス目を用意しておかなくちゃならないので、
コンピュータの能力をそれに取られてしまうのです。
例えば、400字詰め原稿用紙には、20×20個のマス目が必要です。
まだ一文字も書く前から、これだけのマス目がいるのです。
(具体的には、メモリやファイル容量を圧迫する事になります)

そこで、テキストデータでは、もっともシンプルな構造を採用しています。
次のように、マス目がヒモのように1列に並んでいるのです。
各マス目には文字が格納され、それが文書の量だけ伸びていくのです。

テキストデータは、原稿用紙でなく
文字がヒモのように並んでいる。

行の末尾には改行文字が入ります。
次の行の文字は、そのあとに続けて格納されます。
とにかくずーっと1列につながっているのです。
行と行の境目は、改行文字で判断します。

メールソフトやワープロソフトなど
テキストデータを表示するソフトは、
この列を適当なトコロで折り曲げて表示しているのです。
先頭から順番に表示していって、
改行文字が登場したら、次の行に表示します。
実際のデータは、1列のヒモがつながったままです。

そのために、行の途中に改行文字を挿入すると
そこで行が分かれて、2つの行に分かれるのです。
というか、分かれたように見えるのです。
改行文字を削除すれば、
分かれていた行が、ひとつとして表示されます。

メールなどのテキストを表示するソフトが
文字の列を分割して表示してくれる

この方式では、入力した文字の分だけマス目を用意すれば済んじゃいます。
400字詰め原稿用紙に書く場合でも、最初からマス目はいりませんし、
ちょっとだけ書くだけなら、それだけデータ量が小さくなります。

この方式は、人間の都合を考えないコンピュータ本意の発想です。
でも、これが発明されたのは1970年代の、
まだコンピュータがものすごく高価だった時代だったのです。
そして、一度発明された方式は簡単には変化しません。
日本語入力の変換方式と同じように、
これからも生き残っていくでしょう。

では、このPartはこれでお終いです。
続いて、「Part9.もっと早くなりたい!」に進みましょう。