(現在 過去ログ1 を表示中)

HOME HELP 新規作成 新着記事 トピック表示 ファイル一覧 検索 過去ログ

[ 最新記事及び返信フォームをトピックトップへ ]

■14 / inTopicNo.1)  「.csv」と「.tsv」
  
□投稿者/ たゆー -(2006/03/31(Fri) 07:07:13)
    3月も今日で終わりですね。来週からは決算でいそがしくなるところですが・・・
    
    ところで、「.csv」は、Excel・桐他で使用されるコンマ区切りのテキストファイルですが
    「.tsv」は・・・
    
    タブ区切りのファイルだそうです。あまり耳なじみはありませんが、桐のデータは
    コンマは利用してもタブはあまり使用しないのでこちらがいいかもわかりませんね
    
    

引用返信 [メール受信/OFF] 削除キー/
■15 / inTopicNo.2)  Re[1]: 「.csv」と「.tsv」
□投稿者/ ONnoji -(2006/03/31(Fri) 20:50:52)
    2006/03/31(Fri) 23:55:14 編集(投稿者)
    2006/03/31(Fri) 23:52:38 編集(投稿者)

    > ところで、「.csv」は、Excel・桐他で使用されるコンマ区切りのテキストファイルですが
    > 「.tsv」は・・・
    > タブ区切りのファイルだそうです。あまり耳なじみはありませんが、桐のデータは
    > コンマは利用してもタブはあまり使用しないのでこちらがいいかもわかりませんね

    .csv はコンマ・セパレーテッド・バリューだろうと思います。
    ※コンマで区切られた値=コンマ区切りのテキスト

    DOSのころから、米国ではよくそう呼んでいましてね、特別にエクセルのファイルのことではありません。
    ※同様にDOS時代には、.doc だってワードのファイルとは限りません。

    結局、M帝国のソフト群がデフェクト・スタンダードなだけなんですがね。(@_@)

    .tsv はタブ・セパレーテッド・バリューだろうと思います。
    ※水平タブで区切られた値=水平タブ区切りのテキスト

    実は、仕事上ある公的機関に定期的に提出するデータの形式がタブ区切りです。
    依頼先からいただいた仕様書にはtsvと書いてありました!
    私も初耳だったので、電話で確かめたのですが、やはりタブ区切りのテキストのことでした。

    tsv って、業界用語なんでしょうかね〜?


    <追伸>

    編集を3回以上すると、急にフォントが大きくなりますが、
    これはこの掲示板・他のCGIの仕様ですか?????????


引用返信 [メール受信/OFF] 削除キー/
■24 / inTopicNo.3)  Re[2]: 「.csv」と「.tsv」
□投稿者/ hidetake -(2006/04/09(Sun) 09:30:48)
    2006/04/09(Sun) 09:42:21 編集(投稿者)

    > tsv って、業界用語なんでしょうかね〜?

    今日、サーバの設定をしていたら初めて気づきましたが

    HTTPサーバ(Apache)のファイルの MIME.Type の設定ファイル
    である mime.types にも

    text/tab-separated-values tsv

    と設定されていました。

    ですので、そう古くない Apache でも tsv は
    tab-separated-values
    として、扱われるし、まぁ〜そう言う世界でも使われている
    ようです。要は業界だけでも日本だけの話でも無い!?
    ちなみに、何故か csv の方は mime.types には登録されて
    いませんでした。なので、通常はただの text/plain として
    扱われるはずです。

    # Apache の設定で .csv をダウンロードされるファイルに
    # 設定変更(.htaccessで)していたときに気づきました。



    > <追伸>
    > 編集を3回以上すると、急にフォントが大きくなりますが、
    > これはこの掲示板・他のCGIの仕様ですか?????????

    これは、たゆーさんが、<pre> 処理をデフォルトとして改造
    したときの改造?設定?の問題かな?
    何回か編集すると <pre> が何重にも重なっていき、おかしく
    なる? 私は複数回投稿していたときは、編集時間と <pre> を
    手作業で削除して、これまで投稿してきました。 (^^;
引用返信 [メール受信/OFF] 削除キー/
■26 / inTopicNo.4)  掲示板設定の件
□投稿者/ たゆー -(2006/04/09(Sun) 11:35:19)
    >>編集を3回以上すると、急にフォントが大きくなりますが、
    >>これはこの掲示板・他のCGIの仕様ですか?????????
    > 
    > これは、たゆーさんが、<pre> 処理をデフォルトとして改造
    > したときの改造?設定?の問題かな?
    > 何回か編集すると <pre> が何重にも重なっていき、おかしく
    > なる? 私は複数回投稿していたときは、編集時間と <pre> を
    > 手作業で削除して、これまで投稿してきました。 (^^;
    
    ご迷惑をおかけいたしております。ログをみると
    ><pre><pre>
    >・・・・・・・
    >・・・・・・・
    ></pre></pre>
    と、なってる場合がありますので、そのせいでしょうかね
    検討してみます
    
    

引用返信 [メール受信/OFF] 削除キー/
■31 / inTopicNo.5)  Re[3]: 「.csv」と「.tsv」
□投稿者/ hidetake -(2006/04/10(Mon) 13:28:08)
    > text/tab-separated-values	tsv
    
    ASAHI-NET も少なくとも 1999年のころから
    設定してあるし、
    http://www.asahi-net.or.jp/homepage/mimetype/
    Apache に限らず MS のIIS でも IIS 4.0 の
    http://www.microsoft.com/japan/technet/prodtechnol/windows2000serv/technologies/iis/maintain/featusability/mimeiis.mspx#E5BAC
    時代から設定してあるようだけれど、この
    
    MIME Type text/tab-separated-values
    を受け取って、処理する側のクライアントで
    この tsv を扱うようになっているアプリケー
    ションって、何なのだろうか?
    csv は未だに設定されていないのが標準?
    のようだけれど?
    
    使われていたからこそ、登録・設定されて
    いたのでしょうけど? UNIX 関連で使われて
    いたのでしょうか?

引用返信 [メール受信/OFF] 削除キー/
■38 / inTopicNo.6)  Re[4]: 「.csv」と「.tsv」
□投稿者/ ONnoji -(2006/04/11(Tue) 11:10:09)
    > csv は未だに設定されていないのが標準?
    > のようだけれど?
    
    csvの場合には、
    区切り文字(セパレータ)がコンマということですが、
    もうひとつ、囲み文字(デリミターだったかな?)というのがややこしいですね。
    
    つまり、一般的には文字列のデータがが対象なのですが、
    二重引用符で囲む場合もありますが、
    一重引用符で囲む場合もあるんですね。
    ※囲み文字を使わない場合もあります。
    
    そうすると、文字列中に二重引用符や一重引用符が使えないわけで、
    K3ファイルの場合は、二重引用符をダブルにするなんてことをしているわけですね。
    
    そういう理由で、csvにはいろいろとバリエーションが存在するので、
    標準が何か決められないのだろうと想像しますが?
    タラレバですがね。(^^ゞ
    
    tsvの方がシンプルだということじゃないでしょうか?
    

引用返信 [メール受信/OFF] 削除キー/
■39 / inTopicNo.7)  Re[5]: 「.csv」と「.tsv」
□投稿者/ hidetake -(2006/04/11(Tue) 12:54:25)
    2006/04/11(Tue) 13:02:01 編集(投稿者)

    > tsvの方がシンプルだということじゃないでしょうか?

    tsv もタブを含むときのデータの時はどうするかとか
    出てきますので、csv と同じようにも感じますが、
    最近のと言うか、Excel だと、タブ区切りもカンマ区切りも
    区切り文字がデータとして入ってきた場合と項目内改行を
    含む場合、データを " " で区切るようですが、それ以外の
    場合はスペースを含んでいても " " では囲まないようですね。

    最近あつかったものでは PHP の CSV書き出し関数も基本的
    には文字列も " " では囲まず、スペースが含まれたり項目内
    改行が含まれると " " で囲むようになっていました。

    # ちなみに PHP には cvs 関数はあるけど tsv 関数はない!
    # と言ったらウソになるか!? (^^;
    # csv 関数のオプションに区切り文字と囲み文字の指定が
    # できるようにはなっています。
    # デフォルトは csv 。( fgetcsv関数と fputcsv関数 )
引用返信 [メール受信/OFF] 削除キー/
■40 / inTopicNo.8)  Re[6]: 「.csv」と「.tsv」
□投稿者/ ONnoji -(2006/04/11(Tue) 13:25:26)
    >>tsvの方がシンプルだということじゃないでしょうか?
    > tsv もタブを含むときのデータの時はどうするかとか
    > 出てきますので、csv と同じようにも感じますが、
    
    私の頭が相当古いと思いますが…(^^ゞ
    昔では、データ交換用のテキストの場合、制御コードはデータとは見なさないと思うのですよね。
    
    今では、データ内に改行を表す制御文字を使うソフトもあるらしいですね。
    
    これは余談ですが、
    tsvにせよcsvにせよ、機種依存の文字コードを抜くのが面倒ですね。(^^ゞ
    

引用返信 [メール受信/OFF] 削除キー/
■41 / inTopicNo.9)  Re[7]: 「.csv」と「.tsv」
□投稿者/ hidetake -(2006/04/11(Tue) 13:48:16)
    2006/04/11(Tue) 13:57:55 編集(投稿者)

    > 今では、データ内に改行を表す制御文字を使うソフトもあるらしいですね。
    > tsvにせよcsvにせよ、機種依存の文字コードを抜くのが面倒ですね。(^^ゞ


    このような掲示板しかり、今時のデータベースはいろんなデータを
    自由に扱えるのが一般的だと思います。
    掲示板のデータにしても改行文字も含めてデータが自由に扱えない
    と使い物にならないのがご時世だと思います。


    # 今やっているやつで、いろんな文字も扱えるように UTF-8 を
    # 基本に設定し、PostgreSQL ももちろん内部データとして UTF-8
    # で、そして PHP も UTF-8 、桐も ODBC を通してであるけれど
    # UTF-8 で収められた PostgreSQL のデータで処理していて、
    # 最後の最後で MAC 0S9 の IE5 で、SELECT の OPTION に UTF-8
    # で記述されていると文字化けする事に出会った。その後、MACIE
    # でも、OPTIN タグに <option ・・・・・ lang="ja"> と
    # lang="ja" と書けば一応は文字化けするのは防げるのはわかった
    # けれど、JavaScript での INPUT TEXT 内への書き込みで文字
    # 化けする関係もあって(MACIEのバグ?)、MAC OS9 用の IE を
    # 捨てられないので、PostgreSQL のデータ以外は EUC-JP に
    # 切り替えざるを得なかった! orz
    #
    # 桐以外を除けば UTF-8 でいけた!と思っていたのに残念。 (;_;)
    #
    # MAC IE は OS X も含めて SELECT に OPTGROUP を使うと
    # 内部で配列のデータが入れ替わってしまうのか、思わぬところ
    # に違ったデータが表示されるバグにも・・・ (;_;)
    #
    # サポートを打ち切られた MAC IE めぇ〜!
    #


    > tsvにせよcsvにせよ、機種依存の文字コードを抜くのが面倒ですね。(^^ゞ

    正規表現ぐらい使えたらなぁ〜、ってなってしまいますね!?
    桐で扱うデータを処理する場合は、DOS時代から SED 等の正規表現を
    扱える外部ツールに頼っていました。 orz
引用返信 [メール受信/OFF] 削除キー/
■42 / inTopicNo.10)  Re[8]: 「.csv」と「.tsv」
□投稿者/ hidetake -(2006/04/11(Tue) 14:57:21)
    > tsv
    
    そう言えば、タブ区切りでデータを扱っているものと言えば
    PostgreSQL の pg_dump (pg_dumpall) で、データベースや
    データ全体をテキスト形式でバックアンプを取ると、データ
    の部分はタブ区切りのデータとして書き出されますね。
    
    全体が SQL文として COPY命令でデータを復旧できる構造に
    なっているのですが・・・

引用返信 [メール受信/OFF] 削除キー/
■43 / inTopicNo.11)  Re[8]: 「.csv」と「.tsv」
□投稿者/ hidetake -(2006/04/11(Tue) 16:37:15)
    >>tsvにせよcsvにせよ、機種依存の文字コードを抜くのが面倒ですね。(^^ゞ
    > 正規表現ぐらい使えたらなぁ〜、ってなってしまいますね!?
    
    正規表現を使えたらなぁ〜!って、言い始めて、はや十数年・・・
    
    > #3649/3664 K3UG ボード
    > ★タイトル (MAB58670)  92/ 1/23  12:20  ( 34)
    > 桐> あれこれ/heiwa
    > ★内容
    > ■どうして桐には、1文字のワイルドカードが無いのでしょう?
    >  例えば、東京の市内局番が、3桁から4桁に変更になった時、
    >  桐ですと何回か選択を繰り返すか、複雑な置換式を書く必要が
    >  有りました。
    >  もし、?が使えると、03-???-* -> 03-5\1\2\3-* とか簡単に
    >  置換式が書けそうです。[上の式は、mifes の式だったかな]
    > 
    >  1文字のワイルドカードや正規表現があったら、もっと使いや
    >  すくなるかも知れませんね。
    
    いつになったら? それとも桐で正規表現が使える日は来るのでしょうか?
    
    check.sed
    --------------------------------------------------------------------------------
    # JIS規格以外の文字を「〓」に変換
    # -----------------------------------------------------------------------------
    # 222F - 232F  (81AD - 824E) ※〓の後〜数字の前の空き間(新JIS記号も)
    # 233A - 2340  (8259 - 825F) ※全角数字の後〜英大文字の前の空き間
    # 235B - 2360  (827A - 8280) ※全角英大文字の後〜英小文字の前の空き間
    # 237B - 237E  (829B - 829E) ※全角英小文字の後〜ひらがなの前の空き間
    # 2474 - 247E  (82F2 - 833F) ※ひらがなの後〜全角カタカナの前の空き間
    # 2577 - 257E  (8397 - 839E) ※全角カタカナの後〜ギリシア文字の前の空き間
    # 2639 - 2640  (83B7 - 83BE) ※ギリシア大文字の後〜小文字の前の空き間
    # 2659 - 267E  (83D7 - 843F) ※ギリシア文字の後〜ロシア文字の前の空き間
    # 2742 - 2750  (8461 - 846F) ※ロシア大文字の後〜小文字の前の空き間
    # 2772 - 2F7E  (8492 - 889E) ※漢字第1水準の前の空き間(新JIS罫線も)
    # 4F54 - 4F7E  (9873 - 989E) ※第1水準と第2水準の間の空き間
    # 7421 - 7424  (EA9F - EAA2) ※新JISで字形変更された尭槙遥瑶の旧字体
    # 7425 - 7E7E  (EAA3 - EFFC) ※第2水準の後の空き間
    # 7F21 - FCFC  (7F21 - FCFC) ※第2水準の後の空き間
    # -----------------------------------------------------------------------------
    /[ -・]/{
    s/[・-・]/〓/g
    s/[・-・]/〓/g
    s/[・-・]/〓/g
    s/[・-・]/〓/g
    s/[・-・]/〓/g
    s/[・-・]/〓/g
    s/[・-・]/〓/g
    s/[・-・]/〓/g
    s/[・-・]/〓/g
    s/[・-・]/〓/g
    s/[・-・]/〓/g
    s/[堯-・]/〓/g
    }
    --------------------------------------------------------------------------------
    
    sed -f check.sed in.txt > out.txt
    
    別に簡単な処理なのに!? 内部で使うのだったら tr でちょこっと・・・
    
    

引用返信 [メール受信/OFF] 削除キー/
■44 / inTopicNo.12)  Re[8]: 「.csv」と「.tsv」
□投稿者/ hidetake -(2006/04/12(Wed) 10:28:06)
    > # けれど、JavaScript での INPUT TEXT 内への書き込みで文字
    > # 化けする関係もあって(MACIEのバグ?)、MAC OS9 用の IE を
    > # 捨てられないので、PostgreSQL のデータ以外は EUC-JP に
    > # 切り替えざるを得なかった! orz
    
    ふと気になって、INPUT タグにも  lang="ja" を加えれば
    解決するのか? なんて思い立ち、テストしようとしたら
    なんと、この問題はスタイルシートを使っていて INPUT
    に明示的な FONT-FAMILY の指定が無かったがための問題
    だったのか。ほかのブラウザでは何も問題は無いのに・・・
    
    MAC IE の場合(特に OS9 用の)、スタイルシートを使って
    いて FONT-FAMILY の指定で Osaka とか MAC 用のフォント
    の指定が無いと極端に遅くなる場合があるようだが、全く
    FONT-FAMILY の指定が無いタグでもこんな問題が出ようと
    は! orz
    
    しかし、これが解決すると言うことは UTF-8 でいけると
    言うことになる。桐だけは、ブラウザから入力された
    Shift_JIS で表現できない文字は、表示すらされず、その
    項目を桐で編集してしまったら、Unicode でしか表現でき
    ない文字は消え去ってしまうことになるが、基本的に参照
    用の桐だとそれで我慢するしか無いと割り切ることにして!
    
    機種依存文字に関しては、どうしても我慢できない場合は
    フォントファイル名を固定して使うのも良いかな?
    自分たちで使う文には共通のフォントを使えばよいし
    ライセンスの問題があれば、フリーのフォント(IPAフォント
    でも)使うのも一つだろうし!?
    
    
    # 私の掲示板でもスタイルシートを使っていて FONT-FAMILY
    # の指定が無かったり、あるいは、あっても MAC用のフォント
    # 指定が無く、表示に時間がかかったり、文字化けした人が
    # いたらごめんなさい! 無知な私でした。 _o_
    
    
    # 世の中、MAC用のフォント指定など無いところも一杯なので
    # MAC OS9 や MAC IE を使ってインターネットを続けないと
    # いけない環境にいる人って・・・ orz
    
    

引用返信 [メール受信/OFF] 削除キー/



トピック内ページ移動 / << 0 >>

このトピックに書きこむ

過去ログには書き込み不可

Mode/  Pass/

HOME HELP 新規作成 新着記事 トピック表示 ファイル一覧 検索 過去ログ

- Child Tree -
- Antispam Version -