■スレッドリストへ戻る■ 全部 1- 101- 201- 301- 401- 501- 601- 701- 801- 901- 1001- 最新50

monazilla

276 :98 :2001/02/18(日) 13:50
98としてはお久しぶりです。

subject.txtの形式は、
teriとbinboが、<>区切り、他は','区切りです。
<>区切りの場合、<>の後に1つ空白が入ります。
最後につくレス数は、
teri系  <レス数>
tako   (レス数)(←全角、perl板だけかも)
その他  (レス数)
になっています。
レス数の前に、空白が沢山場合が多々あります。

dat内部は、全て&ampを一文字の&に要変換。
さらに、teri系以外は'@`'を','に変換します。

デリミタは、teri系が<>区切りで、最後の<>の後に空白が一つ、
他は','区切りで最後の空白なし。
また、メール欄が空白の時は区切り文字が連続しますが、
何か文字が入っていると、余分に空白が一つ付くようです。

タイトルの長さは、最近のサーバーなら全角24文字の制限があり、
空白不可のようですが、
takoははるかに長いタイトルが可能で、タイトルが空のスレもあります。
また、www.2ch.netにあったスレが残っているような板も
長いタイトルがある可能性があります。

あぼーんされた行は
teri系  あぼーん<>あぼーん<>あぼーん<>あぼーん<>あぼーん
tako   あぼーん,あぼーん,あぼーん,あぼーん
その他  あぼーん,あぼーん,あぼーん,あぼーん,
となり、スレの1だった場合、タイトルが空白になります。
(takoは、デリミタが足りなくなるので要注意)
また、板の復帰後はsubject.txt内のタイトルも空白になります。

とりあえず、こんなところでしょうか。

277 :フッサール少佐 :2001/02/18(日) 14:35
>>276
おお、ありがとう。98。
ウチに来てくれたらうまい棒をあげるよ。

278 :turbo type D :2001/02/18(日) 15:03
全然わからん。(w
>>276

またいずれわかるかな。

279 :98 :2001/02/18(日) 15:08
訂正。
「メール欄に何か入ると最後に空白が1つ付く」は、
つい最近のスクリプト変更でそうなったみたいです。
古いログには
>名無しさん,sage,2000/xx/xx
がたくさんあり、ここ1ヶ月程のログはすべて
>名無しさん,sage ,2001/xx/xx
になってます。
また、teriは
>名無しさん<>sage<>2001/xx/xx
のままみたいです。

追記。
稀にdat内に'\0'が入っている場合があるので要注意です。
書きこみ内容に'\0'が含まれると、そのままdatに入ってしまうようです。
http://teri.2ch.net/accuse/dat/972022159.dat
長いですが、211と213に'\0'があり、さらに文章が続いています。

また、文字化けの場合も少々注意が必要です。
(最近は直ったらしいのですが、以前名前欄に「初級」等と入れると
見事に化けていました)
単に化けるだけならそのままで良いのですが、化けた後の最後の文字が
SJISの1バイト目になります。
なので、無視して<B>名無しさん</B>のつもりでHTMLにすると、
<B>ヘ・猿"・/B>等とります。
http://mentai.2ch.net/os/dat/977641.dat

280 :98 :2001/02/18(日) 15:29
さらにおもくそ訂正。
http://mentai.2ch.net/os/dat/977641.dat
(http://mentai.2ch.net/test/read.cgi?bbs=os&key=977641&to=5)

その他、例外としては、
http://piza.2ch.net/tech/dat/974514695.dat
(http://piza.2ch.net/test/read.cgi?bbs=tech&key=974514695&to=5)
の2なんてのもありますが、
こんなのが幾つもあるとは思えないので、エラー扱いでいいかも。

281 :98 :2001/02/18(日) 15:32
何やってんだろ、俺
http://mentai.2ch.net/os/dat/977641.dat
つーか、ちゃんとやったつもり。
一応全角でも。os板の977641.dat

282 :98 :2001/02/18(日) 15:36
ごめん、本当に9-7-7-0-7-0-6-4-1.datって
(ブラウザから)書き込んでるつもりなんだけど、なぜか変化する。

283 :書記さん :2001/02/18(日) 17:16
>>267
SOURCE FORGE、なかなかよさげですね。
http://sourceforge.net/


284 :turbo type D@monazilla.org :2001/02/18(日) 18:39
ボード一覧のbbsmenu.htmlとbbstable.htmlどちらかれも

以下のような条件判断をして
2chBBSリンクだけ取り出せた。

    //mailtoリンクならボードではないので無視
   if AnsiPos('<A HREF=MAILTO', AnsiUpperCase(BoardData) ) <> 0 then continue;

    //'.2ch.net/'が含まれていない場合、2ch板ではないので無視
   if AnsiPos('.2CH.NET/', AnsiUpperCase(BoardData) ) = 0 then continue;

    //'www.2ch.net/'なら板ではないので無視
   if AnsiPos('WWW.2CH.NET/', AnsiUpperCase(BoardData) ) <> 0 then continue;

    //'index2.html'が含まれていないのなら板ではないので無視
   if AnsiPos('/INDEX2.HTML', AnsiUpperCase(BoardData) ) = 0 then continue;


285 :turbo type D@monazilla.org :2001/02/18(日) 18:40
オレもsubject.txtの読み込みにとりかかろっと。

286 :デフォルトの名無しさん :2001/02/18(日) 18:52
HTMLパーサって使わないの?
まともなのがないから?

287 :turbo type D@monazilla.org :2001/02/18(日) 18:58
使い方教えてくれたら使うよ。オレや他の人が知らないだけかもね。

288 :98 :2001/02/18(日) 19:00
>>276を、もひとつ訂正。
&ampを&に変換です。
何故か &amplt;や&ampgt; となっている部分があるので。
ブラウザは単発の&を表示してくれるので全部無条件に変換してますが、
単純な全置換だと不具合が出るかもしれません。

>>284
http://2ch.binboserver.com/entrance/
http://2ch.server.ne.jp/2ch/rikei/
等もあります。

ついでにねすけ+串でてすと
-
977641―977641

317KB
新着レスの表示

スレッドリストへ戻る 全部 前100 次100 最新50

0ch BBS 2004-10-30