Apple Store(Japan)  
Sony Style(ソニースタイル)
ウィルコムストア
 


自動収集設定プラグイン作成方法

動作の流れ

通勤PSP、通勤テキストコレクターの自動収集時の動作の流れを説明します。

ウェブページを全部読み込む

テキストのみを抽出
※ウェブブラウザの「名前をつけて保存ーテキストのみ」と同じ動作

サイトのフォーマットに応じて、余分なテキストを削る

この動作を登録されたサイトに対して繰り返す

新聞社・ブログなどのサイトは、定型フォーマット化された構成になています。 その中から、特徴的な単語、文章(またはタグ情報)を見つけ出し、余分な情報を削除し見やすい状態にする。  この繰り返しをするのが「自動収集」の機能になります。

自動収集設定プラグインファイル(以下プラグインファイル)は、一連の動作のための設定ファイルです。

プラグインファイルの場所

・プラグインファイルは、実行ファイルと同階層の「初期設定」ファルダの中に配置します。
アプリケーションからは、「メニュー>ファイル>自動収集設定の管理>設定フォルダを開く」から探すことが出来ます。


・インストールされた初期状態で、このフォルダを見ると上の画像のようになります。プラグインファイルの拡張子は「.ini」です。 ここでは、「Defult.ini」と「コラム.ini」が、プラグインファイルになります。

・このプラグインファイルは、テキストファイル形式です。 メモ帳などのテキストエディタアプリケーションで作成・変更できます。 ユーザーが作成したプラグインファイルは、以下に示す適切な書式を守っていれば、この「初期設定」フォルダに入れるだけで、通勤PSP、通勤テキストコレクターの自動収集の設定として登録されます。

最小限の設定法

例えば、

 name = 天声人語-朝日
 url = http://www.asahi.com/paper/column.html

と、新しいファイルを作成します。この内容は、

  name ⇒項目の名前です。任意ですが、他の名前と重複しないようにします。
  url ⇒ サイトのアドレスです

です。、指定したサイト(url)のすべてのテキストを収集します。

次に、

 name = 天声人語-朝日
 url = http://www.asahi.com/paper/column.html
 firstword = 【天声人語】
 lastword = 総合面


  firstword ⇒必要な本文中の最初のキーワード
  lastword ⇒必要な本文中の最後のキーワード

この場合、指定したサイト(url)のすべてのテキストの中から、 "【天声人語】"(firstword)と"総合面"(lastword )を探し出し、 最初のキーワード(firstword )から、最後のキーワード(lastword)までを抽出することになります。

では、実際のプラグインファイルを見ていきましょう。

プラグインファイルの例

プラグインファイルフォルダにある、コラム.iniを見てください。

 name = 天声人語-朝日
 url = http://www.asahi.com/paper/column.html
 htmlflag = 0
 link_serach = 0
 firstindexof = 0
 firstword = 【天声人語】
 firstword_in = 1
 lastword = 総合面
 deleteword = 会員制サービス「クラブA&A」なら、「社説」が最大3か月分ご覧になれます。
 deleteword = 詳しくはこちら
 deleteword = コラムはクラブA&Aで!
 deleteword = CrLf

とあります。各項目は、

  name ⇒項目の名前です。任意ですが、他の名前と重複しないようにします。
  url ⇒ サイトのアドレスです。
  htmlflag ⇒ サイトの情報をHTMLのままで保存するときは、1にします。通常0です。
  link_serach ⇒ 派生するリンクを探す場合はその数を入れます。通常0です。
  firstword  ⇒ 本文の最初のキーワードです。
  firstword_in ⇒最初のキーワードを、本文に含める場合は、1です。含めない場合は、0です。
  lastword ⇒ 本文の最後のキーワードです。
  lastword_in ⇒最後のキーワードを、本文に含める場合は、1です。含めない場合は、0です。
  deleteword ⇒ 本文中で、不要で削除したいキーワードです。(複数指定可能です)

つまり、抽出したテキストから
テキストの先頭から、「firstword」までを削除

「lastword」から、最後までを削除

本文中のいらない「deleteword」を削除
という動作のための書式になります。

また、この3行目にある「htmlflag」は、通勤PSPのみの設定です。HTMLのままPSPのインターネットブラウザで表示させたいときの設定です。ただし、画像ファイルは転送できませんので、天気予報など表のまま取り込みたい時に使います。

リンクを探して収集する

上の例に、「link_serach」という設定があります。「link_serach」は指定したサイトからリンクするページを探して自動的に収集する場合に使います。 プラグインファイルフォルダにある、コラム.iniを見てください。

 name = 編集手帳-読売
 url = http://www.yomiuri.co.jp/editorial/
 htmlflag = 0
 link_serach = 1
 firstindexof = 0
 firstword = <!--// headline_start //-->
 lastword = <!--// article_end //-->
 subword =編集手帳

 name = よみうり寸評-読売
 url = http://www.yomiuri.co.jp/editorial/
 htmlflag = 0
 link_serach = 1
 firstindexof = 0
 firstword = <!--// headline_start //-->
 lastword = <!--// article_end //-->
 subword =よみうり寸評


この2つの設定は、両方とも「link_serach = 1」になっています。この「」は、指定したサイト(url)から1つだけリンクされたページを収集することを示します。 両者の違いは、「subword」です。

この「subword」は、リンクの張られたタグ(例<A HREF="xxxx.html">○○○○○○○</A>)のタグにはさまれた表示部分(○○○○○○○の部分)に含まれるキーワードを指定し、リンク先を特定するために使います。

上記の「編集手帳-読売」で考えると、
『指定したurlのページの中で、「編集手帳」(subword)という文字が含まれるリンクのページを1つだけ(link_serach = 1)探して、 そのリンク先のページを収集しなさい』 という意味になります。

また、このlink_serachは、link_befor_linkwordと組み合わせて使うことができます。

 name = 記事一覧-読売新聞
 url = http://www.yomiuri.co.jp/index.htm
 htmlflag = 0
 link_serach = 40
 link_befor_linkword = 試読もできます
 firstword = <!--// headline_start //-->
 firstword_in = 0  lastword = 読売新聞)
 lastword_in = 0


上の設定は、サイト内の記事一覧から、順次リンクを探して収集するというものです。
http://www.yomiuri.co.jp/index.htmのページを参考に見てください。

「link_serach = 40」リンクされる40個のページを収集しなさいということになります。
「link_befor_linkword = 試読もできます」は、探し出すリンクの直前のリンクのテキストを表します。

つまり、『指定したurlのページの中で、リンクされるページがたくさんある。その中で、「試読もできます」(link_befor_linkword)という リンクを探して、その次のリンクから40だけ、リンクされたページを自動収集する。』  ということになるのです。

※link_serachが1以上のときは、「firstword」「lastword」「deleteword」は、リンク先のページのキーワードになります。注意してください。


作成時の注意点・留意点

設定時の注意としては、特徴的な書式の文字又はタグを探し出すことです。 きれいに必要な部分のみを落とすためには ウェブブラウザでHTMLのソースを表示し、 ご自信でその特徴をつかむことが必要になります。チャレンジして見てください。

お気づきの方も多いと思いますが、 「探す文字がなかったら?」と単純な疑問が沸きます。 ウェブサイトは、日々流動的にその形を変えます。 設定したキーワードがなくなったり、増えたり減ったりする可能性があります。 その場合、このソフトは、自動収集できなかった旨を通知します。

つまり、サイトの定型フォーマットが変化すると、自動収集できなくなります。 この辺は、フリーウェアですので、ご勘弁・ご容赦をお願いします。

また、ユーザーご自身でこのプラグインファイルを作られても、うまく動作しない場合も多数あると考えられます。 (同じキーワードかサイトの中に複数ある、本文中に偶然キーワードが存在するなど・・・・)

あらかじめ無理があることもご承知の上、プラグインファイルを作成してください。 また、うまく動作に成功したプラグインファイルは、サイト上で共有できるような方法も考えております。 準備が出来ましたら、通勤ドットコムサイト上で、ご案内いたします。

設定プラグイン作成のコツ1

運営の大きなサイトや、ブログなどは、タグのコメント例:<!--// headline_start //-->で、メニューや広告、本文などを 区切っている場合が多いようです。ソースを、表示してこのような部分を探してください。構造のはっきりしたサイトほど収集に向いています。

設定プラグイン作成のコツ2

構造のはっきりしないサイトは、全体又は大まかにを落としてから、「deleteword」を使ってどんどん削除します。この時、一度手動収集で落としてから、 いらない部分を「deleteword」に追加していきます。このとき、「deleteword = CrLf」を入れておくと改行をある程度削除してくれます。



通勤セミナー
通勤セミナー公開中

自動収集設定プラグイン
ライブラリー



Oisix(おいしっくす)/Okasix(おかしっくす)