Apple Store(Japan)  
Sony Style(ソニースタイル)
ウィルコムストア
 


自動収集設定作成テクニック(1)
ポータルサイトのニュースから集めよう!

Yahooをはじめとした大手のポータルサイトは、情報の山です。
それを利用して、自分に必要な情報だけを効果的に収集してしまいましょう!

1)Yahooニュース

(a)ニューストピックから集める
Yahooニュースのトピックでは、ユーザーの興味のある事柄について最新のニュースをまとめてくれています。このリストからYahooニュース内の記事を取得してみましょう。

事例(1)
Yahooニュース トピックス>コンピュータ>パソコンと周辺機器>PSP
name = Yahooトピックス -PSP
url = http://dailynews.yahoo.co.jp/fc/entertainment/psp/
link_serach = 5   ←記事を取得する総数、任意に決めてください
link_befor_linkword =バックナンバー   ←探すリンクの直前のリンク文字列
link_befor_linkword_count=1   ←何個目のlink_befor_linkwordか
firstword = <!---記事-->
lastword = <!---/記事-->
deleteword=[続きを読む]
deleteword=CrLf
link_serach = 5
親のページのリンクの中から取得する総数を指定します。(通常5〜10くらいでしょうか)

link_befor_linkword =バックナンバー
親のページのリンクの中から「バックナンバー」というリンクを探し
その次のリンク先を実際に取得します。

ink_befor_linkword_count=1
link_befor_linkwordの何番目かを指定します。
Yahooニューストピックでは、バックナンバーが2回存在します。その1個目を指定しています。

firstword = <!---記事-->
lastword = <!---/記事-->

親からリンクされたのページ(つまり子)での必要な部分を切り出すための最初の文字と最後の文字です。 Yahooニュースは非常にわかりやすくなっています。

deleteword=[続きを読む]
deleteword=CrLf

この2つは、本文中でいらない文字を削除するためのキーワードを指定します。CrLfは、特別な指定で、 不要な改行をなくすという意味です。

Yahooニュースのトピックは、多岐にわたって設定されています。

事例(2) Yahooトピックス ソニー
name = Yahoo -ソニー
url = http://dailynews.yahoo.co.jp/fc/economy/sony/   ←ここが違うだけです
link_serach = 10
link_befor_linkword =バックナンバー
link_befor_linkword_count=1
firstword = <!---記事-->
lastword = <!---/記事-->
deleteword=[続きを読む]
deleteword=CrLf

事例(3) Yahooトピックス 福田康夫内閣
name = Yahoo -福田内閣
url = http://dailynews.yahoo.co.jp/fc/domestic/fukuda_cabinet/   ←ここが違います
link_serach = 10
link_befor_linkword =上川陽子    ←ここが違います(一覧を飛ばしています)
link_befor_linkword_count=1
firstword = <!---記事-->
lastword = <!---/記事-->
deleteword=[続きを読む]
deleteword=CrLf
赤字の部分を任意のトピックに変更するだけで、ユーザーの興味によって必要な記事を落とすことができます。

(b)Yahooニュース内検索から集める
トピックにない「キーワード」や複数に関連付けて記事を探したいときは、Yahooニュース内検索を使います。
事例(4)YahooNews検索-アップル
name = YahooNews検索-アップル
url = http://nsearch.yahoo.co.jp/bin/search?p=アップル&st=n
link_serach = 10
link_befor_linkword =スポーツ紙(有料)
link_befor_linkword_count=1
firstword = <!---記事-->
lastword = <!---/記事-->
deleteword=[続きを読む]
deleteword=CrLf
赤字の部分に注目してください。引数の部分で
?p= と &st=n に囲われた”アップル”の部分が検索するキーワードです。
この部分を変更することで、簡単にニュース内検索ができます。

事例(5)YahooNews検索-SONY + 新製品
name = YahooNews検索-SONY+新製品
url = http://nsearch.yahoo.co.jp/bin/search?p=SONY+新製品&st=n
link_serach = 10
link_befor_linkword =スポーツ紙(有料)
link_befor_linkword_count=1
firstword = <!---記事-->
lastword = <!---/記事-->
deleteword=[続きを読む]
deleteword=CrLf
事例5では、複数のキーワードから検索例です。
事例4の ?p= と &st=n に囲われた検索ワードを+で繋げてあげると「SONY and 新製品」のニュース内検索が可能になります。

この検索キーワード方式で情報収集すると、朝の通勤時間に取引先の企業や新製品情報をさっとみることができます。

2)livedoor

livedoorのニュース検索でもYahooニュースの検索と同じようにできます。
事例(6) livedoorニュース検索-ソニーエリクソン
name = livedoor-ソニーエリクソン
url =http://news.livedoor.com/search/article/?word=ソニーエリクソン
link_serach = 10
link_befor_linkword =画像
firstword =<div class="detailtitle">
lastword =<br class="brclear" />
livedoorでは、?word= 以降に検索キーワードを入れます。
link_befor_linkwordはページの右上にある”画像”
firstword は「<div class="detailtitle">」、lastword は「<br class="brclear" />」
で切り取れます。

3)excite

exciteのニュース検索の事例です。
事例(7) エキサイトニュース - ジャイアンツ
name = エキサイトニュース - ジャイアンツ
url = http://www.excite.co.jp/search.gw?target=hourly&c=web&lk=excite_jp&lang=jp&search=ジャイアンツ
link_serach = 15
link_befor_linkword =今日のトレンド
firstword =<div class="main_story">
lastword =</span>
deleteword=CrLf
urlの最後のsearch=の後に検索キーワードを入れます。
切り出しのためのwordは上記を参考に!(そのままでたぶん大丈夫でしょう)

他のポータルサイトも上記を参考に作成できると思います。トライしてみてください。
(ただ、比較的この3つがニューソースが多くてなかなかいいと思いますけども・・・・)

※(2007/11/14 改定・修正しました)



通勤セミナー
通勤セミナー公開中

自動収集設定プラグイン
ライブラリー



Oisix(おいしっくす)/Okasix(おかしっくす)