S&Bコーポレーション

Chrom拡張プラグインでWebスクレイピング(JavaScript)

ある仕事の案件で、業務効率化のために特定のページからデータを一括で取得する必要に迫られ、 WebスクレイピングをChromの拡張プラグイン(JavaScript)で実現してみました。

環境的に制約が多い現場などでは役に立つかと思います。

開いているページのソースを取得してAlertで表示するだけの簡単なものですが、下記にその方法について記述しておきますので、よかったら参考にしてみて下さい。

必要なファイルと各ファイルのソースコード

必要なのは以下の3つのファイルになります。



どこでもいいので同じフォルダ内に3つのファイルを作成して下さい。
各ファイルのコードは下記の通りです。

■manifest.json
{
"manifest_version": 2,
"name": "WebScraping",
"version": "1.0",
"description": "WebScraping",

"content_scripts": [{
"matches": [""],
"js": ["script.js"]
}],
"background": {
"scripts": ["background.js"],
"persistent": false
},
"browser_action": {
"default_title": "Sample"
},
"permissions": [
"tabs",
"background",
"http://*/*",
"https://*/*"
]
}
■background.js
chrome.browserAction.onClicked.addListener(function(tab) {
chrome.tabs.sendMessage(tab.id, "myAction");
});
■script.js
chrome.extension.onMessage.addListener(function(request, sender, sendResponse) {
if (request == "myAction") {
hogehoge();
}
});

function hogehoge() {
//ページのHTMLソースを表示 alert(document.all[0].outerHTML);
}

Chromでプラグインとして使うための設定

Chromの「設定」⇒「拡張機能」と進み

デベロッパーモードをONにして下さい。

「パッケージ化されていない拡張機能を読み込む」をクリック

↑で作成した3つのファイルが格納されているフォルダを選択

これで拡張プラグインとして使用可能です。

実行結果

プラグインを追加し、プラグインのボタンをクリックすると



このようにソースが取得出来ます。
ぜひ参考にしてみて下さいね。

←前の記事へ 次の記事へ→