ダウンロードと新規登録
無料で$5のクーポンをゲット
日本語
入門ガイド 特徴紹介

【スマートモード】【フローチャートモード】ブレークポイントからスクレイピング方法 | Webクローラ | ScrapeStorm

2019-09-26 09:22:49
812 views

摘要:本文では、ブレークポイントからスクレイピングする方法を紹介します。プライミング必要なし、使いやすいです。 ScrapeStorm無料ダウンロード

スクレイピング中に、異常停止が発生する場合があります。 最後の停止位置からタスクを再度開始する場合は、ブレークポイントからスクレイピングする必要があります。

さまざまな要因により、ブレークポイントから自動的にスクレイピングする機能はまだ利用できません。当社のエンジニアもこの問題を克服しようとしています。現在、ブレークポイントからスクレイピングするための2つのオプションがあります。

オプション1: 重複排除の機能により、すべてのモード、特にローリングロードがあるページに適用できます。

オプション2:スクレイピング範囲の設定、URLの変更、または事前操作の追加により、ブレークポイントからスクレイピングを再起動できます。これは全部ページ(特に次のページボタンがあるページ)に適用します。

これから、これら2つのオプションを個別に紹介します。 スクレイピング中に判断して選択してください。

オプション1: 重複排除の機能を通じて

タスクの起動する時に重複データ排除を設定し、「データが重複になると、スキップします」を選択します。

この解決方法は簡単に設定できますが、効率は劣ります。 設定完了後も、タスクは最初のページから起動され、1つずつスクレイピングされたすべてのデータをスキップします。

オプション2: スクレイピング範囲の設定、URLの変更、または事前操作の追加

タスクが停止すると、ScrapeStormの停止画面はスクレイピング終了URLとページフリップ回数を記録します。これらを参照して、ブレークポイントを識別できます。

通常、スクレイピング終了URLの表示は正しいですが、ページがスタックしている場合、ページフリップ回数が異常になるかもしれません。

1.スクレイピング範囲の設定(スマートモードの場合)

①終了URLをコピーし、ページ数を参照して、正確なページフリップ回数を見つけます。

②スマートモードでは、スクレイピング範囲の開始ページを①のページフリップ回数に設定します。

2.URLを変更するか、事前操作を追加します

通常、下記のように二つの状況があります。

(1)ページ番号が変わるとURLが変わるWebサイト(スマートモードまたはフローチャートモードの場合)。

例えば:

https://www.newsweek.com/world?page=1

https://www.newsweek.com/world?page=2

https://www.newsweek.com/world?page=……

上記のように、ページ3に到達したときにタスクが停止した場合、ページ3のURLを直接コピーして、元のタスクのURLを変更して、再度スクレイプできます。

[ヒント]以前にスクレイピングしたデータを保持する必要がある場合は、クリックしてデータを消去しないでください。

(2)ページ番号を変更してもURLが変わらないWebサイト(フローチャートモードの場合)。

次のようなWebサイトでは、ページ数がどのように変化しても、URLは変わりません。

このようなWebサイトでは、「URLを開く」コンポーネントの後に「ループ」コンポーネントを追加する必要があります。ページ分けボタンを直接クリックするか、コンポーネントをドラッグして作成できます。

これにより、スクレイピングが開始される前に独立したページフリップが実行され、以前に停止されたページが取得されます。

この操作は、最初のけ解決方法でスクレイピング範囲を設定するのと同じ効果があります。 主にフローチャートモードで使用されます。 具体的な操作は次のとおりです。