【フローチャートモード】ページ番号をバッチで入力してページをめくる方法 | Webクローラ | ScrapeStorm
摘要:この記事では、主にScrapeStormのフローチャートモードを使用して、ページ番号をバッチで入力してページをめくる方法を紹介します。 ScrapeStorm無料ダウンロード
タスクの設定では、Webページにページめくりボタンがない、またはWebサイトに厳しい収集防止制限があり、次のページボタンをクリックしてページめくりを実行できない場合がよくあります。このとき、ScrapeStormのフローチャートモードでページ番号をバッチで入力してページめくりができます。
Step1:タスクを新規作成
1.目標サイトのURLをコピーする
【注意】ホームページではなく、捜索結果のURLをコピーしてください。
下記のチュートリアルをご参照ください。
2.フローチャートモードタスクを新規作成する
ソフトウェアで直接新しいタスクを作成できます。
Step1:タスクを配置する
1.バッチでページ番号を入力するコンポーネントを設定する
URLを入力し、フローチャートモードで新しいタスクを作成した後、ページ番号入力ボックスをクリックし、左上隅に表示された操作ヒントボックスに収集するページ番号を入力します。
【注意】複数のページ番号を入力する必要があるため、操作ヒントボックスの「テキストリストを入力」をクリックしてください。
そして、「単一のテストリスト」を選んでください。
次に、ポップアップに設定する必要のあるページ番号を入力します。ここでは、それぞれ「1」、「2」、「3」と入力します。
「OK」をクリックして、ソフトウェアは自動的にページ番号を入力するループコンポーネントを生成します。
これから、「ページへ」ボタンをクリックし、操作ヒントで「要素をクリックする」を選択して、対応するWebページに移動し、クリックコンポーネントを生成します。
2.リスト要素を抽出する
複数のページ番号を入力するループを設定した後、リストを抽出するのを設定します。Webページのフィールドをクリックして、左上隅の操作ヒントボックスで「リスト要素を抽出する」を選んでください。
ソフトウェアはページングを自動的に識別しますが、今回のタスクではページングを設定する必要がないため、「いいえ、現在のページのみを抽出する」を選択します。
次に、ユーザーは自分のニーズに応じてフィールドを設定できます。
下記のチュートリアルをご参照ください。
Step3:タスクを設定して起動する
1.タスクを起動する
「起動」をクリックすると、出来た「起動を配置」画面に「スケジュール」、「アンチブロック」、「自動エクスポート」、「ファイルのダウンロード」などの機能を利用できます。今回は必要なくて、直接起動をクリックし、タスクを実行します。
各機能の設定方法について、下記のチュートリアルをご参照ください。
【注意】「スケジュール」機能はライトプラン以上で利用できます。「ファイルをダウンロード」機能と「自動エクスポート」機能はプレミアムプラン以上で利用できます。
2.タスクの実行とデータ抽出
タスクが実行されると、自動的にデータの収集が開始されます。プログラムの実行と収集結果をインターフェイスから直感的に確認でき、収集が終了するとリマインダーが表示されます。
Step4:データのエクスポートと表示
ScrapeStormは、Excel、csv、html、txt、データベース、ローカルなどさまざまなエクスポート方法を提供します。また、特定の数のデータをエクスポートもでき、エクスポートしたいのデータをチェックし、エクスポートをクリックして、保存できます。