ダウンロードと新規登録
無料で$5のクーポンをゲット
入門ガイド 特徴紹介

【フローチャートモード】ページ番号をバッチで入力してページをめくる方法 | Webクローラ | ScrapeStorm

2023-03-29 12:07:25
909 ビュー

摘要:この記事では、主にScrapeStormのフローチャートモードを使用して、ページ番号をバッチで入力してページをめくる方法を紹介します。 ScrapeStorm無料ダウンロード

タスクの設定では、Webページにページめくりボタンがない、またはWebサイトに厳しい収集防止制限があり、次のページボタンをクリックしてページめくりを実行できない場合がよくあります。このとき、ScrapeStormのフローチャートモードでページ番号をバッチで入力してページめくりができます。

Step1:タスクを新規作成

1.目標サイトのURLをコピーする

【注意】ホームページではなく、捜索結果のURLをコピーしてください。

下記のチュートリアルをご参照ください。

URLを正しく入力する方法

2.フローチャートモードタスクを新規作成する

ソフトウェアで直接新しいタスクを作成できます。

Step1:タスクを配置する

1.バッチでページ番号を入力するコンポーネントを設定する

URLを入力し、フローチャートモードで新しいタスクを作成した後、ページ番号入力ボックスをクリックし、左上隅に表示された操作ヒントボックスに収集するページ番号を入力します。

【注意】複数のページ番号を入力する必要があるため、操作ヒントボックスの「テキストリストを入力」をクリックしてください。

そして、「単一のテストリスト」を選んでください。

次に、ポップアップに設定する必要のあるページ番号を入力します。ここでは、それぞれ「1」、「2」、「3」と入力します。

「OK」をクリックして、ソフトウェアは自動的にページ番号を入力するループコンポーネントを生成します。

これから、「ページへ」ボタンをクリックし、操作ヒントで「要素をクリックする」を選択して、対応するWebページに移動し、クリックコンポーネントを生成します。

2.リスト要素を抽出する

複数のページ番号を入力するループを設定した後、リストを抽出するのを設定します。Webページのフィールドをクリックして、左上隅の操作ヒントボックスで「リスト要素を抽出する」を選んでください。

ソフトウェアはページングを自動的に識別しますが、今回のタスクではページングを設定する必要がないため、「いいえ、現在のページのみを抽出する」を選択します。

次に、ユーザーは自分のニーズに応じてフィールドを設定できます。

下記のチュートリアルをご参照ください。

抽出されたフィールドを配置する方法

Step3:タスクを設定して起動する

1.タスクを起動する

「起動」をクリックすると、出来た「起動を配置」画面に「スケジュール」、「アンチブロック」、「自動エクスポート」、「ファイルのダウンロード」などの機能を利用できます。今回は必要なくて、直接起動をクリックし、タスクを実行します。

各機能の設定方法について、下記のチュートリアルをご参照ください。

スケジュール機能とは

自動エクスポートを設定する方法

ファイルをダウンロードする方法

【注意】「スケジュール」機能はライトプラン以上で利用できます。「ファイルをダウンロード」機能と「自動エクスポート」機能はプレミアムプラン以上で利用できます。

2.タスクの実行とデータ抽出

タスクが実行されると、自動的にデータの収集が開始されます。プログラムの実行と収集結果をインターフェイスから直感的に確認でき、収集が終了するとリマインダーが表示されます。

Step4:データのエクスポートと表示

ScrapeStormは、Excel、csv、html、txt、データベース、ローカルなどさまざまなエクスポート方法を提供します。また、特定の数のデータをエクスポートもでき、エクスポートしたいのデータをチェックし、エクスポートをクリックして、保存できます。

Pythonデータスクレイピング バッチで URL を生成する 動画の一括ダウンロード データを自動的にExcelに整理する phpスクレイピング ウェブコンテンツのキーワードを抽出 pythonスクレイピング ウェブページをwordにダウンロードする Pythonダウンロードファイル 画像の一括ダウンロード
关闭