ダウンロードと新規登録
無料で$5のクーポンをゲット
入門ガイド 特徴紹介

【スマートモード】【フローチャートモード】詳細ページのリンクを収集する方法 | Webクローラ | ScrapeStorm

2023-04-20 09:28:39
1387 ビュー

摘要:この記事では、主に詳細ページのリンクを収集する方法についてを説明します。 ScrapeStorm無料ダウンロード

データ収集の時、よく詳細ページのリンクを必要です。本文では、ScrapeStormのスマートモードを利用して、三つの詳細ページのリンクを取得する方法を紹介します。フローチャートモードの方法も同じです。

方法一:自動識別で獲得

ScrapeStormのスマートモードはリストを自動的に識別します。通常、Webサイトがリストを認識すると、詳細ページのリンクも識別されます。

【注意】自動識別が不正確な場合は、リストの識別を手動で実行することもできます。

リストを識別のチュートリアルをご参照ください。

リストページのスクレイピング方法

方法二:詳細ページに行くで獲得

リストを識別する時に、詳細ページのリンクを識別できない場合があります。このとき、「詳細ページに行く」機能を使用して詳細ページに入り、リンクを収集することができます。

1.リストを識別した後、「フィールドを追加」機能を使用して、詳細ページへのリンクを含むデータを選択します。ソフトウェアが自動的にフィールドを生成します。

【注意】リンク付きのデータは、通常、記事のタイトルや商品名などです。ソフトウェアで確認できない場合は、ブラウザで確認できます。

2.生成されたフィールドを右クリックし、「抽出タイプ」を設定して、「URLリンク」を選択します。

3.「詳細ページに行く」をクリックし、詳細ページに入ります。

詳細ページのチュートリアルをご参照ください。

詳細ページのスクレイピング方法

4.詳細ページに入ったら、フィールドを任意に追加し、生成されたフィールドを右クリックして「特殊フィールド」を設定し、「ページのURL」選択します。これで、詳細ページのリンクが表示されます。

方法三:詳細ページのリンクを綴る

上記の方法のいずれも詳細ページのリンクを正常に収集できないが、xpathまたは正規表現を使用して詳細ページのIDまたはタイトル名等を抽出できる場合は、「データを修正する」機能によって詳細ページのリンクを綴ることができます。

【注意】XPathまたは正規表現がわからない場合は、カスタマーサービスにお問い合わせください。お問い合わせ:https://jp.scrapestorm.com/?type=contact

フィールドを右クリックし、「データを修正する」を設定して、図に示すように新しい「プレフィックスを追加」を作成します。

これにより、詳細ページのリンクを獲得します。

Pythonダウンロードファイル ウェブコンテンツのキーワードを抽出 動画の一括ダウンロード データを自動的にExcelに整理する レギュラーマッチメール phpスクレイピング ウェブページをwordにダウンロードする バッチで URL を生成する pythonスクレイピング Pythonデータスクレイピング
关闭