【入門ガイド】基本名詞の説明 | Webクローラ | ScrapeStorm
摘要:本文には、ScrapeStormに表示されるいくつかの基本的な名詞について説明します。 ScrapeStorm無料ダウンロード
ScrapeStormの基本名詞を下記のようにご覧ください。
スクレイピングルール:
スクレイピングルールとは、ScrapeStormが抽出タスクを記録する、またインポート及びエクスポート用の特別なプログラミングスクリプトです。既存のルールをインポートした後、変更せずに、構成されたルールに従ってルールを変更したり、データ抽出を自動的に実行したりできます。
Xpath:
Xpathとは、パスクエリでありパス式を使用してWebページで必要なデータの場所を見つける方法です。
下記の説明はウィキペディアから抽出した、詳しい説明を了解したいなら、ここをクリックしてください。
XPath(XML Path Language)は、マークアップ言語 XML に準拠した文書の特定の部分を指定する言語構文である。XPath自体は簡潔な構文 (式言語) であり、(XML関係にありがちな)XMLベースのマークアップ言語ではない。標準化団体 W3C (World Wide Web Consortium) で開発されました。XPathは、XML文書中から必要な要素群(サブセット)を取り出す、などといった用途に使うものとして、急速に受け入れられていった。なお、もともとはXPathは、XSL (XSLT) と XPointer に共通する構文と振る舞いのモデルを目標としていた。
XSLTでは、XML文書内の処理対象などの指定に、XPathを使用する。一般に、XSLT処理系を実装するには、XPath処理系のライブラリなどを利用してXPathを取り扱う必要がある。
詳細を知りたい場合は、ここをクリックしてW3schoolsのチュートリアルをご覧ください。
HTML:
HTMLとはWebページを記述するために使用される言語で、主にデータの表示と外観を制御するために使用されます。 HTMLドキュメントはWebページとも呼ばれます。
下記の説明はウィキペディアから抽出した、詳しい説明を了解したいなら、ここをクリックしてください。
ハイパーテキストを記述するためのマークアップ言語の1つである。World Wide Web (WWW)において、ウェブページ(1990年代後半頃からはコンテンツという語も利用されている。「中身」という意味の語であり、大層な意味は無い)を表現するために用いられる。ハイパーリンクや画像等のマルチメディアを埋め込むハイパーテキストとしての機能、見出しや段落といったドキュメントの抽象構造、フォントや文字色の指定などの見た目の指定、などといった機能がある。
詳細を知りたい場合は、ここをクリックしてW3schoolsのチュートリアルをご覧ください。
URL:
URLとは、Webサイトのアドレスと言うことです。
下記の説明はウィキペディアから抽出した、詳しい説明を了解したいなら、ここをクリックしてください。
URLまたは統一資源位置指定子(とういつしげんいちしていし)とは、インターネット上のリソース(資源)を特定するための形式的な記号の並び。WWWをはじめとするインターネットアプリケーションにおいて提供されるリソースを、主にその所在を表記することで特定する。なお、ここでいう、「リソース」とは、(主にインターネット上の)データやサービスを指し、例えばウェブページの保存場所や電子メールの宛先といったものがそうである。
Cookie(クッキー):
Cookieは、サーバーがコンピューターを識別できるように一時的に保存するデータ(ユーザー名、パスワードなどのWebサイトに入力したテキスト、その他の操作記録など)です。
下記の説明はウィキペディアから抽出した、詳しい説明を了解したいなら、ここをクリックしてください。
HTTP cookie(エイチティーティーピークッキー、単にクッキーとも表記される)は、マジッククッキーの一種であり、RFC 6265などで定義されたHTTPにおけるウェブサーバとウェブブラウザ間で状態を管理する通信プロトコル、またそこで用いられるウェブブラウザに保存された情報のことを指す。ユーザ識別やセッション管理を実現する目的などに利用される。
Regular expression(正規表現):
これは、データをフィルタリングするためのルールであり、収集中にデータ抽出および置換するために使用されます。
下記の説明はウィキペディアから抽出した、詳しい説明を了解したいなら、ここをクリックしてください。
正規表現(せいきひょうげん、英: regular expression)とは、文字列の集合を一つの文字列で表現する方法の一つである。正則表現(せいそくひょうげん)とも呼ばれ、形式言語理論の分野では比較的こちらの訳語の方が使われる。まれに正規式と呼ばれることもある。
もともと正規表現は形式言語理論において正規言語を表すための手段として導入された。形式言語理論では、形式言語が正規言語であることと正規表現によって表せることは同値である。
その後正規表現はテキストエディタ、ワードプロセッサなどのアプリケーションで(ないし、そもそもそれ以前に単機能の文字列探索ツールの)、マッチさせるべき対象を表すために使用されるようになり、表せるパターンの種類を増やすために本来の正規表現にはないさまざまな記法が新たに付け加えられた。このような拡張された正規表現には正規言語ではない文字列も表せるものも多く、ゆえに正規表現という名前は実態に即していない面もあるが、伝統的に正規表現と呼ばれ続けている。