Techioz Blog

Web サイトからデータを抽出する

概要

Webサイトから物件データを抽出したいのですが、

いくつかのウェブサイトからデータを取得するために Mechanize を使用しましたが、 このウェブサイトで機械化を試してみましたが、最初のページの結果がすべて繰り返されました。

ただし、この Web サイトでは、すべての結果呼び出しは ajax 呼び出しに基づいています。

このタイプの Web サイトからデータを取得するにはどうすればよいですか。Web サイトでは Ajax が使用されており、一部の Ajax ではそれ自体が暗号化されていると呼び出されます。

前もって感謝します

解決策

ページの最初の読み込み中に、Mechanize を使用した Ajax リクエストや通常の HTTP リクエストの結果を取得することはできません。後続のリクエストは、そのページのパラメータに基づいて、ページのロード後にブラウザが使用するのと同じ適切な値を使用して、Ajax ホストに対して行う必要があります。

これには、Watir などを使用してスクリプトを作成し、Ajax リクエストで受信したデータを取得するか、埋め込まれた JavaScript を分析して Ajax リクエストで使用されているパラメータを特定し、別の Mechanize または HTTP でシステムを偽装する必要があります。リクエスト。