PythonでWebスクレイピングしてみた(1)

やったこと
こまかい話
プログラムの説明

やったこと

Pythonはてなブログにログインした後に、マイページから適当な情報を取得してみた。 Webスクレイピング的な話をすると、はじめの一歩というところでしょうか。

こまかい話

実行環境は、Google Colaboratoryです。
理由として、無料かつ環境設定がそんなにいらないから。
requestsでhtml情報を取得して、BeautifulSoupでスクレイピング(情報の抽出)してます。

やりたいことが二つあるので、まずはログオンありのWebスクレイピングを試しました。
Webサイトに負荷をかけた場合には、お縄になる可能性があるので気をつけましょうね。

プログラムの説明

myページから情報が取れていることを確認できる部分だけ抽出しています。

# 必要なものをimport
import requests
from bs4 import BeautifulSoup

# ログイン情報
# CSSから根気よく探す
pram = {
    'name': 'toto01853',
    'password': 'xxxxxxxx'
}

# ログインページと今回抽出対象のURL
login_url   = 'https://www.hatena.ne.jp/login'
mypage_url  = 'https://www.hatena.ne.jp/my'

# withでセッションを立てて、内部でログインと各ページからの情報を取得
#ログインする必要がなければ、セッションも不要なので、r = s.get(mypage_url)からで問題ない
with requests.Session() as s:
  s.post(login_url, data=pram)
  r = s.get(mypage_url)
  soup = BeautifulSoup(r.content, 'html.parser')
  title = soup.find_all(['div'], class_='hatena-moduletitle')

# 取得した情報をコンソールに表示
print(title)
  • 実行結果 とりあえず、mypageから情報が取れた
[<div class="hatena-moduletitle" style="position:relative;">はてなポイント</div>, <div class="hatena-moduletitle">持っているスター数</div>, <div class="hatena-moduletitle">toto01853さんのはてなプラス利用状況</div>]

0から始める趣味探訪

初めまして

 2020年5月、コロナの影響で家から出られずストレスが溜まってきました。Youtubeの動画を見るのにもソシャゲを周回するのにも時間の限界はあるもので、目の前にPCがあるということで日記をつけることにしました。

日記に書くこと

 日記には、いろんなことを書けていけたらいいなと思います。

  1. 技術的なこと
  2. ソシャゲ
  3. 漫画
  4. おいしい食べ物・お酒
  5. その他

 こういう日記をつけるのは、mixiやモバゲーみたいなモバイルなSNSの黎明期以来になるので新鮮な気分ですね。あ、fasebookもありましたね。5-6年ぶりくらいです。

目標

何か目的がないと「このブログ何のためにつけてるんだっけ?」となりそうなので…

「自分の感じたことを、文字にして【共有したい感の自己満足】を満たす」

ということにしておきますか。初めて書いたイラストを誰かに褒めてもらいたいとかそのあたりの感覚に似た何かだと思います。

 

自己紹介

身バレしてもたぶん問題ないので、ある程度の自己紹介です。

20代 男 東京都在住

仕事はIT関係

趣味は、漫画、ソシャゲ、甘いもの

過去の趣味は、日本酒、焼き肉、星空

漫画は1年で365冊は買っているらしい(kindle計算)です。