::
こんにちは
私もコミュニティに参加・貢献したくて初返信させていただきます!
(全然見当違いな内容だったら恐縮ですが・・・)
以前、xmlの中身を解析・内容を取り出したくて、xpathという関数を利用したことがあります。
HTMLもXMLの一種として扱えるのであれば、取得できるのではないかな?と思っています。
※この時は気象庁が公開している地震情報を解析したくてテキストを取得していました。
xpath(xml(body(‘HTTP’)),’//*[local-name()=”Report”]/*[local-name()=”Control”]/*[local-name()=”Title”]/text()’
上記の関数で、「震源に関する情報」という文字列を取得しています。
以下は抜き出したいhtmlの一部です
<Report xmlns=”http://xml.kishou.go.jp/jmaxml1/” xmlns:jmx=”http://xml.kishou.go.jp/jmaxml1/”>
<Control>
<Title>震源に関する情報</Title>
<DateTime>2019-08-03T18:07:12Z</DateTime>
<Status>通常</Status>
<EditorialOffice>気象庁本庁</EditorialOffice>
<PublishingOffice>気象庁</PublishingOffice>
</Control>
・・・以下省略・・・