::
こんにちは。初心者の中位(?)、非IT部門、文系です。PQで例えばヒストリカルデータを構築する際に、大昔のデータをCSVでDLして保存しておき、同じWEBサイトの最新データをWEBクロールで入手してそれぞれをマージさせて日々使っています。ある日気付いたのですが、WEBクロールで都度アップデートしていくとエクセルやCSVなどの固定データとのマージのつなぎ目でズレ(空白期間)が生じてしまいます。これを解決するにはどうすれば良いでしょうか?
以下に具体的に書いてみました(説明下手ですみません)
あるWEBサイトで毎日当日から45日間分が見れるようになっているとする。
例えば本日が12/15であれば11/01から12/15までの45日分がWEBクロールで取得可能。翌日12/16になれば11/02から12/16までの45日間がWEBクロールで取得可能となる。
一方、その前のヒストリカルデータとして同じWEBサイトから過去データをCSVでDLしてPCに保存して、最新WEBデータとマージさせて日々分析に使っている(例えば2018/11/01-2021/10/30のCSVを持っている)。
ここで問題になるのは、11/01-10/30 + 11/01-12/15 で隙間が無いのに、翌日になるとWEBの方のデータが11/02-12/16となることで11/1のデータが無しとなってしまうことです。
皆さまのお知恵を拝借したく。宜しくお願いします。
*またPQで更新をかけるときに、いちいち所定のCSVやエクセルにつなぎにいく事が無駄と考えております(特にヒストリカルデータなど過去データを触らないもの)。その場合、CSVの内容を直接PQに書き込む(?)ようなことは出来ないのでしょうか?イメージはData用のクエリを詳細エディタで作るようなイメージです。