<ゆるゆる あどべんとかれんだー2021「~toAWS」>2日目|csv(excel) to AWS
なんとか書く気力がわいたので2日目いってみよー。
目次
csv to AWSってなにするの。
s3にcsvほうりこんでathena(あてな)でクエリでも叩いてみませう。てな具合でs。
s3については1日目に軽く説明したよ
括弧excel的な奴はようするに、RDBMSもつかわずCSVでなりEXCELなり管理しているとしていて、
さらっとAWSにあげてみっか。というはなし。
ただクエリとか出てくるので使用感は違うかなーという気がします。
quickSiteとかその辺と組み合わせないとExcelの使用感は出ないと思う。
でかるーく検索したらコーユーのがヒットするんですよね。
aws.amazon.com
が、これはやらない。やってもよかったけどやろうとおもったこととはちがってるからだね。
検索の順番とかやることが固まってなかったらしたかもしれない。3日目に回す可能性もあるかな。
csv(excel) TO AWS
もとになるCSVを取ってくる。
こーゆー時はいつも厚労省が公開してるCSVをなぜか参照してるんだ。
きょうもここからオープンデータ|厚生労働省
○新規陽性者数の推移(日別)のCSVをもってきてつかうよ。
中身はこんなので。日別データっす。
gyazo.com
s3にぶちこむ。
ぶち込むだけ。今回は1日目みたいにアクセス制限は気にしなくていい。
※全部AWSコンソールでやるので、ログインしているユーザーにアクセス権限(ポリシー)が付与されていればよいのだ
AWS Glueで正規化(正規化であってるよね???)
生のCSVはそのままクエリを発行するには不都合がゴリゴリあります。
ということでGlueで正規化してCSVをデータベースとして取り扱えるようにします。
クローラをセットアップしてS3を巡回(今回はオンデマンド設定で1回だけしかうごかさないですが)
させて、テーブル情報を検索させます。
gyazo.com
gyazo.com
gyazo.com
さっきつくったS3をえらぶ
gyazo.com
ロールはもともとあればそれを使えばいいし、なければ↑のように。
gyazo.com
こんなかんじかな
できたら実行します。1分ぐらいかかってますが。
gyazo.com
gyazo.com
それなりにできてるきがする。
Athenaでクエリを発行する。
おらぁ!!!
gyazo.com
おわり
なんじゃこれかん。たぶんこの状態だとオンプレでCSVをEXCELでよませるなり、
適当にスプレッドシートにでも物故んだほうが使いやすい。
athenaにJDBC経由でアクセスしたり、gateway開けるとか。なんかその辺しないと「うーん」ってなる。
なってる。
ちょっとパワーがたりねぇなぁ。ちょっとじゃねぇかもしれんけど。
ETLとかつかって String -> Dateとかもやりたかったけどちょっとよくわからんかったからやってない。
※よく見ると日付のはずの列が文字列になっているのだ。CSVだと日付のフォーマットが正規化されてないから文字として扱われちゃっている。
わかんないこと多いね。