調べ物した結果

現役SEが仕事と直接関係ないことを調べた結果とか感想とか

<ゆるゆる あどべんとかれんだー2021「~toAWS」>2日目|csv(excel) to AWS 

なんとか書く気力がわいたので2日目いってみよー。

目次

csv to AWSってなにするの。

s3にcsvほうりこんでathena(あてな)でクエリでも叩いてみませう。てな具合でs。
s3については1日目に軽く説明したよ
括弧excel的な奴はようするに、RDBMSもつかわずCSVでなりEXCELなり管理しているとしていて、
さらっとAWSにあげてみっか。というはなし。
ただクエリとか出てくるので使用感は違うかなーという気がします。
quickSiteとかその辺と組み合わせないとExcelの使用感は出ないと思う。

でかるーく検索したらコーユーのがヒットするんですよね。
aws.amazon.com

が、これはやらない。やってもよかったけどやろうとおもったこととはちがってるからだね。
検索の順番とかやることが固まってなかったらしたかもしれない。3日目に回す可能性もあるかな。

csv(excel) TO AWS

もとになるCSVを取ってくる。

こーゆー時はいつも厚労省が公開してるCSVをなぜか参照してるんだ。
きょうもここからオープンデータ|厚生労働省
○新規陽性者数の推移(日別)のCSVをもってきてつかうよ。

中身はこんなので。日別データっす。
gyazo.com

s3にぶちこむ。

ぶち込むだけ。今回は1日目みたいにアクセス制限は気にしなくていい。
※全部AWSコンソールでやるので、ログインしているユーザーにアクセス権限(ポリシー)が付与されていればよいのだ

gyazo.com

AWS Glueで正規化(正規化であってるよね???)

生のCSVはそのままクエリを発行するには不都合がゴリゴリあります。
ということでGlueで正規化してCSVをデータベースとして取り扱えるようにします。

クローラをセットアップしてS3を巡回(今回はオンデマンド設定で1回だけしかうごかさないですが)
させて、テーブル情報を検索させます。
gyazo.com
gyazo.com
gyazo.com
さっきつくったS3をえらぶ
gyazo.com
ロールはもともとあればそれを使えばいいし、なければ↑のように。
gyazo.com
こんなかんじかな

できたら実行します。1分ぐらいかかってますが。
gyazo.com
gyazo.com

それなりにできてるきがする。

Athenaでクエリを発行する。

おらぁ!!!
gyazo.com

おわり

なんじゃこれかん。たぶんこの状態だとオンプレでCSVEXCELでよませるなり、
適当にスプレッドシートにでも物故んだほうが使いやすい。
athenaにJDBC経由でアクセスしたり、gateway開けるとか。なんかその辺しないと「うーん」ってなる。
なってる。
ちょっとパワーがたりねぇなぁ。ちょっとじゃねぇかもしれんけど。
ETLとかつかって String -> Dateとかもやりたかったけどちょっとよくわからんかったからやってない。
※よく見ると日付のはずの列が文字列になっているのだ。CSVだと日付のフォーマットが正規化されてないから文字として扱われちゃっている。
わかんないこと多いね。