技術 プログラムSQLPrestoWindow関数 【トレジャーデータ】PRESTOで累積和を算出する 日別、商品別での価格とその累積和を取得するSQL SELECT target_date , shohin_id , price , SUM(price) OVER (PARTITION BY shoh... 2019-08-23
技術 プログラムSQLPresto 【トレジャーデータ】prestoでgroup by時に対象項目以外を抽出する方法 他のSQLでは利用できないが、PRESTOで使えるナイスなUDFです。 -- shohin_idでgroup byしつつ、group by されたshohin_idの shohin_nameも取得する... 2019-08-05
技術 プログラムSQLPresto 【トレジャーデータ】PRESTOにおけるパフォーマンスチューニングメモ 大量データの処理を行う場合などで処理効率を上げるのに使うコードを書いていきます。 SMART_DIGEST() : 文字列を短いハッシュ値に変えるUDF。数値型ではなく文字列型でのJOINを行う際には... 2019-07-17
技術 プログラムSQLPresto 【トレジャーデータ】PRESTOで差集合を取得する -- 差集合の取得 idを基準にして、 table1に存在して、table2に存在しないレコードを取得 SELECT id FROM table1 EXCEPT SELECT id FROM tabl... 2019-07-17
技術 プログラムSQLPrestoWindow関数 【トレジャーデータ】対象レコードの前後のレコードから値を取得する方法 対象レコードより前のレコード値を取得する(LAG関数) SELECT target_date , item_cd , price, -- 第2引数で遡るステップ数を指定 ここでは2つ前のレコードのpr... 2019-06-12
技術 プログラムSQLPrestoWindow関数 【トレジャーデータ】PRESTOでN日間の移動平均を求める方法 Window関数を使って、直近7日間の平均売上を算出する。 SELECT target_date , item_cd , price , AVG(price) OVER (PARTITION BY i... 2019-06-12
技術 プログラムPrestoトレジャーデータ 【トレジャーデータ 】特定曜日や月初1日のデータのみを抽出する方法 日々集計してテーブルを作っているが、BIツールなどに表示するデータは週1回とか月1回で良い といった場合、以下のようにして、対象データを絞ることができる。 毎週日曜日のデータを取得 CREATE TA... 2019-06-08
技術 プログラムSQLスプレッドシート 【スプレッドシート】Query関数でSQLと同じ抽出や変換が出来る これを使えば、スプレッドシートで色々楽ができる。 特に集計関数を使って、同一項目の存在数をCOUNTするのはよく使う。 ここがおすすめ... 2019-03-29
技術 プログラムpython 【python】Plotlyで綺麗なグラフを描く pythonでデータを綺麗に可視化する対応は以下のブログにて https://qiita.com/takaiyuk/items/e68c493642adfb04310e... 2019-02-27
技術 プログラムpythonPresto [python]トレジャーデータ (presto)にjupyterからアクセスする手順 jupyterでpandas-tdをインストールする !pip install pandas-td 必要なライブラリの読み込み import os import pandas as pd import... 2019-01-16
技術 プログラムpython [python]データの変換による特徴量の作成方法 データの確認 df.head() apply関数 # 1)datetimeから年を取得して、yearという項目を追加する(spilitで-毎に分割して、一番最初) df = df.apply(lamb... 2019-01-06
技術 プログラムpython機械学習 [python]欠損値に関する処理例 分析用に収集したデータに欠損値(null)が入っている場合、そのまま利用すると、正しい分析結果が得られない場合がある。 その為、この欠損値が含まれるデータを除外したり、欠損値を0や対象項目の平均値に変... 2019-01-05