fbpx
HOW TO TD(User Engagement)Treasure Data User Engagement

データサイエンティストのためのHiveQL分析クエリテンプレート その3

ホーム » データサイエンティストのためのHiveQL分析クエリテンプレート その3

この記事は最終更新から3年以上が経過しています。最新情報は担当のカスタマーサクセスにご確認ください。

データサイエンティストのためのHiveQL分析クエリテンプレートシリーズ:

その2に引き続いてB. < m1|Bin(m2), Bin(m3) >に属するパターンを見ていきます。

パターン B-3:< m1 | Bin(m2) >

より一般的なこちらのパターンを見ていきます。

SELECT ceil( #m2/width )*width AS x, SUM(#m1) AS sum
FROM
(
  SELECT #m1, #m2, 1 AS one
  FROM table
  WHERE condition
) t1
JOIN
(
  SELECT POW(10,floor(LOG10(MAX( #m2 )))-1) AS width, 1 AS one
  FROM table
  WHERE condition
) t2
ON t1.one = t2.one
GROUP BY ceil( #m2/width )*width
ORDER BY x

先ほどは中古車の相場価格の頻度分布を見ましたが,今回はそれぞれの区間での平均走行距離を求めています。

価格帯が安いものほど過走行気味ですが,120万円を越える当たりからは平均5万km前後で推移しているようです。

パターン B-4:< m1 | dim1, Bin(m2) >

SELECT ceil( #m2/width )*width AS x, %dim1, AVG(#m1) AS avg
FROM
(
  SELECT #m1, #m2, 1 AS one
  FROM table
  WHERE condition
) t1
JOIN
(
  SELECT POW(10,floor(LOG10(MAX( #m2 )))-1) AS width, 1 AS one
FROM table
  WHERE condition
) t2
ON t1.one = t2.one
GROUP BY ceil( #m2/width )*width, %dim1
ORDER BY x, %dim1

(走行距離×年式別の平均中古車相場価格)セグメント化された走行距離と年式を両軸にしたテーブルを可視化します。各セルには平均中古車相場価格が入ります。

UserEngagement事務局

ユーザーの皆さまへのお知らせや、Treasure Data UserEngagementのサイト運営を担当する事務局アカウント。
Back to top button