Top

data-analyzer.net
スモールデータのホームページへようこそ!

small data

回帰分析(第1回)  回帰分析(第2回)  回帰分析(第3回)  回帰分析(第4回)
対応分析(第1回)  対応分析(第2回)
決定木分析(第1回)  決定木分析(第2回)
クラスター分析(第1回)  クラスター分析(第2回)
アソシエーション分析   デシル分析
アソシエーション的な分析
フィジビリティスタディー(FS) 100万円が100万円でなくなる日
生産性あれこれ per capita
TF・IDF 重いことば・軽いことば
重回帰分析(第1回)
重回帰分析(第2回)

KHcoder

Khcoder1.-テキストデータ  KHcoder2.-新規プロジェクト
KHcoder3.-分析対象テキストの前処理  KHcoder4.-語の取捨選択
KHcoder5.-ややこしい語  KHcoder6.-表記揺れの吸収ファイル書き換え
KHcoder7.-表記揺れの吸収(注意)   KHcoder 8.-コーディング
KHcoder 9.-抽出語機能   KHcoder 10.-記述統計
KHcoder 11.-KWICコンコーダンス   KHcoder 12.-関連語検索(第1回)
KHcoder 13.-関連語検索(第2回)   KHcoder 14.-対応分析(第1回)
KHcoder 15.-対応分析(第2回)   KHcoder 16. 対応分析(第3回)
KHcoder 17. 多次元尺度構成法
KHcoder 18. 階層的クラスター分析(抽出語)
KHcoder 19. クラスター分析(文書)
KHcoder20. 共起ネットワーク(第1回)
KHcoder21. 共起ネットワーク(第2回) Rの計算
KHcoder22. 共起ネットワーク(第3回) タブローでネットワーク図

KHcoder コーディング編

Coding(KHcoder) 1 コーディングとは

データで豆知識

スポーツ行進曲のメロディーにのせてプロレスラーの得意技
外国人数 国勢調査と在留外国人統計
毎月勤労統計調査
2019シーズン 我が阪神タイガース優勝の条件
我が阪神タイガース 初勝利
コンビニとカニバリゼーション

非数学的

 パソコン性能の向上、マイニングツールとマイニングテクニックの進歩、インターネット上でのデータ公開の普及が進んだ結果、ビッグデータあるいはマイニングということばが日常的に使われるようになりました。小学生時代から算数・数学が苦手な私ですら分析・マイニングツールを活用すれば「なんか知らんけど」結果を導き出すことができるわけです。

 その流れに乗ってか、かくして私自身もデータ分析・マイニングが生業となりました。小売店や飲食店の売上・顧客データなどを分析してレポートすることを主な業務にしています。

 生業とはいえ分析・マイニングツールが何をどのように計算しているのか?いまだに多くの疑問があります。この疑問についてインプットするデータを変化させてアウトプットの変化を観察する推論方法で「なんか知らん」ことを「なんとか知ろう」と考えました。(数学の学びなおしは、はじめからあきらめました。)

 ところがこのような推論方法でアウトプットの変化を観察しようにも、インプットデータがビッグになるとデータの内容を少々変えたところでアウトプットがまったくと言ってよいほど変化しない!のです。分析対象データがビッグ、分析対象データの期間が長いほど短期間の変動が、売上高が大きいほど特殊な商品の売上変動がビッグなデータに飲み込まれてしまいます。スモールな世界で起こっているダイナミズムがビッグな世界では表現されないという現象です。

 そこで、ビッグだと変化しないのならばスモールなら変化するだろうと考えました。分析・マイニングするまでもなく一見すれば結果がみえるほどのスモールデータをインプットしアウトプットがどのように変化するのかを観察することで分析・マイニングツールが何をしているのかを推論し、さまざまな分析手法が活用できるであろうシーンを、非数学的・・・よくいえば実践的・・・に解説しています。

スモールデータもうひとつの意味

 ビッグデータを分析すると必ず妙なデータが含まれてることがわかります。例えば、国語は100点、算数は20点のテスト。平均という分析手法なら60点だから妙なデータではありません。ところが、国語を横軸、算数を縦軸にした散布図にこのデータをプロットすると妙なデータだということがわかります。

 分析・解析的に、このような妙なデータはエラー値とか外れ値として除外しても構わないとされているようですが、実践的には非常に重要な意味をもつことがあります。

 データ分析結果は経営判断に活用されることが多く、国語は100点、算数は20点のテスト結果から合計平均が60点だからOKとするのか、もっと算数をがんばろうとするのか、経営者がどのような判断を下すのかは自由です。ただ判断する材料として平均60点という分析結果しかないばあい経営者の選択肢は狭まります。

 スモールデータもうひとつの意味は、ビッグのなかにあるスモールな領域、平均、標準偏差、トレンドから距離がある領域のことです。 

このサイトについて

プライバシーポリシーをご覧ください。

・使用している分析ツール
 使用しているマイクロソフトエクセル・パワーポイント、タブロー、画像制作ソフト等の有償ツールについてすべて正規ライセンスを所有しています。R、KHCorder等の無償オープンツールも活用させていただきます。

・掲載している画像
 各分析ツールからアプトプットされたもの、個人PCのスクリーンショットを加工したもの、個人撮影したものを掲載しています。

・データ利用、引用、リンク
 データ利用、引用、リンクは、その元サイトのポリシーに抵触しないように活用させていただきます。また、引用元を明示してあります。
引用元のサイト等を運営されている皆様に感謝申し上げます。
 サンプルデータは自作、または、元データを加工・抽出したものです。スーパーマーケットのデータを多く使用しているのは、ポイントカード等で顧客管理をしている、顧客の来店・リピート頻度が高い、アイテム数が多いからです。各種分析手法を説明するのにはうってつけだからです。