階層的クラスタリングとパーティションクラスタリング

クラスタリングは、データを分析し、同様のデータのグループに分割するための機械学習技術です。 これらの類似したデータのグループまたはセットは、クラスターと呼ばれます。 クラスター分析では、クラスターを自動的に識別できるクラスタリングアルゴリズムを調べます。 階層型とパーティション型は、クラスタリングアルゴリズムのこのような2つのクラスです。 階層的なクラスタリングアルゴリズムは、データをクラスターの階層に分割します。 パーティションアルゴリズムは、データセットを相互に素なパーティションに分割します。

階層的クラスタリングとは何ですか?

階層的なクラスタリングアルゴリズムは、小さなクラスターを大きなクラスターにマージするか、大きなクラスターを小さなクラスターに分割するサイクルを繰り返します。 いずれにしても、樹状図と呼ばれるクラスターの階層を生成します。 凝集クラスタリング戦略は、クラスターをより大きなクラスターにマージするボトムアップアプローチを使用し、分裂クラスター戦略は、より小さなクラスターに分割するトップダウンアプローチを使用します。 通常、貪欲なアプローチは、マージ/分割に使用するクラスターのサイズを決定する際に使用されます。 ユークリッド距離、マンハッタン距離、コサイン類似度は、数値データの類似度の最も一般的に使用される指標の一部です。 非数値データの場合、ハミング距離などのメトリックが使用されます。 距離のマトリックスだけで十分であるため、実際の観測(インスタンス)は階層的なクラスタリングには必要ないことに注意することが重要です。 樹形図は、クラスターを視覚的に表現したもので、階層を非常に明確に表示します。 ユーザーは、樹形図が切り取られるレベルに応じて異なるクラスタリングを取得できます。

パーティションクラスタリングとは

パーティションクラスタリングアルゴリズムはさまざまなパーティションを生成し、それらを何らかの基準で評価します。 また、各インスタンスはk個の相互に排他的なクラスターの1つに配置されるため、非階層とも呼ばれます。 クラスターの1セットのみが典型的なパーティションクラスタリングアルゴリズムの出力であるため、ユーザーは希望するクラスター数(通常はkと呼ばれる)を入力する必要があります。 最も一般的に使用されるパーティションクラスタリングアルゴリズムの1つは、k-meansクラスタリングアルゴリズムです。 ユーザーは、開始する前にクラスターの数(k)を指定する必要があり、アルゴリズムは最初にk個のパーティションの中心(または重心)を開始します。 一言で言えば、k-meansクラスタリングアルゴリズムは、現在のセンターに基づいてメンバーを割り当て、現在のメンバーに基づいてセンターを再推定します。 これらの2つのステップは、特定のクラスター内類似性目的関数とクラスター間非類似性目的関数が最適化されるまで繰り返されます。 したがって、センターの賢明な初期化は、パーティションクラスタリングアルゴリズムから品質結果を取得する上で非常に重要な要素です。

階層的クラスタリングとパーティションクラスタリングの違いは何ですか?

階層的およびパーティションクラスタリングには、実行時間、仮定、入力パラメーター、および結果のクラスターに大きな違いがあります。 通常、パーティションクラスタリングは、階層クラスタリングよりも高速です。 階層的クラスタリングには類似性の尺度のみが必要ですが、パーティションクラスタリングにはクラスター数や初期中心などのより強力な仮定が必要です。 階層的クラスタリングでは入力パラメーターは必要ありませんが、パーティションクラスタリングアルゴリズムでは実行を開始するためにクラスターの数が必要です。 階層的クラスタリングは、クラスターのはるかに意味のある主観的な分割を返しますが、パーティションクラスタリングは正確にk個のクラスターをもたらします。 階層的なクラスタリングアルゴリズムは、類似性の尺度を適宜定義できる限り、カテゴリデータに適しています。