ND4J (software) とは

ND4Jは、Java仮想マシン(JVM)上で動作し、Java、Scala、およびClojure言語と互換性がある、プログラミング言語C ++で書かれた科学計算ライブラリです。 ND4Jは2017年10月にEclipse Foundationに寄稿されました。
ND4Jは、プロダクション環境で線形代数と行列操作を実行するためのもので、Apache HadoopとSparkを統合してCPU(中央演算処理装置)やGPU(グラフィック処理ユニット)を処理するためのものです。 JVMベースの言語用のn次元配列をサポートしています。
ND4Jは、Apache License 2.0でリリースされた無料のオープンソースソフトウェアであり、主にAdam Gibsonが率いるDeeplearning4jを構築したサンフランシスコのグループによって開発されました。これはApache Software Foundationライセンスの下で作成されました。

Stan (software) とは

StanはC ++で書かれた統計的推論の確率的プログラミング言語です。 Stan言語は、確率密度関数を計算する命令的プログラムを用いて(ベイジアン)統計モデルを指定するために使用される。
Stanは、New BSDライセンスの下でライセンスされています。 Stanはモンテカルロ法のパイオニアであるStanislaw Ulamの名にちなんで命名されました。

Twisting properties とは

与えられた分布則を持つ無作為変数Xから観測されるサンプル { x 1 , , x m } {\displaystyle \{x_{1},\ldots ,x_{m}\}} から出発して、パラメトリック推論の問題は、サンプルに基づいてこのパラメータの適切な値(推定値と呼ぶ)を計算することから成ります。未知のパラメータで置き換えても次の計算で大きなダメージは生じません。アルゴリズムの推論では、推定値の適合性は、観測されたサンプルとの互換性の観点から読み取られます。
次に、パラメータの互換性は、パラメータが参照するランダム変数の確率分布から派生する確率尺度です。このようにして、観測されたサンプルと互換性のあるランダムなパラメータΘを同定する。サンプリング機構 M X = ( g θ , Z ) {\displaystyle M_{X}=(g_{\theta },Z)} が与えられた場合、この操作の論理的根拠は、与えられたθのX分布則とXサンプルが与えられたΘ分布則の両方を決定するためにZシード分布則を使用することにある。したがって、サンプル空間の領域をΘサポートのサブセットに関連付けることができれば、後者の分布を直接前者から導き出すことができる。より抽象的に言えば、パラメータの特性を持つサンプルの特性をねじることについて話し、前者をこの交換に適した統計で識別します。未知のパラメータ運用目標は、Xパラメータが正確にθである場合に、S分布則の関数として、統計Sの観測値sに照らして累積分布関数 F Θ ( θ ) {\displaystyle F_{\Theta }(\theta )} の解析式を書くことです。

Semidefinite embedding とは

Semidefinite embedding(SDE)またはMVD(maximum variance unfolding)は、高次元のベクトル入力データの非線形次元削減を行うために半正定値プログラミングを使用するコンピュータサイエンスのアルゴリズムです。 MVUは、主成分分析の非線形一般化と見ることができます。
非線形次元削減アルゴリズムは、高次元データを低次元ユークリッドベクトル空間にマッピングしようと試みる。最大分散アンフォールディングは、多様な学習ファミリーのメンバーであり、アイソマップや局所的な線形埋め込みなどのアルゴリズムも含まれています。マニフォルド学習では、入力データは、より高次元のベクトル空間の内部に埋め込まれた低次元マニホールドからサンプリングされると仮定される。 MVUの背後にある主な直感は、多様体の局所的線形性を利用し、その基礎となる多様体のあらゆる点で局所近傍を保存するマッピングを作成することです。
MVUは、高次元入力ベクトルからいくつかの低次元ユークリッドベクトル空間へのマッピングを以下のステップで作成する。
近傍グラフが作成されます。各入力は、k個の最も近い入力ベクトル(ユークリッド距離メトリックに従う)に接続され、すべてのk最近傍点は互いに接続される。データが十分にサンプリングされた場合、得られるグラフは、基礎となるマニホールドの離散近似である。
近傍グラフは、半正定値プログラミングの助けを借りて展開されます。出力ベクトルを直接学習する代わりに、半正定値プログラミングは、近傍グラフに接続されていない任意の2つの入力間のペアワイズ距離を最大にする内積マトリックスを見つけ、最近接距離を保持することを目指しています。
最後に、学習された内積行列に多次元スケーリングを適用することにより、低次元埋め込みが得られる。
ユークリッド空間への低次元埋め込みを回復するための線形次元削減ステップの後に続く準決定的プログラミングを適用するステップは、Linial、London、およびRabinovichによって最初に提案された。

Joint Approximation Diagonalization of Eigen-matrices とは

ジョイント近似固有ベクトルの対角化(JADE)は、観測された混合信号を潜在的なソース信号に4次モーメントを利用して分離する独立成分分析のためのアルゴリズムです。 4次モーメントは非ガウス性の尺度であり、ソース信号間の独立性を定義するプロキシとして使用されます。この測定の動機は、ガウス分布がゼロ超過尖度を持ち、非ガウス分布がICAの正準仮定であるということです。JADEは観測された混合ベクトルの直交回転を求め、高い尖度の高い値を持つソースベクトルを推定します。

Isomap とは

Isomapは非線形次元削減法です。これは広く使用されているいくつかの低次元埋め込み方法の1つです。 Isomapは、一次元の高次元データ点の準幾何学的、低次元の埋め込みを計算するために使用されます。このアルゴリズムは、マニホールド上の各データポイントの近傍の概算に基づいてデータマニホールドの固有のジオメトリを推定する簡単な方法を提供します。 Isomapは非常に効率的で、広範囲のデータソースと次元に一般的に適用できます。

FastICA とは

FastICAは、ヘルシンキ工科大学のAapoHyvärinenによって考案された独立したコンポーネント分析のための効率的かつ一般的なアルゴリズムです。ほとんどのICAアルゴリズムと同様に、FastICAは回転されたコンポーネントの非ガウス性の尺度を最大化する固定小数点反復スキームによって、プリホワイトニングされたデータの直交回転を求めます。非ガウス性は、非常に強い条件であり、無限のデータを検証することを必要とする統計的独立の代理として機能する。 FastICAはまた、近似ニュートン反復として導出することもできます。

Out-of-bag error とは

アウトオブバッグ(OOB)エラーは、アウトオブバッグ推定とも呼ばれ、ランダムなフォレスト、ブーストされたデシジョンツリー、およびサブサンプルにブートストラップアグリゲーション(バギング)を利用する他の機械学習モデルの予測エラーを測定する方法ですトレーニングに使用されるデータサンプル。 OOBは、ブートストラップサンプルにx haveを持たないツリーのみを使用して、各トレーニングサンプルx onの平均予測誤差である。
サブサンプリングは、次の基本学習者の構築に使用されなかった観測値に対する予測を評価することによって、予測性能向上のアウトオブバッグ推定値を定義することを可能にする。アウト・オブ・バッグの見積もりは、独立した検証データセットの必要性を回避するのに役立ちますが、実際のパフォーマンスの改善と最適な反復回数を過小評価することがよくあります。

Iterated conditional modes とは

統計において、反復された条件付きモードは、マルコフランダムフィールドの結合確率の極大値の構成を得るための決定論的アルゴリズムである。それは、各変数が残りの変数に条件付けられる確率を反復的に最大化することによってこれを行います。