Linjär diskriminantanalys i Python

Det finns tre olika sorters vin.

wine.target_names

Vi skapar ett DataFrame som innehåller både funktioner och klasser.

df = X.join(pd.Series(y, name='class'))

Linjär diskriminantanalys kan delas upp i följande steg:

Beräkna spridningsmatriserna inom klassen och mellan klasserna
Beräkna egenvektorer och motsvarande egenvärden för spridningsmatriserna
Sortera egenvärdena och välj de bästa k
Skapa en ny matris som innehåller egenvektorer som mappar till de k egenvärdena
Få fram de nya egenskaperna (i.LDA-komponenter) genom att ta punktprodukten av data och matrisen från steg 4

Spridningsmatris inom klassen

Vi beräknar spridningsmatrisen inom klassen med hjälp av följande formel.

där x är ett stickprov (i.dvs. rad) och n är det totala antalet prov med en viss klass.

För varje klass skapar vi en vektor med medelvärdena för varje egenskap.

Nästan ska vi ta en titt på hur LDA kan jämföras med Principal Component Analysis eller PCA. Vi börjar med att skapa och anpassa en instans av klassen PCA.

from sklearn.decomposition import PCApca = PCA(n_components=2)X_pca = pca.fit_transform(X, y)

Vi kan komma åt egenskapen explained_variance_ratio_ för att se hur stor andel av variansen som förklaras av varje komponent.

pca.explained_variance_ratio_

Som vi kan se valde PCA de komponenter som skulle resultera i den största spridningen (behålla mest information) och inte nödvändigtvis de som maximerar separationen mellan klasserna.

plt.xlabel('PC1')
plt.ylabel('PC2')plt.scatter(
X_pca,
X_pca,
c=y,
cmap='rainbow',
alpha=0.7,
edgecolors='b'
)

Nästan ska vi se om vi kan skapa en modell för att klassificera med hjälp av LDA-komponenterna som funktioner. Först delar vi upp data i tränings- och testuppsättningar.

X_train, X_test, y_train, y_test = train_test_split(X_lda, y, random_state=1)

Därefter bygger vi upp och tränar ett beslutsträd. Efter att ha förutspått kategorin för varje prov i testuppsättningen skapar vi en förvirringsmatris för att utvärdera modellens prestanda.

dt = DecisionTreeClassifier()dt.fit(X_train, y_train)y_pred = dt.predict(X_test)confusion_matrix(y_test, y_pred)

Som vi kan se klassificerar beslutsträdsklassificatorn korrekt allt i testuppsättningen.

Linjär diskriminantanalys i Python

Spridningsmatris inom klassen

Spridningsmatris mellan klasser

Lämna ett svar Avbryt svar