Afiliații Colegiul de Inginerie Fizică și Informatică Electronică, Universitatea Wenzhou, Wenzhou, China, Laboratorul cheie de calcul simbolic și inginerie a cunoașterii din Ministerul Educației, Universitatea Jilin, Changchun, China

indexurilor

Afilieri Colegiul de Informatică și Tehnologie, Universitatea Jilin, Changchun, China, Laboratorul cheie de calcul simbolic și ingineria cunoștințelor din Ministerul Educației, Universitatea Jilin, Changchun, China

Afilieri Colegiul de Informatică și Tehnologie, Universitatea Jilin, Changchun, China, Laboratorul cheie de calcul simbolic și ingineria cunoștințelor din Ministerul Educației, Universitatea Jilin, Changchun, China

Colegiul de afiliere inginerie fizică și informație electronică, Universitatea Wenzhou, Wenzhou, China

Colegiul de afiliere pentru științe farmaceutice, Universitatea de Medicină Wenzhou, Wenzhou, China

Departamentul farmaceutic de afiliere, primul spital afiliat al Universității medicale Wenzhou, Wenzhou, China

Departamentul farmaceutic de afiliere, primul spital afiliat al Universității medicale Wenzhou, Wenzhou, China

  • Huiling Chen,
  • Bo Yang,
  • Dayou Liu,
  • Wenbin Liu,
  • Yanlong Liu,
  • Xiuhua Zhang,
  • Lufeng Hu

Cifre

Abstract

Analiza statistică a fost efectuată utilizând software-ul SPSS 17. IMC, vârsta, sângele și indicii biochimici ai celor două grupuri au fost analizați printr-un test ANOVA unidirecțional pentru a detecta diferențele statistice. Tabelul 2 listează descrieri statistice detaliate. Corelația dintre IMC cu sânge și indicii biochimici au fost analizate folosind un test Spearman. Valorile p care au fost mai mici de 0,05 (nivelul de semnificație de 5%) au fost considerate a indica semnificație statistică în toate analizele.

Metode

1. Scorul Fisher

Scorul Fisher [21] este una dintre cele mai frecvent utilizate și eficiente metode de cântărire a caracteristicilor supravegheate. Determină caracteristicile cele mai discriminatorii în funcție de criteriul pescuitului. Având în vedere setul de date din n instanțe xi, yi>, unde reprezintă că spațiul de caracteristică de intrare are m caracteristici și yi ∈ c> este eticheta de clasă corespunzătoare. Scorul caracteristicii a m-a poate fi măsurat direct după cum urmează: (1) unde, ni reprezintă numărul de instanțe din clasa i, iar μ m reprezintă valoarea medie a clasei i și valoarea medie globală corespunzătoare m- a treia trăsătură, respectiv. și σ m înseamnă varianța clasei i și varianța globală corespunzătoare caracteristicii m-a, respectiv. Conform ecuației (1), valoarea scorului mai mare reprezintă faptul că caracteristica a m-a are o putere discriminativă mai mare între diferitele clase.

2. Mașină de învățare extremă (ELM)

Această secțiune oferă o scurtă descriere a ELM; consultați [12, 22] pentru mai multe informații. Având în vedere un set de date de antrenament cu N eșantioane, xi ∈ R n este vectorul de caracteristică de intrare cu n caracteristici, iar ti ∈ R m reprezintă vectorul țintă cu m dimensiuni. Ieșirea ELM poate fi scrisă după cum urmează [12]: (2) unde g (x) este funcția de activare, k este numărul de neuroni ascunși, βi este vectorul de greutate între neuronul ascuns ith și stratul de ieșire, wi este vectorul de greutate dintre neuronul din stratul ascuns și stratul de intrare și ar indica tendința neuronului din stratul ascuns, oj este vectorul țintă al jth de date de intrare. Dacă ELM poate aproxima aceste N eșantioane cu eroare zero, putem obține. Ecuația de mai sus poate fi reformulată după cum urmează: (3) unde H [23] reprezintă matricea de ieșire a stratului ascuns al rețelei neuronale: (4) β = [β1, ⋯, βk] T este matricea greutăților de ieșire din ascuns strat la stratul de ieșire, iar T = [t1, ⋯, tN] T reprezintă vectorii etichetelor țintă. În ipoteza că [24, 25] greutățile de intrare și părtinirile stratului ascuns ale rețelei neuronale de alimentare cu un singur strat ascuns (SLFN) pot fi date în mod arbitrar, greutățile de ieșire β pot fi determinate analitic de Moor-Penrose (MP) invers generalizat al matricei H, așa cum se arată în următoarea ecuație: (5)

Utilizând metoda inversă MP, performanța generalizării ELM poate fi atinsă cu o viteză de învățare crescută dramatic [22].

3. Metoda propusă

Set de antrenament ← subseturi k-1;

Set de validare ← subset rămas;

Clasificați caracteristicile incremental folosind Scorul Fisher

Antrenează clasificatorul ELM pe fiecare subset de caracteristici fi cu caracteristicile clasate i de top folosind o variație a numărului de neuroni ascunși și a tipului de funcții de activare;

Evaluează modelul ELM instruit pe setul de validare cu setul de caracteristici redus corespunzător;

Returnează ratele medii de precizie a clasificării ELM peste setul de validare;

4. Proiecte experimentale

4.1 Configurare experimentală.

Pentru a verifica abordarea ELM propusă, SVM de ultimă generație și metoda ANN utilizată în mod obișnuit în modelarea supraponderală au fost utilizate pentru comparație. A fost adoptată faimoasa rețea neuronală de propagare a spatelui (BPNN) cu algoritmul de antrenament Levenberg-Marquardt din setul de instrumente pentru rețeaua neuronală MATALAB. Codul de implementare disponibil la http://www3.ntu.edu.sg/home/egbhuang a fost utilizat pentru a construi modelul ELM. Pentru SVM, a fost adoptată setul de instrumente LIBSVM dezvoltat de Chang și Lin [26]. Metoda de selectare a caracteristicilor Fisher Score a fost implementată de la zero în MATALAB.

Datele au fost scalate în intervalul [–1, 1] înainte de clasificare. Experimentul empiric a fost realizat pe un procesor AMD Athlon 64 X2 Dual Core 5000+ (2,6 GHz) cu 4 GB RAM care rulează Windows 7.

4.2 Divizia de date.

CV-ul k-fold [27] a fost utilizat pentru a evalua performanța clasificării pentru a garanta rezultate imparțiale. Valoarea lui k este adesea setată la 10 în literatura de specialitate. Ca rezultat, mostre de date întregi vor fi împărțite aleatoriu în 10 subseturi; de fiecare dată, nouă subseturi sunt utilizate pentru antrenament, iar cel rămas este folosit ca set de testare. Procesul a durat de 10 ori. Rezultatul final a fost calculat prin medierea rezultatului în toate cele 10 probe. Trebuie remarcat faptul că este mai rezonabil să se păstreze aceeași proporție de eșantioane în fiecare dosar ca cea a întregului set de date atunci când se împart datele; prin urmare, strategia CV stratificată k-fold de mai sus este utilizată pentru analiză în următorul experiment.

4.3 Criterii de evaluare.

Pentru a evalua metoda propusă, au fost analizate criteriile de evaluare utilizate în mod obișnuit, cum ar fi acuratețea clasificării (ACC), zona de sub curba caracteristică de funcționare a receptorului (ASC) [28], sensibilitatea și specificitatea. Acestea sunt definite după cum urmează: (6) (7) (8) unde TP, FN, TN și FP reprezintă numărul de adevărați pozitivi, falsi negativi, negativi adevărați și, respectiv, falsi pozitivi. AUC este una dintre cele mai populare metode de evaluare a performanței clasificatorului binar. Un clasificator perfect oferă o ASC de 1. Acest studiu a adoptat algoritmul ASC dezvoltat în [29].

Rezultate

1. Performanța clasificării ELM

Studiile anterioare [14, 30] au arătat că funcțiile de activare și neuronii ascunși au un impact mai mult sau mai puțin asupra performanței ELM. Prin urmare, acești doi factori au fost investigați în următorul experiment. A fost investigată influența diferitelor funcții de activare asupra performanței modelului ELM. Au fost utilizate cinci funcții de activare, inclusiv sig, sin, hardlim, tribas și radbas. Figura 2 afișează precizia de clasificare a ELM cu funcții de activare diferite de funcția numărului diferit de neuroni. ELM cu funcția de activare sig depășește ELM cu alte funcții. Prin urmare, funcția Sigmoid a fost utilizată în analiza experimentală ulterioară.

Pentru a determina numărul optim de neuroni ascunși, s-a înregistrat precizia validării ca funcție a numărului de neuroni ascunși. După cum se arată în Fig 3, performanța ELM este relativ stabilă odată cu creșterea neuronilor ascunși. Prin urmare, este necesar să se determine cel mai potrivit număr de neuroni ascunși pentru ELM. Prin urmare, s-au construit diferite modele cu diferiți neuroni ascunși de 5, 20, 35, 50, 65, 80 și 95. Tabelul 3 prezintă rezultatele medii ale clasificării performanței CV-ului de 10 ori cu un număr diferit de neuroni ascunși. După cum se poate vedea din tabel, clasificarea performanței modelelor ELM a variat în funcție de numărul diferit de neuroni ascunși. 35 de neuroni ascunși au obținut cea mai mare precizie de validare. Prin urmare, 35 de neuroni ascunși au fost aleși pentru a crea modelul de antrenament în următoarea analiză. După determinarea funcției de activare și a numărului de neuroni ascunși, modelul final a fost antrenat pentru predicție. Ponderile de intrare aleatorii și părtinirile stratului ascuns dobândite în acest studiu sunt listate în tabelul Informații S1. Tabelul 4 afișează rezultatele detaliate ale CV-ului de 10 ori al ELM. Din tabel, se poate observa că modelul ELM obține performanțe ridicate cu rezultate medii de 90,32% ACC, 89,98% AUC, 83,95% sensibilitate și 96,02% specificitate.

2. Comparație cu SVM și BPNN

Pentru a verifica eficiența modelului ELM, SVM cu nucleul RBF și BPNN au fost implementate pentru comparație în întregul spațiu de caracteristici din același set de date. Pentru SVM, a fost utilizată o tehnică de căutare în rețea [31] folosind CV de 10 ori pentru a determina valorile optime ale parametrilor funcției nucleului RBF. Gama parametrilor înrudiți C și γ a variat între C = și γ =. Au fost încercate 99 de combinații de parametri (C, γ) (Suprafața de precizie a antrenamentului SVM cu parametrii obținuți prin căutarea în grilă este listată în Informația S1 Fig); cel cu cea mai bună precizie CV a fost ales ca valoare parametru a nucleului RBF. Apoi, cea mai bună pereche de parametri (C, γ) a fost utilizată pentru a crea modelul de antrenament. În ceea ce privește BPNN, a fost utilizată rețeaua BP cu trei straturi și diferite setări ale numărului de noduri din straturile ascunse (5, 10, 15, 20, 25 și 30) și ale diferitelor epoci de învățare (50, 100, 200 și 300) au fost încercate ca criterii de oprire a antrenamentului. Conform rezultatelor preliminare ale simulării, cel mai bun rezultat a fost obținut cu nodurile ascunse de 10 și epoca de învățare de 200. Aceste setări ale parametrilor au fost utilizate pentru analiza ulterioară.

3. Rezultatele clasificării pe baza selecției caracteristicilor

Discuţie

Testele de sânge de rutină includ evaluări ale funcției hepatice, ale funcției renale și ale nivelului de lipide și glucoză din sânge. Aceste date pot identifica starea fiziologică a unui subiect. Subiecții supraponderali au activitate metabolică diferită față de subiecții sănătoși, rezultând diferențe detectabile. Un studiu clinic pe o populație de adolescenți pentru a studia modificările legate de obezitate în parametrii de laborator a confirmat că subiecții obezi au modificări sistematice în parametrii de testare a sângelui [32]. Obezitatea a fost considerată o stare de inflamație cronică sistematică, cu nivel scăzut, care este ereditară și predispune subiectul la multe boli [33]. Detectarea clară a stării supraponderale ar putea avea o semnificație clinică mare.