Tome Eftimov
1 Departamentul de sisteme informatice, Institutul Jožef Stefan, Jamova cesta 39, 1000 Ljubljana, Slovenia; [email protected] (P.K.); [email protected] (B.K.S.)
2 Jožef Stefan International Postgraduate School, Jamova cesta 39, 1000 Ljubljana, Slovenia
Peter Korošec
1 Departamentul de sisteme informatice, Institutul Jožef Stefan, Jamova cesta 39, 1000 Ljubljana, Slovenia; [email protected] (P.K.); [email protected] (B.K.S.)
3 Facultatea de matematică, științe naturale și tehnologii informaționale, Glagoljaška ulica 8, 6000 Koper, Slovenia
Barbara Koroušić Seljak
1 Departamentul de sisteme informatice, Institutul Jožef Stefan, Jamova cesta 39, 1000 Ljubljana, Slovenia; [email protected] (P.K.); [email protected] (B.K.S.)
Abstract
1. Introducere
În 2011, Autoritatea Europeană pentru Siguranța Alimentară (EFSA) [1] a introdus un sistem cuprinzător de clasificare și descriere a alimentelor pentru evaluarea expunerii, cunoscut sub numele de FoodEx1 [2], menit să acopere necesitatea descrierii alimentelor în colecțiile de date din diferite domenii de siguranță alimentară. După o fază de testare, în 2015, EFSA a introdus o nouă versiune numită FoodEx2 [2], pentru a corespunde nevoilor exprimate de diferiți utilizatori. Sistemul constă dintr-o mulțime de produse alimentare individuale agregate în grupuri alimentare și categorii mai largi de alimente organizate într-o relație ierarhică. În plus, oferă descrieri generice de alimente care reprezintă nivelul minim de detaliu necesar pentru evaluarea aportului sau a expunerii. Descrierea este furnizată folosind fațete, care sunt o colecție de termeni care descriu proprietățile și aspectele alimentelor din diferite perspective.
În acest studiu, introducem un sistem semi-automat, numit StandFood, pentru a standardiza alimentele în conformitate cu FoodEx2. Sistemul este format din trei părți. Primul identifică ce tip de mâncare este analizată (r, d, s sau c). Aceasta este partea de clasificare care implică o abordare de învățare automată (ML) [7,8]. Al doilea descrie alimentele folosind procesarea limbajului natural (NLP) [9,10] combinate cu teoria probabilității, care rezultă cu termenul listei sau codul FoodEx2 pentru aliment. A treia combină rezultatul din prima și a doua parte prin definirea regulilor de post-procesare pentru a îmbunătăți rezultatul pentru partea de clasificare.
2. Materiale și metode
2.1. Date FoodEx2
Din datele disponibile FoodEx2 [2], au fost selectate 5416 cazuri de produse alimentare. Instanțele sunt produse alimentare care au atributul „Statef” cu valoarea r, d, s sau c. Acest atribut indică nivelul categoriei alimentare reprezentat de termenul din lanțul alimentar, de exemplu, un aliment brut, un derivat, un compozit simplu sau un aliment compozit agregat. Acestea au fost selectate pentru că trebuie să stabilim categoriei de alimente care aparține unui produs alimentar înainte de a descrie un produs alimentar. Aceleași instanțe sunt apoi utilizate pentru partea de descriere.
2.2. StandFood
StandFood este un sistem semiautomat pentru clasificarea și descrierea alimentelor conform FoodEx2. Se compune din trei părți. Primul clasifică alimentele în patru categorii (grupe) FoodEx2, două pentru alimentele unice: crude (r), derivate (d) și două pentru alimentele compozite, simple (e) și agregate (c). În acest scop, folosește o abordare ML. A doua parte este utilizată pentru descrierea alimentelor folosind fațetele FoodEx2, utilizând o abordare NLP combinată cu teoria probabilităților. A treia combină rezultatul din prima și a doua parte prin definirea regulilor de post-procesare pentru a îmbunătăți rezultatul pentru partea de clasificare.
O evaluare a sistemului StandFood a fost făcută folosind un set de date din Slovenia de alimente deja clasificate și descrise folosind codurile FoodEx2. În setul de date, fiecare produs alimentar este reprezentat de un nume alimentar și un cod FoodEx2, care este adăugat manual de un expert uman. A fost apoi folosit StandFood, mai întâi pentru a furniza categoria de alimente căreia îi aparține elementul, iar în al doilea rând pentru a-l descrie folosind codul FoodEx2. Acest lucru a fost apoi comparat cu categoria de alimente și codul care a fost adăugat manual.
2.2.1. Partea de clasificare
Partea de clasificare StandFood constă din următorii trei pași:
Preprocesarea instanțelor (denumirile produselor alimentare)
Selecția caracteristicilor (crearea unei matrice pe termen document și adăugarea unor caracteristici mai relevante)