Americanii își cheltuiesc aproximativ jumătate din bugetele alimentare pentru a cumpăra aproximativ două treimi din alimentele lor din magazine. SUA. Departamentul Agriculturii (USDA) achiziționează date de proprietate pentru scanerele de uz casnic și de vânzare cu amănuntul pentru a efectua cercetări privind comportamentul consumatorilor, prețurile alimentelor, produsele noi disponibile și pentru a înțelege cât de sănătoase sunt alegerile alimentare pentru consumatori. Aceste date pot fi utilizate pentru a analiza vânzările în cantități sau în cantități achiziționate în dolari, dar nu pot oferi o imagine completă a calității nutriționale. Deși datele conțin informații despre eticheta Fapte nutriționale enumerate pe unele alimente ambalate, nu există informații despre nutrienți sau profilul nutrițional al alimentelor neambalate, cum ar fi produsele. În plus, datele nu permit o analiză mai detaliată, cum ar fi determinarea cantității de legume în pizza congelată sau cantitatea de carne de vită în chiftele.

Serviciul de Cercetări Economice (ERS) al USDA - Serviciul pentru alimentație și nutriție - Centrul pentru politici și promovare nutrițională (FNS-CNPP) și Serviciul de cercetare agricolă (ARS) au creat recent Trecerea pe piață (PPC), care extinde utilizarea datelor comerciale pentru cercetarea alegerilor alimentare americane. Această trecere de pietoni leagă cele peste 359.000 de produse alimentare dintr-o bază de date a companiei comerciale cu câteva mii de alimente dintr-o serie de baze de date nutriționale USDA. Deoarece nu există identificatori comuni între cele două structuri de date, echipa a folosit metode probabilistice și semantice pentru a reduce efortul manual necesar pentru a lega datele.

Lecții pentru alte agenții

Prin conectarea resurselor de date existente, USDA a reușit să îmbogățească și să extindă capacitățile de analiză ale ambelor seturi de date. Alte agenții pot învăța din abordarea USDA de a lega datele pentru a obține noi informații din datele deja disponibile. Lucrând atât cu părțile interesate interne, cât și cu cele externe, USDA a identificat obiective clare ale proiectului, legând criterii și metode de evaluare. Echipa a căutat un contractor cu expertiză în strategii automate de potrivire a datelor. În plus, o echipă independentă de oameni de știință a datelor efectuează un audit al datelor care implică o revizuire a metodelor, precum și discuții cu părțile interesate actuale și potențiale cu privire la utilizările viitoare și la utilizarea datelor.

Problema

Fără aceste date legate, factorii de decizie și cercetătorii au fost limitați în capacitatea lor de a aborda câteva întrebări importante. De exemplu, de peste un deceniu, ERS a achiziționat și analizat date de proprietate despre achizițiile de alimente de uz casnic și vânzările cu amănuntul de alimente de la IRI, o companie de cercetare a pieței, dar aceste date oferă informații limitate despre valoarea nutrițională a achizițiilor. Pentru a înțelege mai bine modul în care alegerile alimentare ale cumpărătorilor se compară cu recomandările din Ghidurile dietetice pentru americani, datele proprii trebuie să fie legate de bazele de date USDA nutriționale. Bazele de date USDA cuantifică cantitățile de nutrienți (dincolo de eticheta Nutrition Facts) și numărul de porții ale principalelor grupuri de alimente conținute în aproximativ 15.000 de produse alimentare. În plus, legarea seturilor de date va permite USDA să estimeze prețurile la alimente pentru următoarea actualizare a coșului de piață pentru Planul Thrifty Food, baza actualizării anuale pentru alocarea maximă pentru beneficiile Programului suplimentar de asistență nutrițională (SNAP).

Provocări pentru conectarea datelor

Orice problemă de potrivire necesită un set de criterii de potrivire pentru a defini ce potriviri sunt acceptabile. Acest proiect a avut două criterii: nutriție și preț. Adică, baza de date de legătură este utilizată atât pentru a integra datele nutriționale în datele scanerului, cât și pentru a furniza estimări ale prețurilor pentru produsele alimentare în planurile alimentare USDA. Acest criteriu de potrivire dublă s-a adăugat la complexitatea problemei de potrivire și a condus la un cod universal al produsului (UPC) mai neegalat decât dacă echipa ar fi ales pur și simplu unul.

Odată alese criteriile de meci, echipa s-a confruntat cu provocări suplimentare din diferențele dintre bazele de date IRI și USDA:

usda

Potrivirea probabilistică și semantică

Echipa a creat baza de date de legătură utilizând o combinație de meciuri automate și manuale, cu revizuire intermediară de către nutriționiști. Rezultatul final a fost 650.592 UPC, potrivite cu 4.390 Baza de date cu alimente și nutrienți pentru studii dietetice (Baza de date cu alimente și nutrienți pentru studii dietetice (FNDDS)) și Baza de date națională cu nutrienți pentru referință standard (SR) cu o rată de eroare de 5% pentru fiecare categorie.

Echipa a folosit potrivirea semantică pentru a identifica posibile potriviri de șiruri de sub-text între datele federale și cele comerciale. Potrivirea semantică caută șiruri de text integral într-o listă pentru cuvinte și fraze din cealaltă listă care sunt identice sau înseamnă lucruri similare.

Atât metodele automate de potrivire semantică, cât și revizuirea umană au dezvoltat tabelul de căutare care a asociat termeni de descriere a alimentelor IRI cu termeni de descriere a alimentelor USDA având același sens. Metodele automate au dezvoltat proiecte de reguli de cartografiere, iar apoi nutriționiștii au revizuit toate regulile și au mărit tabelul de căutare prin identificarea frazelor din descrierile textului IRI care se potrivesc cu descrierile FNDDS.

În potrivirea probabilistică, un program a folosit tabelul de căutare pentru a compara atributele din fiecare descriere a textului UPC și alte informații din datele IRI cu descriptorii de text FNDDS. Similitudinea celor două descrieri alimentare pe o serie de atribute diferite a determinat un scor de similaritate pentru fiecare posibil meci. Potriviri între valorile atributelor (sau sinonime) din tabelul de căutare adăugate la scorul de similaritate total, în timp ce non-potrivirile sunt scăzute din scor. Programul a selectat perechi de produse alimentare IRI-FNDDS cu cel mai mare scor.

Pentru a utiliza puterea potrivirii semantice și probabilistice, datele trebuiau pregătite. Cercetătorii au acordat prioritate codurilor alimentare UPC și USDA care au fost incluse, au creat descrieri complete de text și au împărțit codurile alimentare UPC și USDA în categorii de legături pentru a simplifica procesul de potrivire. Pentru unele categorii de legături, echipa a analizat descrierile textului USDA în coloane mai asemănătoare cu datele IRI. În alte cazuri, a fost mai eficient să combinați câmpurile IRI într-un singur șir de text.

Noi informații: achizițiile de alimente din magazinul americanilor nu sunt atât de sănătoase

Cercetătorii ERS au obținut calitatea nutrițională utilizând Indicele Alimentației Sănătoase (HEI) dezvoltat de Institutul Național al Cancerului și FNS-CNPP. Acest indice rezumă cât de bine se conformează un set de alimente la recomandările din Ghidul dietetic pentru americani. Cel mai mare scor posibil este de 100, indicând conformitatea cu recomandările federale pentru 13 componente dietetice.

Pentru cele nouă componente de adecvare care alcătuiesc o dietă sănătoasă, un scor ridicat indică faptul că americanii achiziționează o cantitate suficientă de alimente din aceste grupuri de alimente. Un scor ridicat dintre cele patru componente pe care nutriționiștii le sfătuiesc să le consume cu moderare indică faptul că americanii țin sub control achizițiile de alimente care conțin aceste componente.

PPC a arătat că vânzările cu amănuntul de alimente în 2013 au înregistrat 55 din 100. Printre componentele de adecvare, scorurile au fost cele mai ridicate pentru proteinele totale, proteinele din fructe de mare și din plante și fructele întregi (85%). Pe de altă parte, scorurile pentru cerealele integrale, legumele și fasolea și componentele lactate au fost fiecare sub 50%. Pentru componentele de moderare (cereale rafinate, sodiu, zaharuri adăugate și grăsimi saturate), scorurile indică în general S.U.A. vânzările de alimente nu sunt bine aliniate cu recomandările cheie din liniile directoare dietetice, în special în ceea ce privește sodiul și zaharurile adăugate.

Prin legarea seturilor de date pentru acest proiect, USDA a oferit o nouă modalitate de a examina achizițiile alimentare americane și modul în care acestea se măsoară, oferind informații suplimentare și dovezi pentru evaluarea alegerilor alimentare și nutriționale.

Postscript

Pentru a primi actualizări cu privire la activitățile legate de Strategia federală de date, vă rugăm să vă înscrieți la newsletter.

Proiectul Federal Incubator pentru Strategia de Date

Proiectul Incubator îi ajută pe practicienii federali de date să se gândească la modul de îmbunătățire a serviciilor guvernamentale, permițând publicului să profite la maximum de datele federale. Acest punct de probă și altele vor evidenția numeroasele succese și provocări cu care se confruntă inovatorii de date în fiecare zi, dezvăluind lecții valoroase învățate de împărtășit cu practicienii de date din întreaga guvernare.