Pentru a crea un motor de recomandare, serviciul de livrare de alimente online a petrecut opt ​​ani rezolvând o problemă clasică a datelor nestructurate.

Tot ce a vrut să știe Matt Maloney a fost dacă pizza cu mâncare adâncă în stil Chicago este mai bună decât coaja subțire în stil New York. Este o întrebare simplă.

mâncare

Dacă ar fi altcineva, Maloney ar fi trebuit să devină violent anecdotic. Mâncarea profundă, deși este delicioasă, nu este, evident, atât o pizza, cât o cratiță; dimpotrivă, dacă doriți să puneți toppinguri de pizza pe un cracker, de ce nu comandați doar o pâine plată? (Maloney este din Chicago, așa că poți ghici pe ce parte vine.)

Dar nu. Maloney a simțit că ar trebui să poată răspunde literalmente la întrebare. Pentru că, pe lângă faptul că este profund vesel, este și CEO al Grubhub, cel mai mare serviciu de livrare de alimente online din SUA. „Având în vedere volumul tranzacțiilor pe care le fac zilnic”, spune Maloney, „ar trebui să vă pot spune, obiectiv, ce este mai bine”.

Nu ne lăsa să ne certăm dacă „popular” este „mai bun”. Pentru că, în linii mari, Maloney are desigur dreptate. Cu 14,5 milioane de utilizatori activi care comandă de la 80.000 de restaurante, datele Grubhub ar trebui să vă poată spune multe despre mâncare. Maloney a dorit să fie capabil să segmenteze, să cuantifice și să compare cine comandă ce în cartiere și orașe. El a vrut să recomande algoritmic mâncăruri, să ajute restaurantele să-și optimizeze alegerile culinare, să atragă clienți noi cu servicii mai slabe și să-i convingă pe toți clienții din toată țara să se comporte mai mult ca newyorkezii, care comandă de undeva cel puțin o dată pe săptămână.

Astăzi, într-adevăr, Grubhub are un algoritm care poate analiza valorile dintr-o țară în ceea ce privește comenzile de preluat și îi poate spune utilizatorului ce articulație indiană din apropiere oferă cea mai populară tikka masala de pui. Dar pentru a ajunge acolo a fost necesară rezolvarea unei probleme de date aparent imposibile, unele învățări automate de ultimă generație și un autor de cărți de bucate din Brooklyn.

Comparând Pad Thai

Problema a fost datele. Nu ordinele - cine-comandă-ce și de-unde. Acestea sunt ușoare. Erau meniurile. Mâncărurile nimănui nu se potriveau, fiecare era unic. Un pilaf dintr-un restaurant ar putea fi biryani la altul. Curry-urile japoneze nu erau curry-urile indiene, nu erau curry-urile pakistaneze. Au lucrat la asta timp de opt ani. „De fiecare dată, grupurile de produse și tehnologii s-au întors și au spus:„ Matt, este prea greu. În cele din urmă, pentru a obține ceea ce doriți, va fi o soluție manuală și avem alte 10 lucruri care sunt prioritare ", spune Maloney.

Răspunsul său: „Băieți. Suntem o companie de miliarde de dolari și nu putem spune oamenilor care este valoarea intrinsecă a acestor nenorocite de mâncăruri? Nici măcar nu putem compara pad thai în toată țara? ”

„Așa că i-am făcut să o facă”, spune Maloney.

Grubhub este doar o companie de miliarde de dolari în ceea ce privește volumul de alimente pe care îl mută, nu în veniturile sale, dar chiar și așa: ceea ce își dorea Maloney este o problemă dificilă. Acest lucru se datorează naturii nestructurate, sui generis, a meniurilor restaurantelor. Dacă nu aveți o metodologie concepută pentru a produce date gata făcute pentru analize statistice, utilizați date „găsite”, care sunt întotdeauna dezordonate, spune Duncan Watts, un om de știință social la Microsoft Research. „În știința datelor există un trop despre cum 90% din munca implicată curăță și organizează datele în sine”, spune Watts. "Este adevărat pentru datele de e-mail, datele browserului, datele Twitter, datele mass-media de știri și chiar datele administrative care ar trebui să fie curate."

Ca de obicei, întregul sistem ar fi mult mai simplu fără oameni în el. Dacă încercați să construiți un motor de recomandare pentru, să zicem, un vast serviciu de divertisment prin streaming, ei bine, majoritatea oamenilor nu urmăresc același film mereu. Deci, veți avea o răspândire asupra comportamentului lor. Acest lucru ar putea fi mai puțin adevărat atunci când vine vorba de comenzi pentru cină. „Am citit câteva lucrări care spun că există tipuri de exploratori și există tipuri care spun:„ Acesta este restaurantul meu preferat, așa că de ce ar trebui să merg oriunde altundeva? ”, Spune Joel Sokol, directorul Master of Science în Analytics diplomă la Georgia Tech. Așadar, s-ar putea să nu dorească o nouă recomandare, oricât de perfectă ar fi. „Este într-adevăr mai mult o problemă de afaceri decât o problemă de date”, spune Sokol.

Majoritatea produselor din comerțul electronic au metadate convenite, așa-numitele unități de stocare (sau SKU-uri), care țin evidența numerică a inventarului. Ca urmare, „cumpărarea, navigarea, descoperirea, personalizarea și recomandarea sunt relativ ușoare, deoarece totul arată la fel pentru toată lumea”, spune Maria Belousova, CTO-ul Grubhub. „Când ajunge la mâncare, este complet opusul. Grubhub și orice altă companie tranzacționau paragrafe de text cu un titlu și o etichetă de preț. ”

Un bucătar care a folosit o ortografie regională, non-standard pe numele unui fel de mâncare a făcut ca meniul să fie incompatibil cu alții care au folosit o ortografie standard. Lăsați un ingredient și dintr-o dată este un fel de mâncare diferit. Belousova spune că modalitatea de a concilia astfel de diferențe este adesea prin „filtrare colaborativă, ceea ce înseamnă că și persoanelor cărora le place asta le place”. Dar ea spune că pentru întreprinderile hiperlocale, cum ar fi restaurantele din cartier, filtrarea colaborativă nu funcționează bine. Nu există suficienți oameni pentru a colabora și nu există suficiente opțiuni pentru a filtra. Universul alegerilor și al alegătorilor este prea mic.

În limbajul oamenilor de știință de date, mâncarea este un domeniu nestructurat. Grubhub avea 14 milioane de articole din meniu și singurul lucru pe care îl aveau în comun era că uneori oamenii le mâncau. Așadar, echipa Belousova și-a propus să-și construiască propria taxonomie a alimentelor.

Și-au dat seama că aveau trei seturi de date independente, dar suprapuse. Mai întâi au avut meniurile, pline de limbajul unic de fulgi de zăpadă folosit de fiecare restaurant pentru fiecare fel de mâncare, dar cu unele elemente comune. Din fericire, din moment ce restaurantele își oferă meniurile către Grubhub și Grubhub le traduce pentru site-ul web, persoanele care produc mâncarea sunt stimulate să ofere o mulțime de informații.

În al doilea rând, Grubhub a avut jurnale și recenzii de căutare a utilizatorilor. Aceștia ar putea arăta ce căutau oamenii și ce au comandat în cele din urmă. Și compania ar putea limita producția acestor date la clienți reali, cunoscuți, deoarece serviciul acordă drepturi de revizuire numai celor care au comandat de fapt mâncare. Acest lucru funcționează numai pe o platformă în care oamenii vorbesc despre lucruri pe care le-au cumpărat; undeva cum ar fi, oh, să zicem, Yelp ajunge să fie mai degrabă gratuit și poate fi mai puțin util.

Și, în al treilea rând, au avut istoricul comenzilor pentru clienți și, poate mai important, volumul comenzilor pentru fiecare element de meniu. În această construcție, mai multe comenzi pe articol vă spun că articolul specific este de înaltă calitate - sau cel puțin este popular, ceea ce, da, nu este neapărat același lucru. Dar unul ar putea fi un proxy pentru celălalt.

Echipa tehnologică a construit un algoritm care ar putea ingera toate acele date și ar putea începe să înțeleagă ce spuneau meniurile. Aproape. Pentru că atunci trebuiau să definească ce este „este”. Ceea ce înseamnă, de fapt, ce sunt covrigi, de fapt? Ce se întâmplă dacă meniul nu numește produsul de pâine rotunjit cu o gaură, aluat la cuptor, servit cu cremă de brânză și lox un bagel? Este încă un covrig, corect?

Aceasta este o problemă de nomenclatură, iar algoritmul trebuia să învețe nu numai ce este un aliment de bază, de la adobo la zaataar, ci și caracteristicile sale - metadate culinare cum ar fi picant versus ușor sau vegetarian sau din ce cultură provine. Echipa de date Grubhub a învățat să extragă termeni semnificativi din meniuri și să suprapună cu termeni de căutare și dacă au terminat sau nu cu comenzi. „Am imaginat un grafic de vase în nor, conectat unul cu celălalt”, spune Belousova. „Aveți nevoie de bucătari, de vocabularul meselor și de vocabularul de comandă. Suprapuneți aceste trei seturi de date împreună și veți obține acele relații. ” A fost o buclă de feedback suficient de inovatoare încât au depus un brevet.

Dar, da, deci, nu a funcționat.

Autorul cărții de bucate transformă Cook-ul de date

Nu este total corect. „Puteți acoperi poate 35-40% din fiecare meniu dacă aveți un algoritm bun”, spune Maloney. „Dar toate cazurile din colț erau unice”.

Grubhub a căutat ajutor. A apărut sub forma lui Melissa Schreiber, absolventă a școlii culinare și autor a două cărți despre mâncarea din Brooklyn. „Am intrat și mi-au dat clasificările tuturor elementelor de meniu de pe platforma noastră și nu au fost organizate în categorii utilizabile pentru căutare”, spune Schreiber. „Practic am reglat ceea ce arătaseră datele.”

Schreiber a creat un dicționar de bucătărie pentru echipa de date care a descompus ingredientele din multe feluri de mâncare, un document intern care a inclus nume de bucătării, istorie, uneori hărți pentru a arăta relațiile geografice. Ea a construit punți pentru a explica oamenilor de știință de date feluri de mâncare care nu aveau nume evidente. „Taxonomia era în mod evident bazată pe date și avea nevoie de acea atingere umană, de finețea cuiva care înțelegea mâncarea mai mult decât datele”, spune Schreiber.

Ea a ajutat echipa să mapeze felurile de mâncare la bucătării, trasând linii precum cea dintre orezul curry japonez și curry indian, să zicem, sau cum să separe tacosul de burritos. „Ai Sushiritto în San Francisco?” Mă întreabă Schreiber. „Au fost săptămâni de conversație. Este sushi? Este un burrito? De fiecare dată când cineva mergea, îi făcea o poză și mi-o posta. ”

Toate acestea s-au alimentat pentru a face căutarea mai rațională. Dacă sunteți în căutarea peștilor, doriți talpa Dover sau chirashi? Când comandați chineză, poate vă gândiți mai întâi la proteine, în timp ce la mexican poate vă gândiți, tort sau combinație? Echipa de date a preluat modificările Schreiber și le-a încorporat în algoritmii de căutare și recomandare.

Găsirea celui mai bun Banh Mi.

Rezultatul? O taxonomie de aproximativ 4.000 de feluri de mâncare, cu fiecare element din baza de date a meniului clasificat în mai multe categorii și subcategorii. Nu este la fel de sofisticat ca ceea ce ar putea pofti un om de știință al datelor, dar intră în idei la fel de disparate ca aperitivele față de alimentație și sănătoase față de pizza.

„Sistemul nostru este un vector de preferință”, spune Belousova, oarecum criptic. „Acum că înțelegi ce este fiecare element de meniu și ce îi place fiecărui restaurant, poți lega lucrurile împreună”.

Comandați mult de la Grubhub, iar sistemul vă va crea un profil de gust și vă va sugera apoi restaurante din apropierea dvs. care se potrivesc profilului, prin e-mail sau o notificare. Comandați un fel de mâncare dintr-o grămadă de locuri, iar sistemul vă va spune unde mulți oameni comandă acel fel de mâncare. „Dacă știu că există un sandviș specific banh mi comandat de 30 de ori de 1.000 de persoane care locuiesc la mai puțin de o milă de tine, acesta este un bun indicator al unui sandwich uimitor”, spune Maloney. „Dacă știu că ați avut șase vindaloos de pui diferiți de la șase restaurante fără re-comenzi, știu că căutați și știu din datele altor persoane care este cel mai popular vindaloo de pui. Mai bine crezi că îți pun acest punct de vedere în centrul tău. ”

Pentru a fi corect, o mulțime de companii de livrare de alimente online lucrează cu datele lor și au un fel de algoritm de recomandare predictivă. Și este întotdeauna o provocare. „Unele locuri sunt doar un restaurant cu pizza. Tot ce servesc este pizza, iar tu nu primești o subcategorie de „marinara” sau „margherita” ”, spune Enu Herzberg, șef de date la Postmates. „Și în unele locuri - imaginați-vă Fabrica de Cheesecake, cu o subclasă din fiecare mâncare de pe Pământ.” Deci Postmates se bazează pe filtrarea colaborativă. Practic, probabil că îți vor plăcea lucrurile care le plac altor oameni, dacă le plac și unele dintre lucrurile care îți plac.

Postmates ingerează și meniuri, structurând anumite date în sine, apoi folosind procesarea limbajului natural și alte tehnici pentru a face distincții care le plac oamenilor de știință de date, cum ar fi între o „categorie” și un „articol”. „Pe măsură ce introduceți cuvântul„ burger ”, căutăm dinamic numele comercianților și scanăm meniurile, spune Herzberg. „Te rogi mereu pentru un set de date mai curat, dar și noi suntem pragmatici”. Și Postmates învață, de asemenea, despre sincronizare - despre tipurile de lucruri pe care oamenii le comandă în general la un anumit moment al după-amiezii sau mai mult spre începutul unei săptămâni pentru prânz (salată) față de final (carbohidrați prăjiți). Acest lucru ajută la recomandări pentru utilizatori și ajută la optimizarea locului și momentului în care să trimită persoanele care efectuează livrările.

O altă companie de vârf, DoorDash, își folosește datele și pentru acest tip de optimizare - pentru utilizatorii săi și poate mai interesant pentru cei care livrează, pe care compania le numește dashers. „Vrei să te asiguri că clientul primește mâncarea la timpul pe care îl așteaptă. Doriți să-l obțineți la cea mai bună calitate de la comerciant ", spune Rajat Shroff, vicepreședintele produsului DoorDash. „Și vrem să ne asigurăm că dashers-urile nu își pierd timpul așteptând în jur”. Așadar, algoritmii săi echilibrează încărcătura în funcție de locația, adresa de livrare și viteza restaurantului. „Zero timp de așteptare. Asta încearcă să facă algoritmii de predicție ”, spune Shroff.

Din acest motiv, Maloney a meritat să construiască baza de date de meniuri artizanale. Toată lumea folosește filtre de colaborare pentru a oferi recomandări. Ar dori ca Grubhub să ofere mai multe. A redus ofertele de partajare a datelor cu Yelp și Foursquare; parteneriat cu compania care deține KFC, Pizza Hut și Taco Bell; și cumpără concurenți precum directorul de livrare Eat24 al lui Yelp pentru a crește la 80.000 numărul de restaurante de pe listă. Asta e mare.

Dar afacerea va deveni doar mai competitivă. Un raport al McKinsey spune că, în 2016, 30% din comenzile de livrare de alimente au venit online, cifră pe care se așteaptă să o crească la 65% până în 2020. Morgan Stanley consideră că livrarea online ar putea fi o piață de 220 miliarde de dolari în 2020, 40% din total vanzari restaurant. Dar McKinsey spune că Grubhub, care conectează mesele la restaurantele care se ocupă de fapt de livrări, se va confrunta cu o concurență mai mare din partea „noilor companii de livrare” care își asigură propriile vehicule și logistică, oferind acelor companii acces la restaurante de ultimă generație care doresc să ajungă la clienți fără să alerge. propriile livrări. Wall Street Journal subliniază că DoorDash tocmai a obținut finanțare pentru extinderea la 1.600 de orașe din America de Nord.

Și apoi, așa cum este obișnuit să spunem în acest moment al acestui gen de poveste, există Amazon. În acest caz, legerile logistice care combină restaurantele Amazon de tip Grubhub cu livrarea de la magazinele alimentare Whole Foods deținute de Amazon ar putea răsturna întreaga afacere.

De aceea, Maloney a meritat să spună echipei sale de date să găsească recomandări și să caute. Raportul McKinsey spune că, odată ce oamenii decid ce platformă de livrare online să folosească, 80% dintre aceștia rămân cu ea. „Orice putem face pentru a spori personalizarea și pentru a prezice cu mai multă precizie ceea ce este mai probabil să mănânci va crește rata de conversie, rata de frecvență și afinitatea ta pentru platforma mea”, spune Maloney.

Și asta sugerează o problemă cu întrebarea pizza originală a lui Maloney. Aceste date vă pot spune ce comandă cel mai mult oamenii, dar încă nu vă pot spune, în mod obiectiv, ce fel de pizza este cea mai bună. Deci, tot ce vă pot spune este că, potrivit lui Grubhub, Chicagoanii comandă pizza cu mâncare profundă cu 722 la sută mai mult decât în ​​orice alt loc din Statele Unite. Datele nu mint, dar probabil că l-ați fi putut ghici. Faptul că orice altă parte a țării evită preparatele adânci? Aceasta este ceea ce oamenii de știință numesc „sugestivi”. Așa cum ar spune un om de știință al pizza - în special unul căruia îi plăceau și creveții pe plăcinta ei: corelația nu este crustacee.

Date To Go

  • Nu conta pe livrarea de alimente prin robot în curând.
  • Sărbătorile fac livrarea o problemă și mai spinoasă.
  • Amintiți-vă când Yelp a intrat în jocul de livrare a alimentelor?

Tot ce a vrut să știe Matt Maloney a fost dacă pizza cu mâncare adâncă în stil Chicago este mai bună decât coaja subțire în stil New York. Este o întrebare simplă.