10 spørgsmål til landets første chefdataforsker

10 spørgsmål til landets første chefdataforsker

Det er kun otte år siden, DJ Patil - dengang data- og analyselederen hos LinkedIn - var med til at skabe udtrykket 'data scientist', men professionen er allerede blevet en af ​​de mest populære i landet .

Patil har længe været involveret i dataindustrien. Som doktorand og efterfølgende fakultetsmedlem ved University of Maryland brugte han åbne datasæt fra NOAA til at hjælpe med at forbedre numerisk vejrudsigt. I næsten to år var han direktør for strategi, analyse og produkter hos eBay, Inc.; han tilbragte næsten tre år på LinkedIn; og han har skrevet bøger om datakulturen og opbygning af dataprodukter. Sidste år erklærede Det Hvide Hus sin egen støtte til datavidenskab ved udnævnelse Patil som dens første amerikanske Chief Data Scientist og som dens Vice Chief Technology Officer for Data Policy i Office of Science and Technology Policy.



Hvorfor besluttede regeringen, at den havde brug for en dataforsker, og hvad indebærer stillingen? Science Friday chattede med Patil om, hvad der fik ham til at interessere sig for data, hvad det betyder at være 'dataforsker', og hvor han ser industrien hen.

DJ Patil. © 2012 Eric Millette, Alle rettigheder forbeholdes

Hvordan kom du først i gang med at arbejde med data?
Jeg sutter til matematik, generelt set. Jeg bestod knap nok mine matematiktimer i gymnasiet, og jeg var meget heldig, at jeg gik på et junior college lige nede ad gaden [i Californien] ved navn De Anza College. Den bedste beslutning, jeg nogensinde har truffet, var at tage samme klasse som min kæreste [griner], og hun tog calculus, så jeg gik hen og tog denne calculus-time. Og jeg tænkte: 'Holy crap, jeg ved ingenting; det her er enormt pinligt.’ Jeg havde virkelig det øjeblik, hvor jeg besluttede mig for faktisk at lære det, og også for at imponere min kæreste. Jeg fangede det ret hurtigt, og jeg blev forelsket i matematik.

Derfra gik jeg over til UCSD, hvor jeg virkelig begyndte at arbejde med en masse dataaspekter omkring kaosteori. Derfra tog jeg til University of Maryland, hjemsted for kaosteori, og en af ​​mine rådgivere var Jim [James] Yorke, der opfandt udtrykket ' kaosteori .'

Vi begyndte at arbejde med vejrudsigten . Vi faldt virkelig over, at vejret ikke var så kaotisk, som folk tidligere havde troet. Den måde, vi gjorde det på, var ved, at jeg gik ind hver aften omkring kl. 20.00, overtog alle computere i matematikafdelingen i al hemmelighed og derefter downloadede alle disse data fra National Weather Service, rippede dem fra hinanden, satte dem sammen i forskellige måder – og så af sted før kl. 8.00, hvor nogen ville komme ind. Og det gjorde det muligt for os at finde disse virkelig interessante mønstre. Det var et 'a-ha!'-øjeblik for mig: Åh wow, du kan gøre virkelig utrolige ting, hvis du er i stand til at hente data. Efter vi gjorde det, blev det en af ​​de vigtigste teknikker, der blev brugt til vejrudsigt.

Du var så med til at skabe udtrykket ' data scientist ’ (med Jeff Hammerbacher, dengang dataansvarlig hos Facebook), ikke?
Ja. Det er godt og skidt. Jeg synes, der er dette interessante spørgsmål om, hvad er en dataforsker? Er det ikke bare en videnskabsmand? Bruger videnskabsmænd ikke bare data? Så hvad betyder det udtryk overhovedet?

Du har haft en af ​​mine medforfattere, Hilary Mason, med i showet, og det, vi joker om, og vi skrev om sammen, er, at den vigtigste ting ved dataforskeres jobbeskrivelse er, at den er amorf. Der er ingen specifik ting, du gør; arbejdet inkarnerer på en måde alle disse forskellige ting. Du gør, hvad du skal gøre for at løse et problem.

Hvis du bygger en selvkørende bil, hvem er så de mennesker, der bygger den selvkørende bil? De er dataforskere – uanset om de er produktchefer, designere, hvad end de er. Det er de mennesker, der bruger disse teknikker og ideer fra økonomi, fra statistik, fra maskinlæring, fra kunstig intelligens, fra alle disse discipliner for specifikt at få det til at fungere, for at få bilen til at køre på en måde, der holder dig sikker og andre også sikre.

De bedste dataforskere har én ting til fælles: utrolig nysgerrighed.

Hvordan har dataindustrien ændret sig, og hvorfor tror du, det er blevet populært at være data scientist?
Jeg tror, ​​at grunden til, at datavidenskabsaspektet virkelig er blomstret nu, er, at folk er i stand til at indsamle data langt nemmere end før; det er ikke en stor indsats at gøre det. Det andet er, at nu hvor folk kan indsamle tilstrækkelig mængde data, er der spørgsmålet om, okay, så hvad skal vi gøre med det? Og WHO 'vil virkelig gøre dette?

Hvordan tror du, at Det Hvide Hus indså, at det havde brug for en dataforsker?
Nå, en af ​​de ting, som folk ikke altid har taget i betragtning, er, hvor meget fokus denne præsident har lagt på data fra dag ét. Selvom du træder tilbage i hans kampagne, er han meget fokuseret på at bruge data på nye måder til at engagere sig i offentligheden. Da han kom ind i administrationen, har han været fokuseret på alt fra, hvordan patienter får mere adgang til data, til hvordan vi sikrer, at vi bruger data til gennemsigtighed – [dvs.] at øge mængden af ​​data, der er åben derude. Vi har skabt data.gov , hvor der er næsten 200.000 datasæt, som er tilgængelige for alle at se på. Hvordan bruger vi data til at forbedre tjenester for alle? Faktisk har [præsident Obama] en bekendtgørelse at alle statslige data som standard er åbne og maskinlæsbare, og at data, der udgives ved hjælp af føderale forskningskroner, skal være gratis, for hvem har betalt for det? Skatteyderne. (Der er et tidsvindue, hvor vi ønsker, at [sundheds]-tidsskrifterne skal kunne have eksklusiv adgang, men på lang sigt skal offentligheden ikke betale for det.)

Ligesom han var den første præsident, der havde en teknologichef, har han erkendt, at der skal være et team, der er fokuseret på, hvordan vi frigør datakraften til virkelig at gavne hver enkelt amerikaner.

Du har nu haft denne stilling i over et år. Hvad er din stolteste præstation indtil videre?
Den præstation, jeg er mest stolt af indtil videre, er, at dataforskere nu er stærkt, stærkt engageret i at arbejde med disse problemer, og så mange af de føderale agenturer har nu et datateam eller en chief data scientist eller en chief data officer. Tag transport, for eksempel. De har en chief data officer, som har fokus på, hvordan tænker Transportministeriet på en ny måde om dette? National Institutes of Health har en person, der er fokuseret på nye måder at tænke data på. Det samme gør det amerikanske landbrugsministerium. Selv USAID. Så alle tænker på data som en kraftmultiplikator.

'De bedste dataforskere har én ting til fælles: utrolig nysgerrighed.'

Hvor ser du fremtiden for dataindustrien på vej hen?
Det mest spændende for mig ved fremtiden er, hvordan data kommer til at være en del af hver eneste samtale, og at vi vil træffe hurtigere beslutninger af højere kvalitet som et resultat af det. Det, der vil ske, er, at vi ikke kun vil se på data en gang hvert 10. år for at evaluere noget – vi vil se på data meget regelmæssigt og kurskorrigerende i meget mere realtid. Og det vil give os mulighed for at få regeringen til at levere bedre tjenester og være mere agile.

Hvilke råd har du til en, der gerne vil blive dataforsker?
Der er aldrig et bedre tidspunkt at starte. Bare gå til data.gov . Der er næsten 200.000 datasæt, hvor hvis du bare begynder at downloade dem, skal du lege med dem. En af de fedeste ting, du kan gøre nu, er at arbejde med data på dit lokale byniveau. Der er en Nationaldag for civil hacking [den 4. juni 2016], og hvad der kommer til at ske den dag rundt om i hele landet er, at folk skal have et hackathon i deres lokale by, de vil arbejde med data på lokalt niveau. De kommer til at bruge disse data til at forbedre deres lokalsamfund.

Hvad synes du er nogle af de største udfordringer, som dataindustrien står over for?
Noget, som jeg synes er virkelig vigtigt, som jeg efterlyste, er at hvert enkelt træningsprogram – uanset om det er bachelor-, kandidat- eller onlinekurser i datavidenskab – skal have dataetik som ikke et valgfag, men som en central grundsætning for, hvordan vi gør. ting. Når vi arbejder med data, har du utrolige muligheder for at gøre store ting med dem, og du har også evnen til at gøre noget, der kunne være meget problematisk. Vi ser, hvor folk har brugt data på måder, som vi synes grundlæggende ikke er i orden. Folk er begyndt at tale om det her, og hvad vi skal gøre ved det. Jeg tror, ​​vi skal have en meget stærkere samtale. Privatlivskomponenter er lige så vigtige.

Jeg tror også, at vi skal træne mange flere til at bruge data. 'Brug data' betyder, hvordan man læser en graf på det helt grundlæggende niveau, helt frem til at gøre meget sofistikerede ting. Bemyndigelse af mennesker med data i deres daglige liv får folk til at have bedre kontrol over deres skæbne. Det kunne være noget så simpelt som, hvordan vælger du college? Det er derfor, vi arbejder så hårdt sammen med undervisningsministeriet for at bygge College scorekort , som giver folk gennemsigtighed på en ny måde.

Får du nogensinde tilbageslag i din rolle?
Det største tilbageslag, jeg tror, ​​der er, er, hvordan vi håndterer privatlivsaspektet af dette, og hvordan tænker vi samtidig om cybersikkerhed? Grunden til, at jeg ikke tror, ​​at tilbageslag er det helt rigtige ord, er, fordi alle anerkender værdien her, så det er ikke et 'men' - det er et 'og'. Hvordan bruger man data og bevarer privatlivets fred og sikre cybersikkerhed? Jeg har ikke fået nogen, der er vrede over de problemer, vi arbejder på; Jeg tror, ​​at det, vi har som et problem, er, hvorfor arbejder du ikke på at ? Måske er det den største modreaktion.

Så hvordan håndterer du disse bekymringer om privatliv og cybersikkerhed?
Jeg er meget fokuseret på dem. Faktisk er de integreret i alt, hvad vi har lavet. For eksempel i Præcisionsmedicinsk initiativ , frigav vi fortroligheds- og tillidsprincipper det, tror vi, vil være appen fremover for enhver, der laver denne form for biomedicinsk forskning. Og så frigav vi udkastet til sikkerhedsrammen for enhver af denne type forskning fremadrettet, og vi vil færdiggøre det meget snart. Så vi praktiserer det, vi prædiker, i og med at dataetik er en utrolig komponent i hver eneste ting, vi gør.

Denne artikel er blevet redigeret for plads og klarhed.