Populære Innlegg

Redaksjonens - 2019

Artificial Intelligence er "Holy Grail" Victory

Anonim

I 1943, på høyden av andre verdenskrig, hyret det amerikanske militæret en hånlig psykolog ved navn BF Skinner for å utvikle dukestyrte missiler. Disse var de første dagene av ammunisjonstestteknologi, og de allierte var tilsynelatende ganske desperate for å finne mer pålitelige måter å få missiler på for å nå sine mål.

Det gikk slik: Skinner trente duer for å peke på et bilde av det militære målet som ble projisert på en skjerm. Hver gang nebbene ramte det døde senteret for flyttende mål, belønnet han fuglene med matpellets. Når duene hadde lært å peke på mål, tjente de sine vinger: Skinner ville strap tre av sine små piloter inn i en missil-cockpit spesielt utstyrt med stropper festet til gyroskoper som ville styre bomben.

Målet var å få duene til å peke på et bilde av bombeens mål, deres små stropper vrider og bøyer, gyroskopene svirrer, leder bomben og fuglene til deres endelige hvilested.

Militæret trukket til slutt pluggen på Project Pigeon, mens Skinner fortsatte å utvikle en disiplin som kom til å bli kjent som atferdspsykologi. "Behavioral", fordi Skinner, i motsetning til sine freudiske forgjengere, ikke bryr seg om uopplevelige egenskaper ved bevisst intelligens - ting som tanker, følelser, ønsker og frykt. Han ville bare oppdage hvordan å trene dyr (og hans barn) ved hjelp av vitenskapelige teknikker av stimulans, belønning og straff.

Hvis det er en moderne Project Pigeon, er det DeepMind's AlphaGo. I løpet av de siste tre årene har DeepMind utviklet noen av de mest sofistikerte maskinlæringsteknikkene til å trene en datamaskin med kunstig intelligens (AI) for å mestre det gamle brettspillet Go.

Merkelig nok er dette tusenårige brettspill den perfekte demonstrasjonen av menneskelig kompleksitet, maskinbegrensninger og hvor kraftig AI har blitt.

I flere tiår har forskere vurdert å spille. Gå til å være den hellige grillen til spillspill AI. Ingen datamaskin hadde noen gang kommet nær å slå en profesjonell i et jevnt, fullbrettspill. Mange trodde det var umulig.

Opptattende, AlphaGo-spillene går med noe som ligner på menneskelig intuisjon. Det er nytt. Datamaskiner har alltid vært gode til å gjøre hva slags oppgaver vi logisk kan definere, for eksempel å multiplisere store numre, lagre informasjon og spille av innspilte filmer. Men de sliter med implisitt kunnskap. Det er de tingene vi vet å gjøre, men kan ikke forklare - selv for oss selv - hvordan vi gjør dem. Å anerkjenne ansikter, lære et språk, identifisere sykdommer og utøve sunn fornuft er alle aktiviteter vi kanskje liker å utføre maskiner, men som ikke kan kodifiseres i et sett med regler. Utvidelse av AIs evne til å inkludere implisitt kunnskap åpner et stort antall nye oppgaver på datamaskiner.

Men DeepMind største prestasjon ligger i det faktum at AlphaGo behersket verdens mest brede spill uten at noen noen gang har lært det hvordan å spille Go. Det er fordi DeepMind grunnleggende ikke har programmert en Go-Play-maskin; heller, DeepMind bygget en læringsmaskin som lærte seg selv å spille Go.

Og en datamaskin som utmerker seg ved læring, kan også lære andre ting. Selv om AlphaGo var opptatt med å praktisere Go, lærte han å håndtere DeepMinds strømforbruk, og sparer 40% av energien som brukes av sistnevnte datasenter-kjølesystemer. Dette er ikke bare en stor avtale for DeepMinds morselskap, Alfabet

(NASDAQ: GOOGL)

(NASDAQ: GOOG)

. Med datasentre som bruker 3% av verdens energiforbruk, tar det ikke mye fantasi for å se at bare effektivitetsgevinstene fra maskinlæring kunne omforme verdensomspennende mønstre for produksjon og forbruk.

AlphaGo er bare to år gammel. Vi har lite erfaring med state-of-the-art maskinlæring. Dens evner, feil og kjennskap er ukjente for oss. Og på grunn av sminke av arkitekturen, kan vi ikke forhøre AlphaGo om sine tenkningsprosesser mer enn vi kunne knekke åpne en menneskelig hjerne for å se sine tanker.

Men vi har 221 offentlig tilgjengelige spillposter. Og de avslører alter-menneskelig tenkning som er i stand til å revolusjonere informasjonsteknologi, transport, forretninger og mer.

Jeg studerte dusinvis av spill som spenner over alle stadier av AlphaGos utvikling i tillegg til DeepMinds publiserte vitenskapelige papirer. De kan hjelpe oss med å visuelt forstå AlphaGos personlighet og hvordan andre kunstig intelligente maskiner kan tenke og oppføre seg i fremtiden.

Hvis du vil forstå hva AI er i stand til, er AlphaGo stedet å starte.

Gå, om 10 sekunder

Goens regler er enkle.

Spillerne vender seg om å plassere en hvit eller svart stein på et rutenett.

Hvis en gruppe steiner er omgitt av en motstanderens steiner, blir den tatt og fjernet fra brettet.

Spilleren som omgir mest territorium, som hvit gjør i følgende spill, vinner:

Det er egentlig det.

For å forstå hvorfor et så enkelt spill har forvirret AI-forskning i flere tiår, er det nyttig å kontrast Gå med sjakk.

I flere tiår ble det sagt at datamaskiner ville være intelligente hvis de kunne spille sjakk. Så et halvt århundre etter at Alan Turing publiserte den første sjakkalgoritmen, IBMs

(NYSE: IBM)

Deep Blue supercomputer slo verdensmester Garry Kasparov.

Deep Blues suksess var imponerende, men IBMs algoritmer var fundamentalt lik Turings 1950-program. Det som endelig gjorde Deep Blue mulig var en 3 millioner ganger økning i datakraft siden Turings dag.

Et lite merket faktum: Det samme året som Deep Blue slo verdens største sjakkspiller, hadde toppmoderne Go AI bare oppnådd ferdighetsnivået til en anstendig nybegynner.

Hvorfor Go er det perfekte testområdet

Jeg spurte en gang Kasparov om han noen gang hadde spilt Go.

"Nei."

Vil du?

"Nei."

Hvorfor ikke?

"Det er for vanskelig."

Hva?

"Det er en helt annen måte å tenke på."

Det er den "forskjellige måten å tenke på" som har så lenge eluded maskiner.

Deep Blue beat Kasparov med brute force: Det lagret mange spill, den brukte taktiske og strategiske tommelfingerregler, og det brukte overlegen prosessorkraft for å lese fremtidige bevegelingsmuligheter dypere enn Kasparov (men bare knapt). Men datamaskiner kan ikke mestre Gå gjennom ren prosessorkraft. Og de kan ikke gjøre det for mange av de samme grunnene at de aldri har vært i stand til å utføre andre, mer avgjørende, oppgaver.

Muligheter i sjakk er begrenset av et 8 x 8 bord og regler som definerer hvor du kan flytte bestemte deler. I motsetning til dette måles en full størrelse Go Board 19 x 19, og steiner kan spilles omtrent hvor som helst.

Resultatet er at en sjakk spiller står overfor i gjennomsnitt 35 valg for hvert trekk. Gå i gjennomsnitt 250 alternativer. Denne figuren er kjent som et problemets "forgreningsfaktor", og det er en bane av AI. Hvis du multipliserer 250 av seg selv nok ganger - for å evaluere mulige svar, motresponser og så videre - kommer du raskt til en rekke posisjoner som er mye større enn antall atomer i universet, som ville ta alle verdens datamaskiner godt over en million år for å kartlegge ut.

Faktisk var det ikke engang før i fjor at noen klarte å beregne hvor mange mulige Go Board-stater det er. (Det handler om 2, 081681994 x 10 ^ 170. Eller på vanlig engelsk, over to hundre quinquinquagintillion.)

Siden ingen - menneskelig eller supercomputer - noen gang kunne undersøke enhver mulighet, stoler spillere på følelse og intuisjon. Til en erfaren Go-spiller føler et godt trekk rett og ser vakkert ut. Go's humanness er det som gjør spillet ugjennomtrengelig for maskiner.

For det andre er det vanskelig å kvantifisere verdien av et trekk. Selv å finne ut hvem som vinner kan være en utfordring.

Sjakkbrikker har klare verdier: en bonde er verdt 1 poeng; en ridder, 3; en røyk, 5; og så videre. Du kan få en grov følelse av hvem som vinner ved å sammenligne verdiene av fanget stykker. Deep Blue ansatt dusinvis av slike tommelfingerregler for å finne gode trekk. Men Go steiner har ingen inneboende, fast verdi; de har bare betydning i forhold til hverandre. Usikre bevegelige verdier vanskeliggjør beslutningsprosessen ytterligere.

Tredje, de fleste Go-situasjoner innebærer en form for prute. Trikset er å finne ut hva motstanderen din vil ha, og å tvinge motstanderen til å gi deg noe du vil ha i retur. Prøver å ta alt slutter dårlig. Så robotic ufleksibilitet er ute.

Til slutt, de tingene du handler har abstrakte verdier som ikke alltid er kvantifiserbare. Bortsett fra poeng kan en spiller ha innflytelse (steiner som kan være nyttige i en senere kamp), sente (friheten til å velge hvor du skal spille neste), eller aji (bokstavelig talt "ettersmak", en uoversettelig japansk term for latent shenanigans: " Aji, "en undervisnings ressurs forklarer, " er som en stein i skoen din når du er sen. Stenen gjør vondt - og som et resultat kan du ikke løpe så fort. Men fordi du er sen, kan du ikke slutte å ta det ut").

Her er et enkelt eksempel. Black kunne forsegle verdifulle hjørnepunkter med et annet trekk:

Eller svart kunne bytte hjørneområdet til hvitt. Til gjengjeld får svart steiner som vender mot siden og senteret, noe som kan bli nyttig i fremtiden (påvirkning). Den merkede hvite steinen er svært svekket, men det kan bli en kompliserende plage for svart senere (aji). Det er svart, og svart kan spille hvor som helst (sente).

Du kan se umuligheten av å plassere presise verdier på påvirkning, aji og sente. Mye som motstridende verdier i virkeligheten - kundeservice, aksjeytelse og risikoreduksjon for en bedrift; gjør ingen skade, full gjenoppretting og triage for en lege; troppstøtte, dødhet og begrenset skade på sikkerheten for en drone - det er epler og appelsiner helt ned. Maskiner har problemer med å gripe nyansene til slike avganger fordi enhetene er abstrakte, nyanserte og konseptuelt forskjellige. Det finnes heller ikke felles synonymer i nuller og dem.

Til tross for disse utfordringene har en jevn utvikling i AI-teknologi gjort det mulig for AlphaGo å mestre spillet. Disse endringene representerer hvordan AI utviklet seg til sin nåværende tilstand og presage sin fremtid. For å forstå hvor AI er på vei må vi se hvordan vi kom til hvor vi er i dag.

Fase 1: Gjør som jeg sier (1950-tallet til 1960-tallet)

Den offisielle fødselen til AI skjedde på en 1956-konferanse i Dartmouth College, formelt holdt på den grandiose premissen at "alle aspekter av ... intelligens kan i prinsippet være så nøyaktig beskrevet at en maskin kan gjøres for å simulere den."

AIs grunnleggere tok sine tegn fra filosof-matematikere som Gottlob Frege og Bertrand Russell, som nylig hadde utviklet en spesiell notasjon for logikk. Ifølge lederne av denne tilnærmingen lå nøkkelen til intelligens i å anvende reglene for logikk. De gjorde raske fremdriftsbyggingsprogrammer som kunne utlede viktige matematiske bevis og selvsagt spådde at på bare 10 år ville en datamaskin mestre sjakk.

Men da gikk fremgang på veggen. Det var et hinder ingen forutså.

Fase 2: Regler og tommelfingerregler (sent 1960-tallet til begynnelsen av 2000-tallet)

Som forskere begynte å spørre datamaskiner for å løse komplekse, virkelige problemer som å diagnostisere sykdommer eller oversette russiske, viste det sig at mange av disse komplekse problemene kunne løses teoretisk, men ikke i praksis. Kravene til tid og minne for å løse problemer har en tendens til å vokse eksponentielt med hvor dypt du må lete etter et svar. Haloen fordampet. Forskere forlot uttrykket "kunstig intelligens" for å unnslippe smertefull snickering fra akademiske og forskningsmiljøer. Det var masse kutt i massevis.

På en måte var det som reddet AI fra irrelevans en arbeidsdeling. I stedet for å prøve å programmere maskiner som kunne gjøre noe rent med logikk, reduserte forskerne sine forventninger og begynte å skreddersy individuelle programmer til bestemte problemer. Å begrense hvilke problemer et program trenger å løse, bidrar til å begrense antall mulige løsninger det må søke.

I takt med at mennesker tenker, begynner programmerere å modellere AI. Det betydde ofte å bruke heuristikk eller mentale snarveier.

Vi bruker heuristics hele tiden: Den roser kyllingen, jo lengre bør du holde den i ovnen. Hvis tomaten er fast, er den frisk nok til å spise. Trenger du mer smak? Legg til flere krydder.

Disse små bitene av kunnskap er avgjørende. Vi kunne ikke leve uten dem - det er bare ikke nok tid på dagen til å gjøre alt perfekt.

De første forsøkene å bygge Go-playing-datamaskiner fungerte på samme måte. En del av koden estimert spillet score, en annen innflytelse. Det var rutiner for å gjenkjenne sente, identifisere hvordan man beskytter viktige steiner fra å bli fanget, få tilgang til et bibliotek med felles sekvenser og så videre for alle spesialiserte ferdigheter som avanserte spillere bruker.

Væpnet med disse evnene, ville datamaskinen vurdere flere trekk. For hvert trekk vil det vurdere en rekke mulige svar, motsvar, og så videre, inntil det produserte en modell av mulige utfall som lignet et tre. Målet var å søke i spillträet for "minst dårlige" utfallet ved å følge en sti som etterlater motstanderen ikke gode valg. Slik virket Deep Blue også.

Selvfølgelig, akkurat som maten en kokk produserer avhenger av kvaliteten på oppskriftene, er en heuristisk-basert AI bare like god som heuristikkmenneskerne kan lage mat. Videre er tilnærmingen bare ikke opp til oppgaven når antall muligheter er virkelig store.

Og så, etter flere tiår med sakte fremgang, oppnådde heuristisk-basert AI bare styrken til en mellomnivå Go-amatør. Som motstander var AI stiv og forutsigbar. Memorisering og regelen følger ikke godt med intuisjon, fleksibilitet og kreativitet. Ytterligere fremskritt vil kreve en revolusjon.

Fase 3: Statistisk (og merkelig!) Spill fra rasjonelle romvesener (midten av 2000-tallet)

2006 så et gjennombrudd med suksessen til en teknikk som kalles Monte Carlo Tree Search (MCTS).

Tilnærmingen er en gammel, og i dag brukes den til å styrke logistikk og produksjonsstyring. MCTS har blitt brukt på kjøretøyruting, flyplanlegging, pakking, robotbevegelse og økonomi. Den har gjort seg kjent med populære strategispill som Total War: Rome II, Scrabble, poker og sjakk.

MCTS navn kan høres formidabelt, men ideen er enkel. Den erstatter menneskelige heuristikker med en enkel statistisk teknikk kjent som Monte Carlo-simulering. Når din økonomiske rådgiver forteller deg mulighetene for at porteføljen din vil vare gjennom pensjon, bruker han Monte Carlo-simuleringen.

Akkurat som før begynner du med et treesøk. Men i stedet for å stole på hardkodede Go heuristics for å estimere det beste resultatet, simulerer datamaskinen bare en rekke tilfeldige spill for å se hvem som er mer sannsynlig å vinne.

Å generere tilfeldige tall er noe datamaskiner kan gjøre veldig raskt, og det er overraskende effektivt. MCTS kutter mellommedlemskonsepter som påvirkning og aji, og gir maskinen en direkte rute til det du endelig bryr deg om: å vinne.

Dette er filosofien som dominerer AI i dag: Algoritmer er ikke lenger rent logiske. De etterligner heller ikke måten menneskene faktisk tenker på. De handler bare rasjonelt i jakten på et mål. (Stuart Russell og Peter Norvig, formulert av datavitenskapere, tanke versus handling, menneskelige mot rasjonelle forskjeller danner et nyttig rammeverk for de ulike tilnærmingene til AI.)

Men MCTS er fundamentalt i strid med menneskelige tilnærminger til problemløsing. Hvor ofte setter du deg ned på den lokale Olive Garden og visualiserer 10.000 randomiserte menysimuleringer for å velge mellom kylling og uendelig pasta?

Og så viser MCTS-basert AI utallige quirks. For å virkelig sette pris på hvor mange fremtidige autonome maskiner skal ta avgjørelser, må du forstå MCTS dype merkelighet. Å spille et spill med en MCTS-motstander kan føles som å se ansikt til ansikt med en intelligent fremmed som kjenner spillets regler, men har aldri sett et faktisk spill som spilles.

I de tidlige stadiene av et Go-spill holder spillere generelt seg til de fire første linjene i styret. (Det er lettere å sikre territorium i hjørnene og sidene enn i midten.) Men et AI-program som bruker MCTS, vil ofte plukke en stein et sted i midten.

Her er et eksempel tatt fra et ekte spill jeg spilte mot en ganske sterk AI-programvare kalt Fuego:

Gitt, Fuegos trekk er sammenhengende. Stenen utvider hvite potensial på bunnen, begrenser svart potensial til høyre, og kan bli en livlinje til hvite to steiner på toppen hvis de kommer under angrep senere:

Men det er bisarrt. Dette "gjør hva som kommer til målet" -innsatsen i MCTS-baserte AI-verk, men det kan føre til problemer på veien, fordi vi vil at våre selvkjørende biler, automatiserte paralegaler og robotnagler ikke bare skal være kompetente, men også forutsigbar og relativ til mennesker.

For det andre kan et AI-program som bruker MCTS flyte som et resultat kommer til syne. Vinnende (og dermed risikovillig) MCTS-programvare spiller ofte tilsynelatende irrasjonelle og litt skadelige trekk. Å miste MCTS-programmer er mer spennende - de er utsatt for spektakulær selvdestruksjon.

Årsaken er enkel: Mennesker tror vi vinner spill ved å øke vår ledelse (hvis vi vinner) eller redusere underskuddet (hvis vi mister). Men MCTS-programvare prøver å forbedre sannsynligheten for seier. Det skiller ikke mellom et 5-punkts tap og et 50-punkts tap. Og når en situasjon er håpløs, kan MCTS ikke lenger skille gode alternativer fra dumme. På veien til nederlag ser hver sti like dystre ut.

Etter hvert som AI-programvarens sjanser for suksess reduseres, begynner du å se hva som ser ut som bølger av panikk som kulminerer i nedsmelting. Det er en merkelig følelse, som å se på et aksjemarkeds flash-krasj, men for rasjonalitet.

Hvis den gamle tre-søkemodellen var for stiv og robotic, innrømmer MCTS-tilnærmingen en quirky, tallerknende savant ujordet i erfaring. Noen ganger kan hyper-rasjonalitet uten sunn fornuft skille seg fra galskap.

Fase 4: Mønstergjenkjenning (2010s til stede)

Den endelige store pause kom da forskerne fant en måte å rote MCTS i mønstergenkjenning. Nøkkelen, overraskende på den tiden, viste seg å være en gammel maskinlæringsteknikk inspirert av den menneskelige hjerne.

Kunstige nevrale nettverk er basert på ideer som har eksistert siden 1950-tallet. Men de var lenge betraktet som et bakevann av maskinlæring. Å trene et neuralt nettverk krever mye data og mye databehandlingskraft - ting som ikke var tilgjengelige før veldig nylig. En sammenfatning av viktige teknologiske trender - Internett, store data, distribuert databehandling og skylagring - har nå endret det.

Neurale nettverk danner ryggraden på Facebooks ansiktsgjenkjenning og nyhetsmagasineringsteknologi, Google Translate, bilkjøringsbilde og utallige andre applikasjoner. De er spesielt gode på å behandle bilder og lyd.

Nevrale nettverk egentlig ikke modell hjerner - det er en vanlig misforståelse - men analogien er nyttig for å forstå deres funksjon.

Som et nettverk av axoner, et neuralt nettverk modellerer en web av tilkoblede data noder kjent som kunstige nevroner. Dype nevrale nettverk inneholder mange lag av slike noder. Når du hører folk bruker uttrykket "dyp læring", er dette hva de mener.

Hjerneurononer kommuniserer ved å sende elektriske ladninger til andre nevroner via veier med varierende tilkoblingsstyrke. Kunstige nevrale noder inneholder tall som kalles vekter som representerer hvor mye innflytelse de utøver på hver knute i neste lag.

Etter hvert som rå data flyter gjennom et neuralt nettverk, fungerer hvert lag av noder som et filter, og transformerer informasjonen gjennom stadig høyere funksjoner.

For å trene et neuralt nettverk, gir du det et eksempel, se om det gir det riktige, korrigere feilen hvis den ikke gjør det ved å endre vektene i henhold til spesielle matematiske funksjoner, og gjenta med nye eksempler. Etter hvert, etter å ha trent på millioner av eksempler, blir det bedre å gjøre hva den skal gjøre. (Akkurat som en due.)

Nevrale nettverk er langsomme elever. De trenger mange eksempler, og de tar lang tid å trene, fordi tusenvis av vekter må justeres i henhold til matematiske formler hver gang den mottar et av de myriade eksemplene. Men det er en oppside: Nevrale nettverk er utrolig følsomme og kan fange mye subtil informasjon.

Hvis domenespesifikt tre-søk er den regelstyrte roboten, og MCTS er den rasjonelle alien, så er nevrale nettverk som et barn.

Hvordan AlphaGo fungerer

DeepMind trente AlphaGo på samme måte som du kan lære småbarn å gjenkjenne bilder av katter. Du kan vise dem et dyrebilde og peke ut alle kattene. Deretter kan du besøke en dyrebutikk sammen og la barna prøve å plukke ut katter, la dem få vite hvilken de får riktig og hvilken feil. Til slutt frigjør du dine fledglings inn i verden, og vet at livet vil gi uansett tilbakemelding de trenger for å korrigere eventuelle alvorlige kattidentifikasjonsfeil.

DeepMind begynte med å mate AlphaGo 30 millioner bilder av Go beveger seg fra sterke spillere som den hadde minert fra en populær online Go-server. Når AlphaGo hadde lært å identifisere hva et godt trekk ser ut, praktiserte det på bilder det aldri hadde sett før for å bli bedre. Endelig spilte AlphaGo millioner av treningsspill mot seg selv, og fikk tilbakemelding i form av om den vant eller mistet.

AlphaGo lærte også å estimere oddsen en bestemt posisjon ville føre til seier ved å studere millioner av spillposisjoner. Det forsterket da kunnskapen ved å spille millioner av spill mot seg selv.

Så i stedet for å lære å gjenkjenne katter, kan AlphaGo peke hvilke trekk som ser lovende ut. Du kan visualisere hvordan AlphaGos nevrale nettverk ser brettet med et varmekart. "Hotter" -områder er de som det neurale nettverket mener ser mest lovende ut.

Dette kommer fra et spill jeg spilte mot Leela, en sterk nevralbasert Go AI:

Å ha dette kartet tillater AlphaGo å konsentrere seg om de mest lovende tregrene, og det gjør Monte Carlo-spådommene mer nøyaktige. Resultatet er langt sterkere strategisk intelligens enn tidligere tilnærminger kunne oppnå:

AlphaGo holdt sin første kamp i hemmelighet på DeepMinds hovedkontor i London, som spilte mot den regjerende europeiske mesteren Fan Hui. Ingen datamaskin hadde noen gang slått en profesjonell. AlphaGo vant kampen 5-0.

Et par måneder senere, da DeepMind avslørte at det var en av AIs største milepæler, annonserte det også at på bare litt over en måned ville AlphaGo stå imot den mest storied-spilleren i vår generasjon, en elite Go-mester som heter Lee Sedol. Det var en gjengivelse av Kasparov-Deep Blue-kamperne "Man vs Machine".

Kanskje mindre enn øyet

Men AlphaGos spillrekord tviler på håp om at AI-programvaren kunne vinne sin neste utfordring. De viste ingen kreativ superintelligent geni. AlphaGo, det virket, hadde bare lært å etterligne læreboken Go ekstremt godt.

Mest oppsiktsvekkende var den ortodokse, forsiktige og innflytelsesorienterte spillestilen - populære årtier siden i Japan og utrolige amerikanske lærebøker, men i motsetning til toppmoderne lek.

AlphaGos forsiktige stil skyldes en forspenning i treningsdataene. Nettstedstrafikkanalyse bekrefter at den engelskspråklige Go-serveren der DeepMind opprettet AlphaGos studieundervisning, er uforholdsmessig populær blant spillere fra Amerika og Japan - de stedene hvor amatører fortsatt spiller gammeldags Go. Dette tjener som en påminnelse om at subtile forstyrrelser i treningsdata helt kan forandre et neuralt nettverk personlighet - et problem som vil bli stadig viktigere da AI i økende grad kommer til å stole på store data.

Et øyeblikk spesielt - identifisert av Myungwan Kim, en topp sørkoreansk profesjonell - indikerer tidlig AlphaGo's uninventiveness.

Fan, spiller som svart, invaderte AlphaGos territorium nederst på brettet. Ifølge en ekstremt vanlig rekkefølge som AlphaGo må ha studert utallige ganger, spiller hvit neste A. Det er slik det alltid går.

"Hvis du studerte hundre tusen spill, ville alle spillene hvite spille A."

Som selvfølgelig gjorde AlphaGo det.

Sekvensen skal være en rettferdig utveksling - svart tar hvite territorium, og hvitt får innflytelse mot midten.

Men denne gangen var det en feil. Du kan se hvordan svartens to steiner (merket med trekanter) negerer hvite forventede påvirkning og truer hvite markerte steiner. I dette bestemte spillet har hvite lite å vise for å gi opp nedre siden av brettet.

AlphaGo kunne etterligne mennesker, men det kunne ikke oppstå nye ideer.

Med mindre AI kunne lære å tenke for seg selv, ville det ikke stå en sjanse mot sin neste motstander, den legendariske Lee.

Vi kommer til å trenge en montasje

I de fem månedene som fulgte Fan-kampen, jobbet DeepMind-programmerere døgnet rundt for å revolusjonere AlphaGo. DeepMinds konsernsjef, han selv en tidligere barneskjoldprodigy, samler inn integrerte lag av forskere, ingeniører og verdsettingseksperter for å syntetisere sine ulike ferdigheter. DeepMind hyret også den filosofisk tenkende fanen, AlphaGos første motstander, for å identifisere og lappe opp AlphaGos svakheter. Og AlphaGo spilte millioner av ekstra praksis spill mot seg selv.

Det var ikke tid til å fikse alt, og da fristen nærmet seg, var laget nervøst. Ledende forsker på AlphaGo, David Silver, reflekterte:

Vi hadde vår evaluerings kamp i forrige uke. Vi vant et spill, og vi mistet et spill. Og vi mistet et spill på en måte som ville få oss til å se ekstremt tåpelig ut. ... Vi har mye arbeid å gjøre. ... Det er bare for mye risiko for at vi kan miste.

Snart nok var det på tide for AlphaGo å møte Lee.

originalitet

Lee er den perfekte motstanderen til en maskin, en av de mest kreative spillerne i den moderne æra. Hans stil er intuitiv, aggressiv og fryktet. Lee's spill spilles ut som en Beethoven-symfoni - spredte fragmenter kolliderer kaotisk før de smelter sammen i en plutselig, voldelig klimaks. Det er organisert kaos.

Lee kom inn i en Go-akademi ved 8 år og begynte å trene 12 timer om dagen. Han ble utdannet til profesjonelt nivå da han bare var 12 år gammel. Han har vært den dominerende spilleren i det siste tiåret.

Rundt om kloden satte 280 millioner mennesker inn for å se hvordan den uprøvde datamaskinen ville gå mot den 33 år gamle verdensmesteren på 18-tiden.

I løpet av få minutter ble det klart at den nye AlphaGo var en annen spiller.

I motsetning til forgjengeren, ville den nye AlphaGo ikke komme tilbake fra en kamp, ​​og svare på Lees komplekse utfordringer med overraskende og klare svar. Og det ville vente på det ideelle øyeblikket for å starte opprinnelige angrep.

Gang på gang så jeg AlphaGo-spillets bevegelser som var vakre, uventede og skremmende. Slike øyeblikk båret en estetisk og strategisk perfeksjon, hvis implikasjoner gjorde min magesekken.

Dette var ikke noe som den heuristiske roboten på slutten av det 20. århundre, den rasjonelle alien på 2000-årene, eller lærebokens fortreffelighet fra forgjengeren. AlphaGo hadde blitt en kunstner.

fleksibilitet

AlphaGo er også svært fleksibel.

Et bemerkelsesverdig eksempel kommer fra spill 5 mot Lee, da AlphaGo (hvit) kastet en viktig gruppe steiner i nederste høyre hjørne for å bygge et stort sentralt territorium - territorium som det til slutt også ble kastet i favør for å utvikle en stor nederst til venstre hjørne.

Letters-minded, single-minded

AlphaGo kan være fleksibel i sitt valg av midler, men det er helt bokstavelig om sitt mål: å vinne.

Mennesker har en tendens til å likestille en større bly med å være mer sannsynlig å vinne. (Dette er et eksempel på en heuristisk.) Men AlphaGo er annerledes. Det bryr seg ikke hvor langt det er før, bare hvor sannsynlig det er å vinne. Hvis scoring poeng hjelper, bra. Men hvis du gir en stor ledelse, kan du øke oddsene for å vinne fra 75% til 76%, det vil velge den ruten.

Planlegging: AI blir nysgjerrig

AlphaGo kan planlegge for fremtiden. Og når det ikke vet hva de skal gjøre, vil det teste vannet for å finne ut - akkurat som et menneske ville.

I følgende eksempel er AlphaGo (hvit) usikker på hvor du skal spille neste fordi den ikke vet om motstanderen ønsker hjørneområde eller utsiden. Men AlphaGo kan tvinge motstanderen til å avdekke sine planer slik at AlphaGo kan reagere på den optimale måten.

Følgende eksempel kommer fra et spill som en senere versjon av AlphaGo spilte mot seg selv. Tettheten av probing og tvinge bevegelser er svimlende.

Utrolig, ingen eksplisitt lærte AlphaGo om eksperimentering eller planlegging for fremtiden. Nyfiken oppførsel er noe AlphaGo lærte alt på egen hånd.

jeg har akkurat sett et ansikt

Hvordan gjør AlphaGo alt dette?

AlphaGos farsightedness, fleksibilitet og originalitet stammer fra sin evne til rik, detaljert erfaring og total frihet fra utøvende selvbeherskelse.

Verden, til et neuralt nettverk, er en blomstrende, summende forvirring. Når vi ser en kanin, ser et neuralt nettverk muligheter: "80% sjanse for kanin, 15% and og 5% håndkle."

Vår erfaring med optiske illusjoner etterligner hvordan det ville være å ha denne typen syn. Den berømte duck-kanin illusjonen inneholder aspekter av både en and og en kanin, og så kan det virke som oss enten som en:

Å peer gjennom øynene til et neuralt nettverk ville være å se en dyrepark i hvert objekt. Et 2015-samarbeid mellom Google og MIT klarte å tømme noen av de høyere nivåene som nevrale nettverk kan se. De feberdrømmelige resultatene avslører en fantasi som er rasende med aspektgjenkjenning.

Som en pareidoliac som merker fiskøyebukser i kappene, ser AlphaGo bizarre funksjoner og gjør villforeninger som aldri ville oppstå for oss.

Awry, ugjennomsiktig

Til tross for sine forbløffende evner, er AlphaGo ikke perfekt. Og i spill 4 sprakk Lee sin kode. Hans tilnærming fremkalte Muhammad Ali's "rep-a-dope": Beskytt deg selv, absorbere mange slag, og vent på en kritisk åpning for å streike.

For mye av spillet tillot Lee AlphaGo til å mobbe ham rundt, ceding små fordeler til sin digitale motstander for å sikre at hans eget territorium var trygt. Deretter spilte Lee hele spillet på et enkelt, risikabelt angrep.

Strategien virket fordi den tvang AlphaGo til en forvirrende, kompleks og unik situasjon der mønstergenkjenningssoftware ikke kunne stemme overens med menneskets intuisjon.

Her er Lee's move som brøt verdens mest avanserte AI. Du kan se hvorfor formen er så uvanlig - den andre du kile en stein mellom fire av fiendens, den er isolert og fanget.

Mens Lee sa at han så flyten intuitivt og raskt, anslår AlphaGos mønstergenkjenning sannsynligheten for at Lee ville spille det på mindre enn 1 av 10.000.

Nå ble maskinen forvirret og unhinged. Det var gøy å forsøke å redde formasjonen på høyre side, og tapte enda mer territorium, før du uforklarlig kastet en stein til hvite nederste venstre festning. Til sammen fortsatte AlphaGos smelte ned 12 tragikomiske trekk. Å se dem illustrert føles som å se et dusin egne mål i fotball:

Dekningen av dyp læring er raske fremskritt har fostret i den offentlige fantasi en følelse av at teknologien er en uovervinnelig kraft. Men nevrale nettverk møter virkelige begrensninger. AlphaGos meltdown i spill 4 avslører tre slike mangler.

For det første er neurale nettverk mindre effektive elever enn mennesker. De er avhengige av store mengder erfaring og kan derfor mislykkes i uvanlige forhold.

For det andre kan deres feilstile være meningsløse og uforklarlige. A Go beginner could identify the 12 moves as irrational, and the bottom-left stone as haywire.

Here's another example: A team of Google researchers trained neural networks to write image captions with 95% accuracy. But look at how unusual some of its mistakes are. I submit to you that children are not bubblegum, and that "No Parking" signs don't resemble refrigerators:

The third problem follows from deep learning's behaviorist approach to AI. Although DeepMind fixed the cause of AlphaGo's meltdown in later versions, no one will ever understand how AlphaGo made its original mistake, because of neural networks' black-box quality. We may learn to love neural networks' predictive power, but absent explanatory abilities, we'll be reluctant to entrust them with full autonomy.

A 2017 state-of-AI report prepared for the Department of Defense highlights some of these very issues:

The current cycle of progress in [big data and deep learning] has not systematically addressed the engineering "ilities": reliability, maintainability, debug-ability, evolvability, fragility, attackability, and so forth.

The report continued:

Videre er det ikke klart at det eksisterende AI-paradigmet umiddelbart er tilgjengelig for enhver form for validering og verifisering av programvare engineering. Dette er et alvorlig problem.

Til slutt, ettersom AIs fortid passer og starter, er mange forskere litt skeptiske overfor at oppblåste forventninger ikke vil gi plass til en ny uforutsette barriere for fremgang.

Videre til den neste

For nå skjønner pengene imidlertid på å se dyp læring fortsette å gjøre rask fremgang. Siden beseiret Lee Sedol 4-1 har DeepMind gitt ut tre nye versjoner av AlphaGo.

AlphaGo Master gikk 60-0 mot topp Go-spillere i en rekke uoffisielle kort tidsbegrensede online spill. I april beseiret den nåværende verdensmester Ke Jie 3-0 i en offisiell kamp.

AlphaGo Zero, avduket i oktober, trenger ikke engang å lære av mennesker. Bevæpnet med bare spillets regler og tre dager med øvelse, slår den AlphaGo som konkurrerte mot Lee 100-0 ved hjelp av en tolvte av datakraften, ifølge et papir i Nature. Etter 40 dagers trening slo den AlphaGo Master 89-11. Nysgjerrig, bevegelsene AlphaGo Zero utviklet uten å se et menneskelig spill se enda mer menneskelig enn den noen ganger abstruse Master.

Så, i begynnelsen av desember, satte DeepMind en versjon kalt AlphaZero på Stockfish, topp sjakk AI, som sjakkprofessorer bruker til egen trening. Innen fire timer etter å ha lest sjessens regler, overgikk AlphaZero Stockfish, og etter tre dager ødela den det tidligere pre-eminent sjakk AI i en uformell kamp uten å miste et enkelt spill.

Go kan være bare et spill, men det uttrykker mange av de samme intellektuelle utfordringene som virkeligheten utgjør. DeepMind gjør allerede sin maskinlæringsfunn til en AI-programvare som anbefaler medisinske behandlinger. Mange andre bruker AlphaGo-lignende teknikker til diagnostikk, autonome kjøretøy og chatbots også.

AlphaGos evner og personlighet foreskygger fremtiden. Det har vist oss AIs kapasitet til fleksibilitet, langsiktig planlegging, og til og med originalitet, samt ubarmhjertighet, forspenning og opasitet. De økonomiske og sosiale effektene av løsrivende intelligenser med disse egenskapene vil forandre verden. Faktisk har de allerede gjort det.

Neste: For kunstig intelligens er fremtiden nå