Iðnaðar fréttir

Er AlphaZero þess virði að spila?

2018-06-02

DeepMind, sem er gervigreindarfyrirtæki í eigu Google, hefur gefið út nýjan pappír sem lýsir því hvernig liðið notaði AlphaGo tölvukerfi til að byggja upp nýtt verkefni sem heitir AlphaZero. AlphaZero notar AI tækni sem kallast styrkleiki, sem notar aðeins grunnreglur, engin reynsla af menn, þjálfun frá grunni, hrífast borðspil AI.

AlphaZero fyrst sigraði Go og sprakk annað borðspil: Með sömu skilyrðum hafði kerfið átta klukkustunda þjálfun og sigraði fyrsta AI sem sigraði menn - Li Shishi útgáfa AlphaGo; Eftir 4 klst þjálfun, AI Elmo sigraði sterkasta skák leik AI Stockfish og sigraði sterkasta (japanska skák) AI Elmo í 2 klukkustundir. Jafnvel sterkasta Go leikmaðurinn, AlphaGo, var ekki hlíft. Þjálfað í 34 klukkustundir, AlphaZero sló AlphaGo Zero sem þjálfaði 72 klukkustundir.

Mynd / Fjöldi teikna, teiknar eða tapar í leiknum frá AlphaZero sjónarhorni (frá DeepMind Team Paper)

Styrkja nám er svo öflugt. Hvað er það?

Adit Deshpande, vel þekktur AI blogger frá University of California, Los Angeles (UCLA), birti nokkrar greinar um Deep Learning Research Review í blogginu sínu sem skýrir kraftinn á bak við AlphaGo sigur. Í grein sinni kynnti hann að námsmat námsmanna má skipta í þrjá flokka: undir eftirliti, óviðráðanlegt nám og styrkleiki. Styrkþjálfun getur lært mismunandi aðgerðir í mismunandi aðstæðum eða umhverfi til að ná sem bestum árangri.

Photo / Adit Deshpande bloggið Deep Learning Research Review Vika 2: Styrkþjálfun

Við ímyndum okkur lítið vélmenni í litlu herbergi. Við gerðum ekki forritið þessa vélmenni til að hreyfa eða ganga eða grípa til aðgerða. Það stendur bara þarna. Við viljum að það fari í horn í herberginu, færðu stig þegar þú kemur þangað og missir stig í hvert skipti sem þú ferð. Við vonum að vélmenni nái tilnefndum stað eins langt og hægt er og vélmenni getur fært í fjórar áttir: austur, suður, vestur og norður. Vélmenni eru í raun mjög einföld. Hvers konar hegðun er verðmætasta? Auðvitað er það tilnefndur staður. Til þess að fá mestu verðlaunin getum við aðeins látið vélmenni nota aðgerðir sem hámarka gildi.
Photo / Adit Deshpande bloggið Deep Learning Research Review Vika 2: Styrkþjálfun

Hver er verðmæti sprengingar AlphaZero á mannlegum skákleikjum?

AlphaGo Zero er bylting, er AlphaZero líka? Erlendir sérfræðingar greindu að síðarnefnda hafði fjórar byltingar í tækni:

Fyrst, AlphaGo Zero hámarkar í samræmi við vinningshlutfallið, telur aðeins sigur, neikvæð tvær tegundir af niðurstöðum; Og AlphaZero er samkvæmt niðurstöðum til að bera á hagræðingu, hefur tekið tillit til möguleika eins og jafntefli.

Í öðru lagi, AlphaGo Zero mun breyta stjórnunarstefnu til að styrkja nám, en AlphaZero mun ekki. Fara borð er staflað, meðan skák og skák eru ekki, svo AlphaZero er fjölhæfur.

Þrír, AlphaGo Zero mun halda áfram að velja besta útgáfuna af skiptihraða, en AlphaZero uppfærir aðeins tauga-net og dregur úr hættu á að þjálfa slæmar niðurstöður.

4. Hámarksstigarnir í leitarsviðinu AlphaGo Zero eru fengnar með Bayesian hagræðingu. Val mun hafa mikil áhrif á matarárangur. AlphaZero nýtir sömu hitastigið fyrir alla leiki, þannig að það er engin þörf á að gera sérstakar breytingar á leiknum.

Fjórða paradigm æðstu vélaþjálfunar arkitekt Tu Weiwei sagði geekagarður að AlphaZero hafi bylting og takmarkanir:

Í fyrsta lagi DeepMind Kjarni þessa ritgerðar er að sýna fjölhæfni AlphaGo Zero stefnu um skákvandamálið; Það er engin sérstök hápunktur í aðferðinni. AlphaZero er í raun útbreiddur útgáfa af AlphaGo Zero stefnu frá Fara til annarra svipaðra leikja, og slær yfir aðra tækni sem byggir borðspil AI. Þeir voru bestir áður.

Í öðru lagi er AlphaZero aðeins "alhliða" vél fyrir svipaðar borðspil sem hafa vel skilgreint og fullkomið upplýsingaleik. AlphaZero verður ennþá í erfiðleikum með flóknari önnur mál.

Fyrr þegar Ryukyu Sun Jian túlkaði AlphaGo Zero, sagði hann: "Fortified learning er hægt að framlengja á mörgum öðrum sviðum og það er ekki svo auðvelt að nota það í hinum raunverulega heimi. Til dæmis er hægt að nota styrkingarnám við rannsóknir á nýjum lyfjum og nýjum lyfjum. Uppbyggingin þarf að leita. Eftir leitina er það gert í læknisfræði. Þá er hvernig hægt er að prófa lyfið í raun. Þessi lokaða kostnaður er mjög dýr og mjög hægur. Það er mjög erfitt fyrir þig að gera það eins einfalt og að spila skák. "

Í þriðja lagi, AlphaZero þarf einnig mikið af tölvunarauðlindum til að leysa tiltölulega "einfaldar" skák vandamál, og kostnaðurinn er mjög hár. Samkvæmt Geek garður, DeepMind fram í blaðinu að þeir notuðu 5000 fyrstu kynslóð TPUs að búa til sjálf-leika leiki og notaði 64 önnur kynslóð TPUs að þjálfa tauga net. Áður sögðu sumir sérfræðingar að ákveðnum fjölmiðlum að þótt árangur TPU sé ótrúlegt mun kostnaðurinn vera mjög hár. Sumir fjárfestar alþjóðlegra áhættufjármagnssamtaka hafa einnig átt vini í þessum hring. Eitt af orðum er: "Þetta dýrt flís, ég lít bara á ... & quot;

Í fjórða lagi getur núverandi AlphaZero verið fjarlægð frá "Go God" á Go. Aðlaðandi fólk táknar ekki Guð. Núverandi net uppbygging og þjálfun tækni er ekki ákjósanlegur. Reyndar er það þess virði að læra frekar.

Þó að ákveðin takmörkun séu til staðar, eru umsóknaraðstæður þess virði að grafa. Það eru margar aðrar rannsóknarstofur þess virði að borga eftirtekt til í þá átt að rannsóknir sem gera véla nám almennt, svo sem AutoML, fólksflutninga, og svo framvegis. Á sama tíma, hvernig á að ná frekar almennri AI vél til lægri kostnaðar (computational kostnaður, léns sérfræðingur kostnaður) og gera AI verðmætara í hagnýtum forritum er einnig vert athygli.

Dripferðir eru sérstök svæði. Samkvæmt geek garður, DJs nota gervigreind tækni til að passa ökumenn og farþega frá óraunhæft beinni fjarlægð (hugsanlega yfir ám) til verkefna. Farþegar með minnstu tíma í bílum upplifðu mikla tæknilega hagræðingu. Þeir lentu einnig í vandræðum og vann hörðum höndum fyrir þá: Þegar þjálfað er gervigreindarkerfi er hægt að nota tækni eins og GPU klasa. Hins vegar, þegar ökumenn og farþegar eru samhæfðir, er krafist rauntímaferðar og stillingar minnka. Því hvernig á að tryggja nákvæmni er einnig rannsókn. Starfsmenn hafa verið að kanna málið.

En Tu Weiwei staðfesti viðleitni DeepMind í átt að "alhliða gervigreind".