AlphaGo Zero to ulepszona wersja oprogramowania AlphaGo go wyprodukowana przez firmę DeepMind, przedstawiona w artykule w czasopiśmie Nature du19 października 2017 r. Jest to wersja opracowana bez pomocy danych z gier rozgrywanych między ludźmi lub wiedzy innej niż zasady gry.Ta wersja jest silniejsza niż jakakolwiek poprzednia wersja. Grając przeciwko sobie, AlphaGo Zero przekroczyło siłę wersji AlphaGo meczu z Lee Se-dolem w ciągu trzech dni, wygrywając 100 gier do 0, osiągając poziom AlphaGo Master w 21 dni i pokonując wszystkie stare wersje w 40 dni.
W grudzień 2017, O ogólnym wersja AlphaGo Zero, nazwanego AlphaZero , pokazał wersję AlphaGo Zero mający 3 dni nauki w 60 gier w 40. 8 godzin praktyki, to lepiej niż wersja AlphaGo w meczu przeciwko Lee Se-Dol na Skala Elo , a także program szachowy z najwyższej półki Stockfish i program Shogi Elmo.
Sieć neuronowa AlphaGo Zero została przeszkolona przy użyciu TensorFlow , działającego z 64 procesorami graficznymi (GPU) i 19 procesorami (CPU) skonfigurowanymi jako serwery. Do wnioskowania wykorzystano tylko cztery procesory przeznaczone do uczenia maszynowego ( jednostka przetwarzająca tensor TPU ). Początkowo sieć neuronowa nie wiedziała nic poza regułami gry . W przeciwieństwie do poprzednich wersji AlphaGo, AlphaGo Zero, zamiast otrzymywać kilka sytuacji zaprogramowanych do rozpoznawania niektórych nietypowych pozycji, chwyta tylko planszę. AI jest zaangażowana w uczenie się wzmacniania , grając przeciwko niemu - nawet do czasu, gdy będzie w stanie przewidzieć własne ruchy i jak wpływają one na wynik gry. W ciągu pierwszych trzech dni AlphaGo Zero rozegrało 4,9 miliona meczów przeciwko sobie w krótkich odstępach czasu. Okazało się, że rozwinął umiejętności potrzebne do pokonania najlepszych ludzkich graczy w ciągu kilku dni, podczas gdy poprzednie wersje AlphaGo wymagały miesięcy treningu, aby osiągnąć ten sam poziom.
Dla porównania, naukowcy stworzyli również wersję AlphaGo Zero, korzystając z gier granych przez ludzi, i odkryli, że uczyła się szybciej, ale w rzeczywistości z gorszą długoterminową wydajnością. DeepMind przedstawił swoje pierwsze odkrycia Nature wkwiecień 2017, artykuł opublikowany w październik 2017.
Uczenie się sztucznej inteligencji bez danych od ludzkich ekspertów ma istotne konsekwencje dla rozwoju nadludzkiej, utalentowanej sztucznej inteligencji, ponieważ „dane ekspertów są często drogie, zawodne lub po prostu niedostępne”. Demis Hassabis , współzałożyciel i dyrektor DeepMind, powiedział, że AlphaGo Zero urosło w siłę, ponieważ „nie jest już ograniczone ograniczeniami ludzkiej wiedzy”. Według Davida Silvera z DeepMind możliwe jest uogólnienie tych autonomicznych algorytmów uczenia się
Koszt sprzętu pojedynczego systemu AlphaGo Zero, w tym komponentów niestandardowych, oszacowano na 25 milionów dolarów.
Według Hassabisa algorytmy AlphaGo będą prawdopodobnie najbardziej przydatne w obszarach wymagających szerokiego zakresu możliwości, takich jak fałdowanie białek czy precyzyjna symulacja reakcji chemicznych. Prawdopodobnie jest mniej przydatny w obszarach trudnych do zasymulowania, takich jak nauka prowadzenia samochodu. - powiedział DeepMindpaździernik 2017, rozpoczęli już prace nad zwijaniem białek w nowej wersji AlphaGo i ogłosili zbliżającą się publikację nowych wyników.
Oren Etzioni z Allen Institute for Artificial Intelligence nazwał AlphaGo Zero „bardzo imponującym wynikiem technicznym zarówno pod względem ich zdolności do wykonania tego zadania - jak i ich zdolności do trenowania systemu w 40 dni, w czterech TPU” . The Guardian mówił o „wielkim przełomie w dziedzinie sztucznej inteligencji”, cytując Eleni Vasilaki z University of Sheffield i Toma Mitchella z Carnegie Mellon University , którzy pochwalili odpowiednio osiągnięcie i „niezwykłe osiągnięcie techniczne” . Mark Pesce z University of Sydney opisał AlphaGo Zero jako „wielki przełom technologiczny, który przenosi nas na„ niezbadane terytorium ”.
Gary Marcus, psycholog z New York University , ostrzegł, że o ile wiemy, AlphaGo może zawierać „ukrytą wiedzę programistów na temat budowania maszyn do grania w gry. Gry takie jak go” i będą musiały zostać przetestowane w innych dziedzinach zanim upewni się, że jego podstawowa architektura jest skuteczna w czymkolwiek innym niż ta gra. DeepMind broni się, zapewniając, że „to podejście można uogólnić na dużą liczbę domen” .
Zgodnie z Korei Południowej profesjonalny przejdź gracza Lee SEDOL , „Poprzednia wersja AlphaGo nie była doskonała, i wierzę, że dlatego AlphaGo Zero zostało stworzone . ” Dodał, że trzeba będzie poczekać i zobaczyć rozwój, ale będzie to miało wpływ na młodych graczy go. Dla Mok Jin-seoka , który kieruje reprezentacją Korei Południowej, gracze Go na całym świecie zaczęli już naśladować style gry z poprzednich wersji AlphaGo, aby czerpać nowe pomysły i ma nadzieję, że nowe kształty wyjdą z AlphaGo Zero . Mok Jin-seok uważa, że AlphaGo Zero gra bardziej jak człowiek niż jego poprzednicy.
Chiński zawodowy gracz Ke Jie uważa, że umiejętności samouczenia się nowego programu są lepsze, a ludzka obecność jest zbędna.
Wersje | Używany ekwipunek | Elo | mecze |
---|---|---|---|
AlphaGo Fan | 176 GPU , dystrybuowane | 3 144, | 5: 0 przeciwko Fan Hui |
AlphaGo Lee | 48 TPU, dystrybuowane | 3,739 | 4: 1 przeciwko Lee Sedolowi |
AlphaGo Master | 4 TPU na jednym komputerze | 4 858, | 60: 0 przeciwko profesjonalnym graczom; w
Szczyt Future of Go |
AlphaGo Zero (40 dni) | 4 TPU na jednym komputerze | 5 185, | 100: 0 przeciwko AlphaGo Lee
89:11 kontra AlphaGo Master |
AlphaZero (34 godziny) | 4 TPU na jednym komputerze | ~ 5500 (szac.) | 60:40 vs. AlphaGo Zero |