Miksi sinun pitäisi käyttää Jupyter-kannettavia
Miksi sinun pitäisi käyttää Jupyter-kannettavia
Koneoppiminen
Mallinnus
jupyter
lähettäjä
Daniel Gutierrez, ODSC
23. kesäkuuta 2020
Daniel Gutierrez, ODSC
jupyter
4
Tämä artikkeli tarjoaa korkean tason yleiskatsauksen Project Jupyterista ja laajalti suositusta Jupyter-kannettavien teknologiasta. Yleinen viesti, jonka haluaisin...
Tämä artikkeli tarjoaa korkean tason yleiskatsauksen
Projekti Jupyter
ja laajalti suosittu Jupyter-kannettavien tekniikka. Yleinen viesti, jonka haluan välittää, on se, miksi sinun pitäisi käyttää Jupyteriä datatieteen projekteissasi. Olen käyttänyt sitä kaikessa Python-koneoppimistyöhöni ja olen melko vaikuttunut ja tyytyväinen. Se on loistava ympäristö kehittää koodia ja myös viestiä tuloksista.
Projekti Jupyter
on voittoa tavoittelematon organisaatio, joka on luotu "kehittämään avoimen lähdekoodin ohjelmistoja, avoimia standardeja ja palveluita vuorovaikutteiseen laskemiseen kymmenillä ohjelmointikielillä". Toisen perustajan Fernando Pérezin vuonna 2014 IPythonista irrottama Project Jupyter tukee suoritusympäristöjä useilla kymmenillä kielillä.
Nimi Jupyter valittiin tuomaan mieleen tieteen ja tieteellisen menetelmän ideat ja perinteet. Lisäksi Jupyterin tukemat ydinohjelmointikielet ovat Julia, Python ja R. Vaikka nimi Jupyter ei ole suora lyhenne näille kielille (Julia (Ju), Python (Py) ja R), se muodostaa vakaan linjauksen niitä.
Jupyter-muistikirjat
Jupyter Notebook on avoimen lähdekoodin verkkosovellus, jonka avulla datatieteilijät voivat luoda ja jakaa asiakirjoja, jotka yhdistävät reaaliaikaisen koodin, yhtälöitä, laskennallisen tulosteen, visualisoinnin ja muut multimediaresurssit sekä selittävän tekstin yhdeksi asiakirjaksi. Voit käyttää Jupyter-muistikirjoja erilaisiin datatieteen tehtäviin, kuten tietojen puhdistamiseen ja muuntamiseen, numeeriseen simulointiin, tutkivaan data-analyysiin, tietojen visualisointiin, tilastolliseen mallinnukseen, koneoppimiseen, syväoppimiseen ja muihin.
Jupyter-muistikirja tarjoaa sinulle helppokäyttöisen, interaktiivisen datatieteen ympäristön, joka ei toimi vain integroituna kehitysympäristönä (IDE), vaan myös esittely- tai opetustyökaluna. Jupyter on tapa työskennellä Pythonin kanssa virtuaalisen "muistikirjan" sisällä, ja sen suosio kasvaa tietotieteilijöiden keskuudessa suurelta osin joustavuuden ansiosta. Se antaa sinulle tavan yhdistää koodia, kuvia, piirroksia, kommentteja jne. "datatieteen prosessin" vaiheen mukaisesti. Lisäksi se on vuorovaikutteisen laskennan muoto, ympäristö, jossa käyttäjät suorittavat koodia, näkevät mitä tapahtuu, muokkaavat ja toistavat eräänlaisessa iteratiivisessa keskustelussa datatieteilijän ja datan välillä. Tietotutkijat voivat myös käyttää muistikirjoja luodakseen opetusohjelmia tai interaktiivisia oppaita ohjelmistoilleen. Tässä lyhyt ohje
video
auttaaksesi Juypterin käytön aloittamisessa.
Jupyter-muistikirjassa on kaksi osaa. Ensin datatieteilijät syöttävät ohjelmointikoodin tai tekstin suorakaiteen muotoisiin "soluihin" etupään verkkosivulla. Selain välittää sitten koodin tausta "ytimelle", joka suorittaa koodin ja palauttaa tulokset. On luotu monia Jupyter-ytimiä, jotka tukevat kymmeniä ohjelmointikieliä. Ytimen ei tarvitse sijaita datatieteilijän tietokoneella. Muistikirjat voivat toimia myös pilvessä, kuten Googlen Colaboratory-projekti. Voit jopa käyttää Jupyteria ilman verkkoyhteyttä suoraan omalla tietokoneellasi ja suorittaa työsi paikallisesti.
Muut Jupyter-työkalut
JupyterLabia (julkaistu beetaversiona tammikuussa 2018) pidetään yleisesti Project Jupyterin seuraavan sukupolven käyttöliittymänä, joka tarjoaa kaikki klassisen Jupyter Notebookin tutut rakennuspalikat (muistikirja, pääte, tekstieditori, tiedostoselain, monipuoliset tulosteet) jne.) joustavassa ja tehokkaammassa käyttöliittymässä
.
Jupyter Labin perusideana on tuoda kaikki klassisen muistikirjan rakennuspalikat sekä joitain uusia asioita saman katon alle. JupyterLab laajentaa tuttua muistikirjan metaforaa vedä ja pudota -toiminnoilla sekä tiedostoselaimilla, tietojen katseluohjelmilla, tekstieditorilla ja komentokonsolilla. Tavallinen Jupyter-muistikirja määrittää kullekin muistikirjalle oman ytimen, kun taas JupyterLab luo laskentaympäristön, joka mahdollistaa näiden komponenttien jakamisen. Siten datatieteilijä voisi tarkastella muistikirjaa yhdessä ikkunassa, muokata vaadittua datatiedostoa toisessa ja kirjata kaikki suoritetut komennot kolmanteen – kaikki yhdessä verkkoselaimen käyttöliittymässä.
Esimerkki JupyterLabista
Kaksi lisätyökalua ovat parantaneet Jupyterin käytettävyyttä. Yksi on JuputerHub, palvelu, jonka avulla laitokset voivat tarjota Jupyter-kannettavia suurille käyttäjäryhmille. Toinen on Binder, avoimen lähdekoodin palvelu, jonka avulla datatieteilijät voivat käyttää GitHubissa olevia Jupyter-muistikirjoja verkkoselaimessa ilman ohjelmiston tai ohjelmointikirjastojen asentamista.
Jupyteria käyttävät alustat
Jupyterin suosio ylittää sen käytön erillisenä työkaluna, vaan se on myös integroitu useisiin tietotieteilijöille tuttuihin alustoihin.
Anaconda on valmiiksi pakattu Python-jakelu, joka sisältää useita Python-moduuleja ja -paketteja, mukaan lukien Jupyter. Itse asiassa Anaconda on suositeltava jakelu Jupyteria asennettaessa. Näin käytän Jupyteria, koska nautin Anaconda Navigatorin käytön tarjoamasta joustavuudesta ja mahdollisuudesta määritellä useita erilaisia "ympäristöjä" erilaisilla kehyksillä, kuten TensorFlow, erilaiset Python-versiot jne.
Kaggle-ytimet
Ovat pääosin Jupyter-kannettavia, jotka toimivat selaimessa, mikä tarkoittaa, että voit säästää paikallisen ympäristön luomisen vaivaa, kun sinulla on Jupyter-muistikirjaympäristö selaimessasi ja käytä sitä missä tahansa päin maailmaa, kun sinulla on Internet-yhteys.
Colab
muistikirjat
ovat Jupyterit
muistikirjat, joita isännöi Google Colab. Colabin avulla käyttäjät voivat tehdä yhteistyötä ja suorittaa koodia, joka hyödyntää Googlen pilviresursseja eli grafiikkasuoritteita, TPU:ita ja tallentaa asiakirjoja Google Driveen.
An
Amazon SageMaker
muistikirjan ilmentymä on täysin hallittu koneoppimisen EC2-laskentaesiintymä, joka suorittaa Jupyter Notebook -sovelluksen. Muistikirjan esiintymän avulla voit luoda ja hallita Jupyter-muistikirjoja, joiden avulla voit valmistella ja käsitellä tietoja sekä kouluttaa ja ottaa käyttöön koneoppimismalleja.
Lopuksi niitä on monia
esimerkkejä
GitHubissa saatavilla olevista Jupyter-muistikirjoista (niiden tarkistaminen on hyvä tapa oppia, mikä on mahdollista). Julkisia muistikirjoja on nykyään yli 3 miljoonaa, kun vuonna 2015 niitä oli noin 200 000.
Johtopäätös
Datatieteilijöille Jupyter on viime vuosina noussut de facto standardiksi. Siirtyminen alustalle on luultavasti nopein viimeaikainen muisti. Suurin osa arXiv.prg-preprint-palvelimella ilmestyvistä ML/DL-tutkimuspapereista viittaa Jupyter-kannettaviin, jotka on integroitu hyvin tutkimukseen käyttämällä syväoppimiskehyksiä, kuten TensorFlow ja PyTorch. Jupyterin kauneus on siinä, että se luo laskennallisen narratiivin, asiakirjan, jonka avulla tutkijat voivat täydentää koodiaan ja tietojaan analyysillä, hypoteesilla ja olettamuksilla. Tietojen tutkijoille tämä muoto voi edistää luovaa tutkimista. Jos et ole vielä tutustunut Jupyter-teknologiaan, on korkea aika tehdä se!
Haluatko tietää lisää koneoppimisesta? Katso nämä
Ai+ -harjoitukset
:
Koneoppimisen perusteet: Lineaarinen algebra
Tämä Machine Learning Foundations -sarjan ensimmäinen osa on useimpien koneoppimislähestymistapojen ydin. Yhdistelemällä teoriaa ja vuorovaikutteisia esimerkkejä kehität ymmärrystä siitä, kuinka lineaarista algebraa käytetään ratkaisemaan tuntemattomia arvoja suuriulotteisissa tiloissa, jolloin koneet voivat tunnistaa kuvioita ja tehdä ennusteita.
Valvottu koneoppimissarja
Tiedon merkintä mittakaavassa: aktiivinen ja osittain valvottu oppiminen Pythonissa
Gradient Boosting -mallien selittäminen ja tulkitseminen koneoppimisessa
ODSC West 2020: Selkeys koneoppimisen elinkaaren ajan
Jatkuvasti käytössä oleva koneoppiminen
Tietoja kirjoittajasta
Daniel Gutierrez, ODSC
Daniel D. Gutierrez on datatieteilijä, joka on työskennellyt datan parissa kauan ennen kuin ala tuli muotiin. Teknologiatoimittajana hän pitää mielellään tällä nopeatempoisella toimialalla. Daniel on myös kouluttaja, joka on opettanut yliopistotasolla datatiedettä, koneoppimista ja R-luokkia. Hän on kirjoittanut neljä tietokonealan kirjaa tietokanta- ja datatieteen teknologiasta, mukaan lukien viimeisin otsikkonsa "Machine Learning and Data Science: An Introduction to Statistical Learning Methods with R." Daniel on suorittanut matematiikan ja tietojenkäsittelytieteen BS-tutkinnon UCLA:sta.
1
Latest: 10 syytä, miksi datatieteilijät rakastavat Jupyter-muistikirjoja
Next: Miksi Jupyter Notebook on niin suosittu datatieteilijöiden keskuudessa