Защо трябва да използвате Jupyter Notebooks
Защо трябва да използвате Jupyter Notebooks
Машинно обучение
Моделиране
юпитер
публикувано от
Даниел Гутиерес, ODSC
23 юни 2020 г
Даниел Гутиерес, ODSC
юпитер
4
Тази статия предоставя преглед на високо ниво на Project Jupyter и широко популярната технология за преносими компютри Jupyter. Основното послание, което бих искал...
Тази статия предоставя общ преглед на
Проект Юпитер
и широко популярната технология за преносими компютри Jupyter. Основното послание, което бих искал да предам, е защо трябва да използвате Jupyter за вашите проекти за наука за данни. Използвам го за цялата си работа по машинно обучение на Python и съм доста впечатлен и доволен. Това е чудесна среда за разработване на код, както и за съобщаване на резултати.
Проект Юпитер
е организация с нестопанска цел, създадена да „разработва софтуер с отворен код, отворени стандарти и услуги за интерактивни изчисления в десетки езици за програмиране“. Отделен от IPython през 2014 г. от съоснователя Фернандо Перес, Project Jupyter поддържа среди за изпълнение на няколко десетки езика.
Името „Юпитер“ е избрано, за да напомня за идеите и традициите на науката и научния метод. Освен това основните езици за програмиране, поддържани от Jupyter, са Julia, Python и R. Въпреки че името Jupyter не е пряк акроним за тези езици (Julia (Ju), Python (Py) и R), то установява твърдо съответствие с тях.
Преносими компютри Jupyter
Jupyter Notebook е уеб приложение с отворен код, което позволява на специалистите по данни да създават и споделят документи, които интегрират код в реално време, уравнения, изчислителни резултати, визуализация и други мултимедийни ресурси, както и обяснителен текст в един документ. Можете да използвате Jupyter Notebooks за различни задачи в областта на науката за данни, включително почистване и трансформиране на данни, числена симулация, проучвателен анализ на данни, визуализация на данни, статистическо моделиране, машинно обучение, дълбоко обучение и др.
A Jupyter Notebook ви предоставя лесна за използване интерактивна научна среда за данни, която не работи само като интегрирана среда за разработка (IDE), но и като презентационен или образователен инструмент. Jupyter е начин за работа с Python във виртуален „бележник“ и става все по-популярен сред специалистите по данни до голяма степен поради своята гъвкавост. Той ви дава начин да комбинирате код, изображения, графики, коментари и т.н., в съответствие със стъпката на „процеса на науката за данни“. Освен това, това е форма на интерактивно изчисление, среда, в която потребителите изпълняват код, виждат какво се случва, променят и повтарят в един вид итеративен разговор между специалиста по данни и данните. Учените по данни могат също да използват преносими компютри, за да създават уроци или интерактивни наръчници за своя софтуер. Ето кратка инструкция
видео
за да ви помогне да започнете с Juypter.
Бележникът Jupyter има два компонента. Първо, специалистите по данни въвеждат програмен код или текст в правоъгълни „клетки“ в предната уеб страница. След това браузърът предава кода на задното „ядро“, което изпълнява кода и връща резултатите. Създадени са много ядра на Jupyter, поддържащи десетки езици за програмиране. Не е необходимо ядрата да се намират на компютъра на специалиста по данни. Преносимите компютри също могат да работят в облака, като например проекта Collaboratory на Google. Можете дори да стартирате Jupyter без достъп до мрежата направо на собствения си компютър и да изпълнявате работата си локално.
Други инструменти на Jupyter
JupyterLab (първоначално пуснат в бета версия през януари 2018 г.) обикновено се разглежда като потребителски интерфейс от следващо поколение за Project Jupyter, предлагащ всички познати градивни елементи на класическия Jupyter Notebook (бележник, терминал, текстов редактор, файлов браузър, богати резултати и т.н.) в гъвкав и по-мощен потребителски интерфейс
.
Основната идея на Jupyter Lab е да събере всички градивни елементи, които са в класическия бележник, плюс някои нови неща, под един покрив. JupyterLab разширява познатата метафора на бележника с функционалност за плъзгане и пускане, както и файлови браузъри, прегледи на данни, текстови редактори и командна конзола. Докато стандартният преносим компютър на Jupyter присвоява на всеки преносим компютър собствено ядро, JupyterLab създава изчислителна среда, която позволява тези компоненти да бъдат споделяни. По този начин специалистът по данни може да преглежда бележник в един прозорец, да редактира необходимия файл с данни в друг и да регистрира всички изпълнени команди в трети – всичко това в рамките на един интерфейс на уеб браузър.
Пример за JupyterLab
Два допълнителни инструмента обогатиха използваемостта на Jupyter. Едната е JuputerHub, услуга, която позволява на институциите да предоставят преносими компютри Jupyter на големи групи от потребители. Другата е Binder, услуга с отворен код, която позволява на специалистите по данни да използват преносими компютри на Jupyter в GitHub в уеб браузър, без да се налага да инсталират софтуера или каквито и да било програмни библиотеки.
Платформи, използващи Jupyter
Популярността на Jupyter надхвърля използването му като самостоятелен инструмент, той също е интегриран с редица платформи, познати на специалистите по данни.
Anaconda е предварително пакетирана дистрибуция на Python, която съдържа редица модули и пакети на Python, включително Jupyter. Всъщност Anaconda е препоръчителната дистрибуция при инсталиране на Jupyter. Ето как използвам Jupyter, защото се наслаждавам на гъвкавостта, предоставена от използването на Anaconda Navigator и възможността да дефинирам редица различни „среди“ с различни рамки като TensorFlow, различни версии на Python и т.н.
Ядра на Kaggle
са по същество преносими компютри на Jupyter, работещи в браузъра, което означава, че можете да си спестите неудобството при настройване на локална среда, като имате среда на преносим компютър Jupyter в браузъра си и я използвате навсякъде по света, където имате интернет връзка.
Colab
тетрадки
са Юпитер
бележници, които се хостват от Google Colab. Colab позволява на потребителите да си сътрудничат и да изпълняват код, който използва облачните ресурси на Google, т.е. GPU, TPU и запазване на документи в Google Drive.
Ан
Amazon SageMaker
екземплярът на бележника е напълно управляван изчислителен екземпляр EC2 за машинно обучение, който изпълнява приложението Jupyter Notebook. Вие използвате екземпляра на бележника, за да създавате и управлявате бележници на Jupyter, които можете да използвате за подготовка и обработка на данни и за обучение и внедряване на модели за машинно обучение.
Накрая има много
примери
от бележниците на Jupyter, налични в GitHub (прегледът им е добър начин да научите какво е възможно). Днес има повече от 3 милиона публични тетрадки, спрямо ~200 000 през 2015 г.
Заключение
За учените по данни Jupyter се появи през последните години като де факто стандарт. Миграцията е може би най-бързата в платформа в скорошната памет. По-голямата част от научните статии за ML/DL, които се появяват на сървъра за предпечат на arXiv.prg, се позовават на преносими компютри Jupyter, които са добре интегрирани в изследването, използвайки рамки за дълбоко обучение като TensorFlow и PyTorch. Красотата на Jupyter е, че създава изчислителен разказ, документ, който позволява на изследователите да допълват своя код и данни с анализи, хипотези и предположения. За специалистите по данни този формат може да стимулира творческото изследване. Ако все още не сте разгледали технологията на Jupyter, крайно време е да го направите!
Интересно ли ви е да научите повече за машинното обучение? Вижте тези
Обучителни сесии за Ai+
:
Основи на машинното обучение: линейна алгебра
Тази първа част от поредицата Основи на машинното обучение е темата в основата на повечето подходи за машинно обучение. Чрез комбинацията от теория и интерактивни примери ще развиете разбиране за това как линейната алгебра се използва за решаване на неизвестни стойности в пространства с големи размери, като по този начин позволява на машините да разпознават модели и да правят прогнози.
Поредица за контролирано машинно обучение
Анотиране на данни в мащаб: активно и полуконтролирано обучение в Python
Обяснение и тълкуване на модели за усилване на градиент в машинното обучение
ODSC West 2020: Разбираемост през целия жизнен цикъл на машинното обучение
Непрекъснато внедрявано машинно обучение
Всичко за автора
Даниел Гутиерес, ODSC
Даниел Д. Гутиерес е практикуващ учен по данни, който работи с данни много преди областта да дойде на мода. Като технологичен журналист той обича да следи пулса си за тази бързо развиваща се индустрия. Даниел също е преподавател, като преподава наука за данни, машинно обучение и R класове на университетско ниво. Той е автор на четири книги за компютърната индустрия за база данни и технология за наука за данни, включително най-новото му заглавие „Машинно обучение и наука за данни: Въведение в статистическите методи на обучение с R.“ Даниел има бакалавърска степен по математика и компютърни науки от UCLA.
1
Latest: 10 причини учените по данни да обичат тетрадките на Jupyter
Next: Защо Jupyter Notebook е толкова популярен сред специалистите по данни