Кодират ли Data Scientists?

Ръководството за кариера на Data Scientist на BrainStation може да ви помогне да направите първите стъпки към доходоносна кариера в науката за данни. Прочетете за преглед на това дали Data Scientists трябва да кодират, както и кои езици за програмиране са най-добри за науката за данни.

Станете специалист по данни

Говорете със съветник по обучение, за да научите повече за това как нашите учебни лагери и курсове могат да ви помогнат да станете специалист по данни.



Като щракнете върху Изпращане, вие приемате нашите Условия .



Изпращане

Не можа да се изпрати! Да опресните страницата и да опитате отново?

Научете повече за нашия учебен лагер за Data Science

Благодаря ти!

Ще се свържем скоро.



Вижте страницата на Data Science Bootcamp

С една дума, да. Код на Data Scientists. Тоест повечето специалисти по данни трябва да знаят как да кодират, дори ако това не е ежедневна задача. Както се казва често повтаряната поговорка, специалист по данни е човек, който е по-добър в статистиката от всеки софтуерен инженер и по-добър в софтуерното инженерство от всеки статистик.

Количеството програмиране (известно още като кодиране), което всъщност правят, обаче зависи от тяхната роля и инструментите, които използват. Няколко примера за нещата, които специалистите по данни могат да очакват да програмират:

  • Скриптове за анализ, обикновено на R или Python, с намерението да генерират полезни идеи.
  • Прототипи на дигитални продукти. Използвайки Python, целта обикновено е да се докаже ефикасността на нов продукт или функция, което позволява на разработчика да го изгради.
  • Производствен код. В по-малките компании специалистите по данни често носят пълна отговорност за това и може да се наложи да използват Ruby on Rails или Java (в допълнение към по-често използваните езици за наука за данни), за да постигнат това.

Какви езици за програмиране използват специалистите по данни?

Най-популярните езици за програмиране за Data Scientists са Python, R и SQL.



Нека разгледаме по-отблизо как Data Scientists използват тези езици за програмиране и други.

Python

С управляема крива на обучение и набор от библиотеки, които позволяват почти безкрайни приложения, Python е най-добрият език за програмиране по избор за много специалисти по данни, които оценяват неговата достъпност, лекота на използване и универсалност с общо предназначение. Всъщност проучването за дигитални умения на BrainStation от 2019 г. установи, че Python е най-често използваният инструмент от специалистите по данни като цяло.

След въвеждането си през 1991 г., Python изгради непрекъснато нарастващ брой библиотеки, посветени на изпълнението на общи задачи, включително предварителна обработка на данни, анализ, прогнози, визуализация и запазване. Междувременно библиотеките на Python като Tensorflow, Pandas и Scikit-learn позволяват по-усъвършенствано машинно обучение или приложения за дълбоко обучение. Запитани за предпочитанията им за Python пред R, Data Scientists цитират тенденцията на Python да бъде по-бърз от R и по-добър за манипулиране на данни.



Р

Безплатен език за програмиране с отворен код, който беше пуснат през 1995 г. като наследник на езика за програмиране S, R предлага първокласна гама от висококачествени специфични за домейна пакети, за да отговори на почти всяко приложение за статистически данни и визуализация на данни, което може да се нуждае от Data Scientist - включително невронни мрежи, нелинейна регресия, разширено рисуване и много други. Неговата библиотека за визуализация ggplot2 е мощен инструмент, а статичните графики на R могат да улеснят създаването на графики и математически символи и формули.

Да, Python има предимство в скоростта пред R (и R има по-стръмна крива на обучение от по-достъпния Python), но за специфични статистически цели и анализ на данни, широката гама от пакети, направени по поръчка, му дава леко предимство. Струва си да се отбележи, че за разлика от Python, R не е език за програмиране с общо предназначение - той е предназначен да се използва специално за статистически анализ.

SQL

SQL, или езикът за структурирани заявки, е в основата на съхраняването и извличането на данни от десетилетия. SQL е специфичен за домейна език, използван за управление на данни в релационни бази данни – и това е необходимо умение за специалистите по данни, които разчитат на SQL за актуализиране, запитване, редактиране и манипулиране на бази данни и извличане на данни. Въпреки че SQL не е толкова полезен като аналитичен инструмент, той е много ефективен и от решаващо значение за извличане на данни. Това прави SQL особено полезен инструмент за управление на структурирани данни, особено в големи бази данни. Тъй като SQL е основно умение, за щастие неговият декларативен език е доста четим и интуитивен.

Други езици за програмиране за наука за данни

Въпреки че Python, SQL и R със сигурност са най-добрите езици за програмиране за Data Scientists, някои от другите езици за програмиране, които могат да бъдат полезни за специалистите по данни, включват:

Java

Като един от най-старите езици с общо предназначение, използвани от Data Scientists, Java дължи своята полезност, поне отчасти, на своята популярност: много компании, особено големи международни компании, използваха Java за създаване на бекенд системи и приложения за настолни компютри, мобилни, или уеб. Умението с Java става все по-привлекателно благодарение на способността на Java да вплита код за производство на наука за данни директно в съществуваща база данни. Освен това е високо ценен за своята производителност, безопасност на типа и преносимост между платформи. Трябва да се спомене, че (наистина) приложението за изчисление на големи данни Hadoop работи на виртуалната машина на Java (JVM) — още една причина Java да е умение, което трябва да притежават специалистите по данни.

Стълбище

Лесен за използване и гъвкав, Scala е идеалният език за програмиране за работа с големи обеми данни. Комбинирайки обектно-ориентирано и функционално програмиране, Scala избягва грешки в сложни приложения със своите статични типове, улеснява широкомащабна паралелна обработка и, когато е сдвоена с Apache Spark, осигурява високопроизводителни клъстерни изчисления. Проектиран да работи на JVM, Scala може да изпълнява всичко, което изпълнява Java. Става особено популярен за хора, които изграждат сложни алгоритми или извършват мащабно машинно обучение. Scala има по-стръмна крива на обучение от някои други езици за програмиране, но огромната й потребителска база е доказателство за стойността на придържането към нея.

Джулия

Много по-нов език за програмиране от останалите в този списък, Джулия въпреки това направи силно впечатление благодарение на своята простота, четливост и светкавична производителност. Създадена за числен анализ и изчислителна наука, Джулия е особено полезна за решаване на сложни математически операции, което обяснява защо се превръща във финансовата индустрия. Той също така става широко известен като популярен език за изкуствен интелект, една от причините много големи банки да използват Джулия за анализ на риска. Въпреки това, тъй като езикът е сравнително млад, на Джулия липсва разнообразието от пакети, предлагани от R или Python - засега.

MATLAB

Широко използван в статистическия анализ, този собствен език за цифрови изчисления е полезен за специалистите по данни, занимаващи се с математически нужди от високо ниво, включително трансформации на Фурие, обработка на сигнали, обработка на изображения и матрична алгебра. MATLAB се използва широко в индустрията и академичните среди благодарение на интензивната си математическа функционалност. MATLAB може също да помогне за намаляване на времето, прекарано в предварителна обработка на данни и да ви помогне да намерите най-добрите модели за машинно обучение, независимо от вашето ниво на опит. Той също така разполага с някои страхотни вградени възможности за начертаване, което го прави ценен инструмент за визуализация на данни.

Kategori: Новини