Nais na Maging isang Scientist ng Data? Alamin ang Isa sa mga Wika

Magpatuloy sa agham ng data sa pamamagitan ng pag-alam sa isa sa mga kapaki-pakinabang na wika

Ang bawat tao'y nagnanais na ang kanilang karera ay nasa mataas na demand-dahil ang pangangailangan ay sinasalin sa mahusay na suweldo at walang kakulangan ng trabaho. Sa mga araw na ito, ang malaking espasyo ng data ay puno ng ganitong uri ng trabaho, dahil ang mga kumpanya ng lahat ng sukat ay kailangang mangolekta at pag-aralan ang impormasyon upang makagawa ng mga pagpapasya at mga hula (at makakuha ng mga resulta).

Iyon ay tiyak kung ano ang ginagawa ng mga siyentipiko ng data: matuklasan ang impormasyon, gumawa ng mga koneksyon, gumawa ng mga visualization ng data, at tulungan ang mga kumpanya na gumana nang mahusay.

At ang masusing pag-unawa sa mga tamang programming language ay mahalaga para sa pagbibigay-kahulugan sa mga istatistika at nagtatrabaho sa mga database.

Ayon sa KDnuggets, 91% ng data ng mga siyentipiko ang gumagamit ng sumusunod na apat na wika.

Wika 1: R

Ang R ay isang istatistikang nakatuon sa istatistika sa mga miners ng data. Ito ay bukas-pinagmulan, pagpapatupad ng object-oriented ng S, at hindi masyadong mahirap matutunan.

Kung nais mong malaman kung paano bumuo ng statistical software, R ay isang magandang wika na malaman. Pinapayagan din nito na manipulahin mo at graphically ipakita ang data.

Bilang bahagi ng kanilang programa sa Pagtuturo ng Data Science, nag-aalok ang Coursera ng isang klase sa R ​​na hindi lamang nagtuturo sa iyo kung paano mag-program sa wika kundi pati na rin kung paano ito ilalapat sa konteksto ng agham / pagtatasa ng data.

Wika 2: SAS

Tulad ng R, SAS ay pangunahing ginagamit para sa statistical analysis. Ito ay isang makapangyarihang kasangkapan para sa pagbabago ng data mula sa mga database at mga spreadsheet sa nababasa na mga format (tulad ng mga dokumentong HTML at PDF) pati na rin ang higit pang mga visual na mga talahanayan at mga graph.

Orihinal na binuo ng mga mananaliksik na akademiko, naging isa sa mga pinaka-popular na tool sa analytics sa buong mundo para sa mga kumpanya at organisasyon ng lahat ng uri. Ito ay higit pa sa isang malaking uri ng korporasyon ng software at hindi kadalasang ginagamit ng mas maliit na mga kumpanya o mga indibidwal na nagtatrabaho sa kanilang sarili.

Ang mga mapagkukunan para sa pag-aaral ng SAS ay nakalista sa dokumentong ito .

Ang wika ay hindi bukas-pinagmulan, kaya malamang na hindi mo magagawang ituro ang iyong sarili nang libre.

Wika 3: Python

Kahit na ang R at SAS ay karaniwang naisip ng "ang malaking dalawang" sa mundo ng analytics, ang Python ay kamakailan-lamang ay naging isang kalaban din. Ang isa sa mga pangunahing perks nito ay ang iba't ibang uri ng mga aklatan (eg Pandas, NumPy, SciPi, atbp.) At mga statistical function.

Yamang ang Python (tulad ng R) ay isang bukas na pinagmulang wika, mabilis na idinagdag dito ang mga update. (Sa binili na mga programa tulad ng SAS, kailangan mong maghintay para sa susunod na release ng bersyon.)

Ang isa pang kadahilanan upang isaalang-alang ay ang Python ay marahil ang pinakamadaling matutunan, dahil sa pagiging simple nito at ang malawak na kakayahang magamit ng mga kurso at mga mapagkukunan dito. Ang website na ito ay isang magandang lugar upang magsimula.

Maaari ka ring makahanap ng isang buong listahan ng mga materyales sa pag-aaral ng Python dito.

Wika 4: SQL

Sa ngayon kami ay naghahanap sa mga wika na nasa parehong pamilya at (higit pa o mas mababa) ay may parehong mga function. Ang SQL, na kumakatawan sa "Nakabalangkas na Wika ng Query," ay kung saan ang mga pagbabagong iyon. Ang wikang ito ay walang kinalaman sa mga istatistika; ito ay nakatuon sa paghawak ng impormasyon sa mga pamanggit na database.

Ito ay ang pinakalawak na ginagamit na wika ng database at bukas na pinagmulan, kaya ang mga siyentipikong data na siyentipiko ay tiyak na hindi dapat laktawan ito.

Ang pag-aaral ng SQL ay dapat na magbigay sa iyo upang lumikha ng SQL database, pamahalaan ang data sa loob ng mga ito, at gamitin ang mga may-katuturang pag-andar. Nag-aalok ang Udemy ng isang kurso sa pagsasanay na sumasaklaw sa lahat ng mga pangunahing kaalaman at maaaring makumpleto nang pantay-pantay mabilis at painlessly.

Konklusyon

Sa pinakamaliit, dapat mong matuto ng SQL at pumili ng hindi bababa sa isa sa mga istatistika ng wika. Ngunit kung mayroon kang oras (at sa kaso ng SAS, pera) at nais na talagang hanggang sa iyong marketability, walang saysay na hindi mo maaaring matutunan ang lahat ng apat na!

Huwag magmadali, kumuha ng maraming pagsasanay, ihanda ang iyong mga kasanayan-at tamasahin ang seguridad sa trabaho.