Back to Question Center
0

Semalt - Conas Leathanaigh Ghréasáin a Scrapeáil?

1 answers:
Is leabharlann Python í anraith anraith

Álainne a úsáidtear go forleathan chun leathanaigh ghréasáin a scraipeadh trí chrann banna a chruthú ó dhoiciméid XML agus HTML. Úsáidtear go forleathan grinnscrúdú Gréasáin, teicníc a bhaineann le sonraí a bhaint as láithreáin ghréasáin agus leathanaigh, i réimsí anailíse sonraí agus bainistíochta. I bhformhór na gcásanna, tá réamhriachtanas sa teanga cláir Python san eolaíocht sonraí.

Python 3 Tá uirlisí scrapála agus modúil is féidir leat iarratas a dhéanamh chuig do thionscadal bainistíochta sonraí. Faoi láthair á reáchtáil mar Beautiful Soup 4, tá an modúl seo comhoiriúnach le Python 3 agus Python 2. 7 - gemeinde horgen entsorgung uster. Is féidir le modúl álainn anraith 4 a bheith in ann crann páirceála a chruthú le haghaidh anraith clib neamh-dúnta. Sa teagasc seo, beidh tú ag foghlaim conas an leathanach a scrapeadh agus na sonraí scríofa a scríobh chuig comhad CSV.

Tosú

Chun tús a chur, cuir freastalaí nó timpeallacht códaithe Python áitiúil-bhunaithe ar do ríomhaire. Ba chóir duit modúl Álainn Anraith agus Iarratais a shuiteáil freisin ar do mheaisín. Tá réamhriachtanas riachtanach freisin maidir le hobair leis an dá mhodúl. Tá buntáiste breise freisin maidir le clogáil agus struchtúr HTML.

Do chuid sonraí a thuiscint

Sa chomhthéacs seo, bainfear úsáid as sonraí fíor ón nGailearaí Náisiúnta Ealaíne chun cabhrú leat tuiscint a fháil ar conas a úsáideann Beautiful Soup 4. Cuimsíonn Gailearaí Ealaíne Náisiúnta 120,000 píosa atá déanta ag thart ar 13,000 ealaíontóir. Tá an Ealaín bunaithe i Washington D. C, Stáit Aontaithe Mheiriceá.

Níl an t-eastóscadh sonraí Gréasáin le Beautiful Soup go casta. Mar shampla, má dhíríonn tú ar litir Z, marc agus tabhair faoi deara an chéad ainm ar an liosta. Sa chás seo, is é an chéad ainm Zabaglia, Niccola. Le haghaidh comhsheasmhachta, léirigh líon na leathanach agus ainm an ealaíontóra deiridh ar an leathanach sin.

Conas iarratas a allmhairiú agus leabharlann anraith anlainn

Chun leabharlanna a allmhairiú, do thimpeallacht cláir Python 3 a ghníomhachtú. Seiceáil chun a chinntiú go bhfuil tú san eolaire céanna le do thimpeallacht cláir. Rith an t-ordú seo a leanas le tosú. my_env / bin / gníomhachtaigh.

Cruthaigh comhad nua agus tús a allmhairiú leabharlanna Anraith Álainn agus Iarratais. Tabharfaidh leabharlann iarratais deis duit HTTP a úsáid laistigh de do chláir Python i bhformáidí inléite. Ar an láimh eile, oibríonn anraith álainn chun leathanaigh a scrapáil go tapa. Bain úsáid as bs4 chun anraith álainn a iompórtáil.

Conas leathanach gréasáin a bhailiú agus a pháirceáil

Bain úsáid as Iarratais bailigh URL de do chéad leathanach. Cuirfear URL an chéad leathanach ar an leathanach athróg. Tóg réad BeautifulSoup ó Iarrataí agus pléigh an rud ó pheirspictéar Python.

Sa teagasc seo, is é an aidhm ná naisc agus ainmneacha na n-ealaíontóirí a bhailiú. Mar shampla, is féidir leat dátaí agus náisiúntachtaí ealaíontóirí a bhailiú. I gcás úsáideoirí Windows, cliceáil ar dheis cliceáil ar chéad ainm an ealaíontóra. Sa chás seo, bain úsáid as Zabaglia, Niccola. I gcás úsáideoirí Mac OS, téigh "CTRL" agus cliceáil ar an ainm. Cliceáil ar an roghchlár "Eilimint a Chigire" go bhfuil pop-ups ar do scáileán chun teacht ar uirlisí forbróirí gréasáin. Déan ainmneacha an ealaíontóra a phriontáil chun anraith anlainn a dhéanamh a pháirceáil go tapa.

Na naisc bun a bhaint

Chun na naisc bun ar do leathanach gréasáin a bhaint, scrúdaigh an DOM trí chliceáil ar dheis ar an eilimint. Feicfidh tú go bhfuil na naisc faoi thabla HTML. Ag baint úsáide as anraith álainn, bain úsáid as an "modh diúscartha" chun clibeanna a bhaint as an gcrann bannaí.

Conas ábhar a tharraingt ó chlib

Ní gá duit an chlib nasc iomlán a phriontáil, úsáid Anraith Álainn chun ábhar a bhaint as tag. Is féidir leat URLanna a bhaineann leis na healaíontóirí a ghabháil freisin trí Beautiful Soup 4 a úsáid.

Tabharfaidh sonraí comhaid a ghreamú chuig comhad CSV

comhad CSV duit sonraí struchtúrtha a stóráil i dtéacs simplí, formáid a úsáidtear go príomha le haghaidh taiscid sonraí. Moltar eolas maidir le láimhseáil comhaid téacs simplí i Python.

Baintear úsáid as eastóscadh sonraí Gréasáin chun leathanaigh a scraipeadh agus faisnéis a fháil. Bí ag smaoineamh ar na suíomhanna gréasáin a bhfuil tú ag tarraingt faisnéise ó. Cuireann roinnt suíomhanna gréasáin dinimiciúla eastóscadh sonraí gréasáin srian ar a láithreáin. Is é an simplí a scriosadh an leathanach le Beautiful Soup agus Python 3.

December 22, 2017