jsoup: Scrapper Java HTML - Athbhreithniú Semalt

Is stór Java é jsoup a fhorghníomhaíonn HTML. Tá sé feistithe le API éifeachtach agus éifeachtach a bhailíonn, a anailísíonn agus a bhainistíonn sonraí, ag úsáid na modhanna DOM, CSS, agus cosúil le jquery riachtanach.

Le ríomhchláraitheoirí jsoup agus dearthóirí gréasáin is féidir leo cáipéisí a fhorbairt ó chomhaid foinse gréasáin gan struchtúr na gcomhad foinse a dhífhoirmiú. Tar éis dóibh na comhaid a aisghabháil, le jsoup is féidir le húsáideoirí na heilimintí struchtúir nó na comhpháirteanna eiliminte ar fad a athchumrú nó a athdhearadh trí na heilimintí nó an t-ábhar nó an dá rud a chur leis nó a mhodhnú.

Tá an uirlis tógtha le aclaíocht fhorleathan chun comhéadan cláraithe caighdeánach agus solúbtha a sholáthar d’úsáideoirí laistigh de réimse leathan timpeallacht gréasáin agus feidhmchlár. Tugann sé seo an rochtain riachtanach dá úsáideoir chun comhpháirteanna a gcuid díorthach a athrú, a scriosadh nó a chur leis.

is féidir le jsoup sonraí a dhíchódú agus a dhíscaoileadh ina gcomhábhair níos lú chun iad a aistriú go formáidí eile go héasca. Baintear na sonraí ionchuir amach i bhfoirm dul chun cinn algartamach atá comhdhéanta de chód treoracha atá ionsuite i gcrann bailiúcháin nó díorthaithe. Tá sé tógtha chun comhpháirteanna HTML a thuiscint agus a chomhtháthú ionas go bhféadfaidh sé comhábhair comhad a aisghabháil a bhfuil an tsolúbthacht sin acu ag brath ar an struchtúr códaithe. Conas a dhéanann sé é seo? Déanann sé an leathanach gréasáin iomlán a chraobháil agus a scríobadh le haghaidh rochtana agus patrún chun sonraí a ghabháil. Más féidir sonraí a dhíorthú, leanfaidh sé ar aghaidh trí:

An crann págánach a nascleanúint agus a anailísiú óna leibhéal is airde tríd an struchtúr cumraíochta go dtí an leibhéal is ísle ag smaoineamh ar gach comhpháirt sonraí amháin. Tugtar an modh parsála ón mbarr anuas ar an gcur chuige seo.

Ag scríobadh sonraí ón leibhéal is ísle den struchtúr, ag déanamh anailíse ar gach comhpháirt sonraí, trí na cumadóireachta idirmheánacha go barr an chrainn pharsála nó dhíorthaithe.

Is réiteach éifeachtach é jsoup a théann faoi iliomad oibríochtaí casta laistigh de shoicind scoilte mar gheall ar a dhearadh ceannródaíoch. De ghnáth bíonn comharbas de thrí chéim bhunúsacha sa phróiseas ó:

1. Ilroinnt na gcarachtar eastósctha agus na sonraí i bpaicéid níos simplí, agus an anailís ar na giotaí carachtair agus sonraí seo le cruthú.

2. Léiriú a d’fhéadfadh an teanga meaisín a léamh agus a thiomsú atá in ann na heilimintí sonraí a chur in ord tosaíochta agus is féidir a úsáid chun táirgeadh a dhéanamh

3. Sloinn leictreonacha a fhoirmíonn píosaí faisnéise atá den chumraíocht, luach agus ábharthacht riachtanach don úsáideoir.

Tá jsoup comhoiriúnach le struchtúr mór scripteanna HTML, comhéadan teanga, cláir agus stíl doiciméad agus iad in ann iad a chur i gcrích lena n-áirítear riachtanais WhatWG HTML5. Tá siad chomh ábalta struchtúir HTML a réiteach ar an tSamhail Réada Doiciméid chéanna le feidhmchláir bhogearraí gréasáin a úsáidtear chun acmhainní sonraí agus faisnéise a bhaint, a nascleanúint agus a chur i láthair ar an nGréasán Domhanda.

tá sé de chumas ag jsoup:

  • HTML a scríobadh agus a pharsáil ó URL, comhad nó sreangán
  • sonraí a aimsiú agus a bhaint, ag baint úsáide as traversal DOM nó roghnóirí CSS
  • na heilimintí HTML, na tréithe agus an téacs a fheabhsú
  • scriosadh ábhar a chuirtear isteach ag an úsáideoir i gcoinne liosta bán sábháilte, chun ionsaithe XSS a chosc
  • HTML slachtmhar a sheachadadh

Tógtar an bogearra chun gach cineál HTML a réiteach beag beann ar an gcumraíocht: ó phristine agus bailíochtú, go dtí anraith tag neamhbhailí: cruthóidh jsoup an struchtúr pharsála atá ag teastáil.