From 5228ee38c09960169b3a12a26882fc93fec0c0e1 Mon Sep 17 00:00:00 2001 From: everybitmihaly Date: Tue, 26 Jul 2022 11:34:57 +0200 Subject: [PATCH 1/6] origo done --- configs/origo/origo_notext_tags_normal.tsv | 2261 +++++------ configs/origo/origo_specific.py | 569 +-- configs/origo/origo_text_tags_normal.tsv | 3991 ++++++++++---------- 3 files changed, 3499 insertions(+), 3322 deletions(-) diff --git a/configs/origo/origo_notext_tags_normal.tsv b/configs/origo/origo_notext_tags_normal.tsv index 4029c49..aa18f4f 100644 --- a/configs/origo/origo_notext_tags_normal.tsv +++ b/configs/origo/origo_notext_tags_normal.tsv @@ -1,169 +1,231 @@ frequency tag average_word_count average_descendant_num immediate_texts_average_length URL_example hivatkozas preserved_attribute -173488
0 0 0 https://www.origo.hu/sport/eb/2012/20120524-a-modellkent-dolgozo-monika-pietrasinska-lesz-a-focieb-haziasszonya.html https://www.origo.hu/sport/20151130-sportmusor-11-30.html https://www.origo.hu/sport/csapat/20170605-kezilabda-bl-final-four-donto-utani-nyilatkozatok.html https://www.origo.hu/sport/futball/20180205-fc-barcelona-gerard-pique-espanyol-valencia-chelsea-serules.html https://www.origo.hu/sport/loero/20171109-gyorsasagi-motoros-vb-futam-magyar-nagydij-lehet.html null default -1453630
0 0 0 https://www.origo.hu/itthon/20150305-lazar-janosnak-elege-lett-a-botranyokbol.html https://www.origo.hu/auto/20040910konnyebb.html https://www.origo.hu/itthon/20040203feloldjak.html https://www.origo.hu/itthon/20021007menekulthullam.html https://www.origo.hu/sport/egyeni/20180203-verraszto-david-uszas-golden-tour-nizza-aranyerem.html decompose default -1265369
0 0 0 https://www.origo.hu/teve/20080410-recept-paradicsomos-lencse-ragu.html https://www.origo.hu/sport/trashtalk/20040420nhlkiesett.html https://www.origo.hu/sport/20180409-sportkozvetites-aprilis-9-hetfo.html https://www.origo.hu/sport/20070302nemertek.html https://www.origo.hu/sport/egyeni/20120625-babos-gyozott-a-wimbledoni-nyitonapon.html null default -174111
0 1.15E-05 0 https://www.origo.hu/sport/trashtalk/20211206-vezetoedzojet-es-foigazgatojat-is-kirugta-a-gyenge-szezonrajt-miatt-az-nhlcsapat.html https://www.origo.hu/sport/csapat/20210118-kezilabda-kezivb-orosz-sved-francia-es-portugal-csoportgyozelem.html https://www.origo.hu/sport/egyeni/20170923-teli-olimpia-phjongcshang-2018-dontest-hozott-az-egyesult-allamok.html https://www.origo.hu/sport/futball/20170401-kikapott-a-magyar-futsalvalogatott.html https://www.origo.hu/sport/csapat/19991110gyozelem.html decompose default -172875 0 1 0 https://www.origo.hu/sport/futball/20111121-david-beckham-sorrel-es-fiaival-unnepelte-a-bajnoki-cimet-a.html https://www.origo.hu/sport/egyeni/20170914-rapport-richard-sakk-vilagkupa-nyolcaddonto.html https://www.origo.hu/sport/futball/20110124-ismet-vilagvalogatottban-az-amator-kapus.html https://www.origo.hu/sport/futball/20080121-szalma-pal-az-ujpestben-ved-tovabb.html https://www.origo.hu/sport/futball/20210208-labdarugas-folytatodik-a-magyar-kupa-osszejohet-az-ujabb-fradifeharvar-focicsata.html null default -172875 0 0 0 https://www.origo.hu/sport/csapat/20190407-a-vasas-az-elso-dontos-a-noi-roplabdabajnoksagban-extraliga.html https://www.origo.hu/sport/20160716-minden-programot-toroltek-a-red-bull-air-race-budapesti-versenyhetvegejenek-szombati-napjan.html https://www.origo.hu/sport/futball/20130201-tottiekat-42re-megvertek-romaban.html https://www.origo.hu/sport/egyeni/20170430-poor-brigitta-ezustermes-a-gorog-tereptriatlon-vilagkupan.html https://www.origo.hu/sport/eb/2016/20160711-cristiano-ronaldo-szerint-ez-a-kupa-minden-bevandorloe.html null default -173713
0 0 0 https://www.origo.hu/sport/trashtalk/20211008-george-peterson-testepites-mr-olimpia-arnold-classic.html https://www.origo.hu/sport/futball/20210223-legendas-brazil-zseni-pele-politikai-rezsim-vilagbajnoksag-onetrajzi-film-netflix.html https://www.origo.hu/sport/trashtalk/2003121513pontos.html https://www.origo.hu/sport/csapat/20171120-kosarlabda-lengyelorszag-fiatal-magyar-csapat-jatszik-a-ferfi-kosarlabda-vb-selejtezon.html https://www.origo.hu/sport/futball/20190321-szlovakia-magyarorszag-labdarugo-eb-selejtezo-kezdocsapat.html decompose default -173831
\n", - "
\n", - "

Nézőpont Intézet: Orbánhoz vándorolnak Gyurcsány szimpatizánsai

\n", - "
\n", - "
\n", - "
MTI | Létrehozás dátuma: 2010. 02. 10., 23:23
eszközök:
\n", - "
\n", - "
\n", - "
\n", - "
Gyurcsány Ferenc szimpatizánsainak több mint negyede pártolt át Orbán Viktorhoz 2006 óta - áll a Nézőpont Intézet legfrissebb felmérésében. A közvélemény-kutatás szerint jelenleg az aktív szavazók fele a Fideszre szavazna, míg az MSZP-t csak 11 százalék választaná.
\n", - "
\n", - "
\n", - "
\"Forrás:

Gyurcsány rajongói szétszéledtek 2006 óta

\n", - "
\n", - "

Ajánlat

\n", - "\n", - "
\n", - "

OK.hu

\n", - "
\n", - "
\n", - "

A négy éve még Gyurcsány Ferenccel szimpatizáló szavazók 27 százaléka ma Orbán Viktorra, 17-17 százaléka Bokros Lajosra és Mesterházy Attilára, míg 5 százaléka Vona Gáborra szavazna - olvasható a Nézőpont Intézet friss felmérésében, amelyet szerdán hoztak nyilvánosságra.

\n", - "

Az intézet szerint Gyurcsány Ferenc volt szocialista miniszterelnökről az összes megkérdezett 40 százaléka még inkább pozitívan vélekedett 2006-ban. Ma a négy évvel ezelőtti Gyurcsány-tábornak csak 22 százaléka MSZP-szimpatizáns, 25 százaléka bizonytalan, 21 százaléka viszont a Fideszhez csatlakozott.

\n", - "

A kutatás adatai szerint Orbán Viktorra, a Fidesz miniszterelnök-jelöltjére az évértékelő beszéd után a szavazók 51 százaléka adná a voksát, míg Bokros Lajosra 10, Mesterházy Attilára 8 százaléknyian szavaznának. Vona Gábor, a Jobbik jelöltje 5 százalékot kapna.

\n", - "

A pártszimpátia szerint az aktív szavazók 51 százaléka szavazna \"most vasárnap\" a Fideszre, 11 százaléka az MSZP-re és 7 százaléka a Jobbikra. Az MDF-re az aktív szavazók 3 százaléka szavazna - tették hozzá.

\n", - "

A kutatást február 6. és 9. között készítették 1000 fő véletlenszerű megkérdezésével.

\n", - "
\n", - "
\n", - "
\n", - "
\n", - "
\n", - "
\n", - "
eszközök:
\n", - "
\n", - "
\n", - "
\n", - "
Megosztás - Mi ez?
\n", - "\n", - "
\n", - "
\n", - "
\n", - "
\n", - "
" - ] - }, - "execution_count": 20, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "from_request('https://www.origo.hu/itthon/valasztas2010/felmeresek/20100210-nezopont-intezet-orbanhoz-vandorolnak-gyurcsany-szimpatizansai.html').find('div', {'id': 'cikk'})" - ] - }, - { - "cell_type": "code", - "execution_count": 21, - "id": "d709a09c", - "metadata": {}, - "outputs": [ - { - "data": { - "text/plain": [ - "
\n", - "

Befutott McCain vízvezetékszerelője

Pethő András|2008. 10. 18., 12:46|
\n", - "
\n", - "
  • \n", - "
  • \n", - "
  • \n", - "
  • \n", - "
\n", - "
    \n", - "
  • \n", - "
  • \n", - "
  • \n", - "
  • \n", - "
\n", - "
\n", - "

Az amerikai elnökjelöltek közötti adóvita szimbólumává vált a szerda esti vitában sokszor emlegetett Joe, a vízvezetékszerelő, aki olyan népszerű lett, hogy most sorban állnak nála a nagy tévécsatornák. A férfi Barack Obamának panaszkodott egy kampánygyűlésen, amelynek nyomán felkapták a republikánusok. Kiderült azonban, hogy nem minden klappol a John McCain által emlegetett történetben.

\n", - "
\n", - "
\n", - "
\n", - "
\"Forrás:

Joe, a vízvezetékszerelő

\n", - "
\n", - "

Ajánlat

\n", - "\n", - "
\n", - "

Keresés

\n", - "
\n", - "
\n", - "

Az elnökjelöltek szerda esti vitájának volt egy visszatérő szereplője, Joe a vízvezetékszerelő. A republikánus John McCain említette először a nevét, amikor felidézte, hogy Obama egyik ohiói kampányrendezvényén egy Joe nevű vízvezetékszerelő beszélt arról, hogy meg akarja vásárolni a céget, amelynek dolgozik, de most gondolkodóba esett, mert a demokrata jelölt megválasztása esetén több adót kell majd fizetnie.

\n", - "

Ennek kapcsán aztán a két jelölt ismét elvitázott azon, hogy melyikük adópolitikája lendíthet nagyobbat a gyengélkedő gazdaságon. Közben a kamerába nézve többször közvetlenül is üzentek Joenak, aki egy nap leforgása alatt országos ismertségre tett szert. A férfi és Obama beszélgetéséről készült felvétel már a vita előtt is népszerű volt konzervatív weboldalakon, most azonban Joe már állandó eleme lett a republikánus kampánynak.

\n", - "

A népszerűségét annak köszönheti, hogy egy gyűlésen odalépett Obamához és közölte vele, meg akar vásárolni egy céget, amely évente 250-280 ezer dolláros bevételre tesz szert, majd feltette a kérdést: \"A maga adóprogramjával többet fogok fizetni, ugye?\" A demokrata elnökjelölt egyebek mellett azt válaszolta, hogy ha elosztják a vagyont, akkor az jó mindenkinek. A konzervatívok szerint ez lényegében azt jelenti, hogy Obama szocialista politikát akar folytatni.

\n", - "

Egy nappal a vita után kiderült azonban, hogy nem teljesen pontos az, amit McCain mondott. A férfi első keresztneve például nem is Joe, hanem Samuel (teljes neve Samuel J. Wurzelbacher), és valójában nem is vízvezetékszerelő, legalábbis nem rendelkezik olyan engedéllyel, amely szükséges ehhez a tevékenységhez Ohio államban. Valóban dolgozik azonban egy vízvezetékszereléssel foglalkozó cégnél, de mivel csak két főállású dolgozója van - a tulajdonos és Wurzelbacher -, és anyagi helyzetéről keveset tudni, így nem egyértelmű, hogy valóban adóemelésre számíthatna-e Obama győzelme esetén.

\n", - "

A demokrata elnökjelölt adócsökkentést ígér azoknak a családoknak és cégeknek, amelyek jövedelme 250 ezer dollár alatt van, felette azonban növelné a közterheket. Samuel J. Wurzelbacher a CBS televíziónak nyilatkozva azt mondta, az rémiszti meg Obama tervében, hogy miként lehet meghúzni egy határt, amely eldönti, ki fizet többet és kevesebbet. \"Mikor fogja eldönteni, hogy százezer dollár is soknak számít?\" - tette fel a kérdést a férfi, akiről csütörtökön kiderült, hogy 1200 dolláros adótartozása van, bár egy hatósági szóvivő szerint lehetséges, hogy nem az ő hibája, mert elképzelhető, hogy nem is tudott róla.

\n", - "

Bár John McCain az egyik esti talkshowban bocsánatot kért Wurzelbachertől, amiért neki köszönhetően rászabadult a teljes amerikai média, csütörtökön több rendezvényen is emlegette őt. Például egy jótékonysági rendezvényen, ahol Obamával együtt vett részt. Ezúttal nem vitáztak, ez ugyanis egy hagyományos politikai vacsora Al Smith egykori New York-i kormányzó emlékére, amelyen az elnökjelöltek rendszerint vicces beszédet mondanak. A szerda esti vitához képest sokkal felszabadultabb McCain egyik poénja például az volt, hogy igaz a hír, kirúgta teljes kampánystábját és felvette helyettük Joet, a vízvezetékszerelőt.

\n", - "

Chicago, Illinois - Egyesült Államok

\n", - "
\n", - "
\n", - "
\n", - "
\n", - "
\n", - "
\n", - "
\n", - "
  • \n", - "
  • \n", - "
  • \n", - "
\n", - "
    \n", - "
  • \n", - "
  • \n", - "
\n", - "
\n", - "
" - ] - }, - "execution_count": 21, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "from_request('https://www.origo.hu/amerikai-elnokvalasztas-2008/blog/kampany/20081017-joe-a-vizvezetekszerelo-es-john-mccain-es-barack-obama-adopolitikaja.html').find('div', {'id': 'cikk'})" - ] - }, - { - "cell_type": "markdown", - "id": "88c5f9c4", - "metadata": {}, - "source": [ - "KNOWN BAD and BLACKLISTED link testing" - ] - }, - { - "cell_type": "code", - "execution_count": 17, - "id": "f626078a", - "metadata": {}, - "outputs": [], - "source": [ - "with open('origo_BLACKLIST.txt', 'r') as infile:\n", - " blacklisted = infile.read().splitlines()" - ] - }, - { - "cell_type": "code", - "execution_count": 19, - "id": "cad53acb", - "metadata": {}, - "outputs": [], - "source": [ - "for b in w.url_index:\n", - " if '' in b and b not in blacklisted:\n", - " print(b)" - ] - }, - { - "cell_type": "code", - "execution_count": null, - "id": "18524216", - "metadata": {}, - "outputs": [], - "source": [ - "with open('known_bad_urls.txt', 'r') as infile:\n", - " known_bad = infile.read().splitlines() \n", - "not_bad = []\n", - "in_word = []\n", - "for link in known_bad:\n", - " if 'archiv' in link:\n", - " link = link.replace('/archiv/', '/teve/')\n", - "\n", - " soup = BeautifulSoup(requests.get(link).text, 'html.parser')\n", - " if soup.find('div', {'class': 'nwm-404'}) is not None:\n", - " print(link)\n", - " not_bad.append(link)\n", - "\n", - " i1 = link.find('-')\n", - " i2 = link[i1:].find('-')\n", - " find_word = link[i1:i1+i2]\n", - " if find_word not in soup.get_text():\n", - " in_word.append(link)\n" - ] - }, - { - "cell_type": "code", - "execution_count": 57, - "id": "7e72cac6", - "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "https://www.origo.hu/teve/20020812adallas.xml.html\n" - ] - } - ], - "source": [ - "not_tv = []\n", - "for link in blacklisted:\n", - " link = link.replace('/archivum/', '/teve/')\n", - "\n", - " soup = BeautifulSoup(requests.get(link).text, 'html.parser')\n", - " if soup.find('div', {'class': 'nwm-404'}) is not None:\n", - " print(link)\n", - " not_tv.append(link)\n" - ] - }, - { - "cell_type": "code", - "execution_count": 59, - "id": "3b2e1f46", - "metadata": {}, - "outputs": [ - { - "data": { - "text/plain": [ - "'https://www.origo.hu/archivum/20131022-kilencmilliot-vittek-el-gundel-takacs-musorabol.html'" - ] - }, - "execution_count": 59, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "blacklisted[0]" - ] - }, - { - "cell_type": "code", - "execution_count": 60, - "id": "32824911", - "metadata": {}, - "outputs": [], - "source": [ - "not_tv_2 = []\n", - "for link in blacklisted:\n", - " link = link.replace('/archivum/', '/teve/')\n", - "\n", - " soup = BeautifulSoup(requests.get(link).text, 'html.parser')\n", - "known_bad_list\n" - ] - }, - { - "cell_type": "markdown", - "id": "d92d280c", - "metadata": {}, - "source": [ - "writing out dictionary python file" - ] - }, - { - "cell_type": "code", - "execution_count": 7, - "id": "b158f79c", - "metadata": {}, - "outputs": [], - "source": [ - "with open('origo_usable_urls.tsv', 'r') as tsvin, open('origo_usable_links_dict.txt', 'w') as txtout:\n", - " link_dict = {c.split('\\t')[1]:c.split('\\t')[2] for c in tsvin.read().splitlines()}\n", - " print('ORIGO_URL_CHANGES =\\n', file=txtout)\n", - " print(str(link_dict), file=txtout)\n", - "\n", - "\n", - "\n" - ] - }, - { - "cell_type": "code", - "execution_count": 5, - "id": "99daf7f4", - "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "{'a': 'MISI', 'b': 'FERI'}\n" - ] - } - ], - "source": [ - "a = {'a': 'MISI', \n", - "'b': 'FERI'}\n", - "print(str(a))" - ] - }, - { - "cell_type": "code", - "execution_count": 6, - "id": "b6aa5920", - "metadata": {}, - "outputs": [], - "source": [ - "with open('dummy.txt', 'w') as dummy:\n", - " dummy.write(str(a))" - ] - }, - { - "cell_type": "markdown", - "id": "8ccc6225", - "metadata": {}, - "source": [ - "Check palyabea" - ] - }, - { - "cell_type": "code", - "execution_count": 25, - "id": "3c413bc0", - "metadata": {}, - "outputs": [ - { - "data": { - "text/plain": [ - "[Lamm Dávid,\n", - " Barcza Horváth János,\n", - " Palya Bea,\n", - " Dés András,\n", - " Budapest,\n", - " koncert,\n", - " próba]" - ] - }, - "execution_count": 25, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "from_request(palyabea).find('body', {'id':'!BODY_ID'}).find('div', {'id':'left'}).find_all('a', {'href':True, 'title':True, 'class':False})" - ] - }, - { - "cell_type": "code", - "execution_count": 22, - "id": "94cfe76d", - "metadata": {}, - "outputs": [], - "source": [ - "pubdate = from_request(palyabea).find('body', {'id':'!BODY_ID'}).find('div', {'class': 'date'})\n", - "parse_date(pubdate.get_text(strip=True), \"%Y. %B. %e.\")" - ] - }, - { - "cell_type": "code", - "execution_count": 15, - "id": "af800615", - "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "4 https://www.origo.hu/sport/kozvetites/20211202-kezilabda-noi-vilagbajnoksag-magyarorszag-szlovakia-elo-kozvetites.html\n", - "3 https://www.origo.hu/sport/olimpia/galeria/20210726-gordeszka-latvanyos-kepek.html\n", - "1 https://www.origo.hu/auto/20180523-maris-kitiltjak-a-regi-dizelautokat-egy-nemet-varosbol.html\n", - "1 https://www.origo.hu/techbazis/20080321-bittorrentes-rivalist-kap-az-apple-tv.html\n", - "2 https://www.origo.hu/sport/futball/20220315-ronaldo-ismet-bizonyithat-kedvenc-ellenfele-ellen-otthon-juthat-tovabb-a-bl-titkos-eselyese.html\n", - "3 https://www.origo.hu/sport/galeria/20220317-a-szexi-luisinha-barosa-oliveira-mclaren-lando-norris-kepek-fotok-galeria.html\n", - "1 https://www.origo.hu/auto/20150904-telekocsi-migrans-mav-vonat.html\n", - "2 https://www.origo.hu/gazdasag/hirek/20091207-csokkenessel-nyitottak-a-new-yorki-tozsdek.html\n", - "2 https://www.origo.hu/gazdasag/hirek/20001011torlend1.html\n", - "5 https://www.origo.hu/itthon/valasztas2010/20100210-ujabb-feltort-levelszekrenyek-utan-nyomoz-a-rendorseg.html\n", - "6 https://www.origo.hu/palyabea/post/20100909-elso-proba-a-nagykoncertre.html\n" - ] - } - ], - "source": [ - "# format 1 bs.find('header', class_='article-head')\n", - "# format 2 bs.find('header', {'id': 'article-head'})\n", - "# format 3 bs.find('body', {'class': 'gallery'})\n", - "# format 4 bs.find('div', class_='sportonline_header')\n", - "# format 5 bs.find('div', {'id': 'cikk'})\n", - "for c, l in enumerate(link_list):\n", - " bs = from_request(l)\n", - " if bs.find('header', class_='article-head') is not None: print(1, l)\n", - " if bs.find('header', {'id': 'article-head'}) is not None: print(2, l)\n", - " if bs.find('body', {'class': 'gallery'}) is not None: print(3, l)\n", - " if bs.find('div', class_='sportonline_header') is not None: print(4, l)\n", - " if bs.find('div', {'id': 'cikk'}) is not None: print(5, l)\n", - " if bs.find('body', {'id':'!BODY_ID'}) is not None: print(6, l)" - ] - }, - { - "cell_type": "markdown", - "id": "50cc5c8f", - "metadata": {}, - "source": [ - "Meta json" - ] - }, - { - "cell_type": "code", - "execution_count": 26, - "id": "4beb014e", - "metadata": {}, - "outputs": [], - "source": [ - "a = [1,2,3,4,5]" - ] - }, - { - "cell_type": "code", - "execution_count": 30, - "id": "3a8bc01a", - "metadata": {}, - "outputs": [], - "source": [ - "if len(a) >= 5+1 and a[5] > 2:\n", - " print('he')" - ] - } - ], - "metadata": { - "kernelspec": { - "display_name": "Python 3.8.10 64-bit", - "language": "python", - "name": "python3" - }, - "language_info": { - "codemirror_mode": { - "name": "ipython", - "version": 3 - }, - "file_extension": ".py", - "mimetype": "text/x-python", - "name": "python", - "nbconvert_exporter": "python", - "pygments_lexer": "ipython3", - "version": "3.8.10" - }, - "vscode": { - "interpreter": { - "hash": "916dbcbb3f70747c44a77c7bcd40155683ae19c65e1c03b4aa3499c5328201f1" - } - } - }, - "nbformat": 4, - "nbformat_minor": 5 -}