From a97f729c1afa0846f6eccbdd72c3474b6018c8f2 Mon Sep 17 00:00:00 2001 From: sarkozi_zsofia Date: Mon, 7 Mar 2022 14:28:41 +0100 Subject: [PATCH 01/23] blikk start --- configs/blikk/blikk_BASE.xml | 123 ++++++++++++++++++++++++++++++++ configs/blikk/blikk_specific.py | 82 +++++++++++++++++++++ 2 files changed, 205 insertions(+) create mode 100755 configs/blikk/blikk_BASE.xml create mode 100755 configs/blikk/blikk_specific.py diff --git a/configs/blikk/blikk_BASE.xml b/configs/blikk/blikk_BASE.xml new file mode 100755 index 0000000..738ee63 --- /dev/null +++ b/configs/blikk/blikk_BASE.xml @@ -0,0 +1,123 @@ + + + + + + + + + + + ELTE-DH webcrawling + + creator + ELTE-DH + + + + project director + PalkóGábor + https://orcid.org/0000-0002-4394-8577 + + + chief programmer + IndigBalázs + https://orcid.org/0000-0001-8090-3661 + + + TEI expert + FellegiZsófia + https://orcid.org/0000-0001-9199-1759 + + + programmer + Sárközi-LindnerZsófia + https://orcid.org/0000-0002-2558-0633 + + + + + ELTE-DH + http://elte-dh.hu/ + + Budapest http://www.geonames.org/3054643 + + 2020 + +

Metadata: IN COPYRIGHT - NON-COMMERCIAL USE PERMITTEDhttp://rightsstatements.org/vocab/InC-NC/1.0/

+

Text: IN COPYRIGHT http://rightsstatements.org/vocab/InC/1.0/ +

+
+ +
+ + + + + + + + + + + + +

+

+

+
+ +
+
+
+ + + + + Blikk + hun + In Copyright + + + + + + + WARC/1.1 + + + + + + + + + + + + TEI + + + Palkó Gábor + Indig Balázs + Fellegi Zsófia + Sárközi-Lindner Zsófia + + + + + + TEI file created + +
+ + + + +
diff --git a/configs/blikk/blikk_specific.py b/configs/blikk/blikk_specific.py new file mode 100755 index 0000000..5f55a2b --- /dev/null +++ b/configs/blikk/blikk_specific.py @@ -0,0 +1,82 @@ +#!/usr/bin/env python3 +# -*- coding: utf-8, vim: expandtab:ts=4 -* + +import re + +from src.html2tei import parse_date, BASIC_LINK_ATTRS, decompose_listed_subtrees_and_mark_media_descendants, \ + tei_defaultdict + +PORTAL_URL_PREFIX = 'https://www.blikk.hu' + +ARTICLE_ROOT_PARAMS_SPEC = [ + (('section',), {'class': 'leftSide'})] #
+ + +SUBJECT_DICT = {'eletmod': 'életmód', + 'galeria': 'galéria', + 'allati': 'állati', + 'egeszseg': 'egészség', + 'sztarvilag': 'sztárvilág', + 'utazas': 'utazás', + 'aktualis': 'aktuális', + 'hoppa': 'hoppá', + 'karacsony': 'karácsony', + 'husvet': 'húsvét', + 'lelek': 'lélek', + 'tavaszi-megujulas': 'tavaszi-megújulás', + 'adventi-teendok': 'adventi-teendők', + 'dizajn': 'dizájn', + 'unnepi-tippek': 'ünnepi-tippek'} + + +def get_meta_from_articles_spec(tei_logger, url, bs): + """author tag does not exist""" + data = tei_defaultdict() + data['sch:url'] = url + + return data + + +def excluded_tags_spec(tag): + return tag + + +BLOCK_RULES_SPEC = {} +BIGRAM_RULES_SPEC = {} + +LINKS_SPEC = BASIC_LINK_ATTRS +DECOMP = [(('style',), {}), + (('script',), {}), + (('footer',), {}), + (('section',), {'class': 'breadcrumbs'}), + (('section',), {'class': 'mainTitle'}), + (('section',), {'class': 'datesAndShareContainer'}), + (('div',), {'id': 'authors'}), + (('div',), {'id': 'bannerDesktopContainer stickyContainer'}), + (('div',), {'id': 'articleOfferFlag'}), + (('div',), {'id': 'underArticleAdvertisement'}), + (('section',), {'class': 'bottomTags'}), + (('section',), {'class': 'socialShare'}), + (('div',), {'class': 'rltdwidget'}), + (('h4',), {'class': 'mb-3'}), + (('div',), {'id': 'fb-root'}), + (('section',), {'id': 'comments'}) + ] + + +MEDIA_LIST = [] + + +def decompose_spec(article_dec): + decompose_listed_subtrees_and_mark_media_descendants(article_dec, DECOMP, MEDIA_LIST) + return article_dec + + +BLACKLIST_SPEC = ['https://www.blikk.hu/prospektus/penny-market/penny-market-marciusi-akcios-ujsag/kyvtf51', + 'https://www.blikk.hu/prospektus/aldi/aldi-aprilisi-akcios-ujsag/2c457l2'] + +MULTIPAGE_URL_END = re.compile(r'^\b$') # Dummy + + +def next_page_of_article_spec(_): + return None From 0ea2ed8841bfa9571a5ba421a8854e327372fa68 Mon Sep 17 00:00:00 2001 From: sarkozi_zsofia Date: Mon, 7 Mar 2022 14:55:47 +0100 Subject: [PATCH 02/23] . --- configs/blikk/blikk_specific.py | 2 ++ 1 file changed, 2 insertions(+) diff --git a/configs/blikk/blikk_specific.py b/configs/blikk/blikk_specific.py index 5f55a2b..7360697 100755 --- a/configs/blikk/blikk_specific.py +++ b/configs/blikk/blikk_specific.py @@ -75,6 +75,8 @@ def decompose_spec(article_dec): BLACKLIST_SPEC = ['https://www.blikk.hu/prospektus/penny-market/penny-market-marciusi-akcios-ujsag/kyvtf51', 'https://www.blikk.hu/prospektus/aldi/aldi-aprilisi-akcios-ujsag/2c457l2'] +LINK_FILTER_SUBSTRINGS_SPEC = re.compile('|'.join(['LINK_FILTER_DUMMY_STRING'])) + MULTIPAGE_URL_END = re.compile(r'^\b$') # Dummy From ba40f74e467cd0d02081c259c8be7c081b613c6f Mon Sep 17 00:00:00 2001 From: everybitmihaly Date: Thu, 10 Mar 2022 18:09:00 +0100 Subject: [PATCH 03/23] half done get meta for blikk --- configs/blikk/blikk_specific.py | 54 ++++++++++++++++++++++++++++++++- 1 file changed, 53 insertions(+), 1 deletion(-) diff --git a/configs/blikk/blikk_specific.py b/configs/blikk/blikk_specific.py index 7360697..0880c93 100755 --- a/configs/blikk/blikk_specific.py +++ b/configs/blikk/blikk_specific.py @@ -3,7 +3,7 @@ import re -from src.html2tei import parse_date, BASIC_LINK_ATTRS, decompose_listed_subtrees_and_mark_media_descendants, \ +from html2tei import parse_date, BASIC_LINK_ATTRS, decompose_listed_subtrees_and_mark_media_descendants, \ tei_defaultdict PORTAL_URL_PREFIX = 'https://www.blikk.hu' @@ -34,6 +34,58 @@ def get_meta_from_articles_spec(tei_logger, url, bs): data = tei_defaultdict() data['sch:url'] = url + article_root = bs.find('section', {'class': 'leftSide'}) + if article_root is not None: + + # NAME + title_tag = article_root.find('section', {'class': 'mainTitle'}) + if title_tag is not None: + title_text_tag = title_tag.find('h1') + if title_text_tag is not None: + title_text = title_text_tag.get_text(strip=True) + if len(title_text) > 0: + data['sch:name'] = title_text + else: + tei_logger.log('WARNING', f'{url}: TITLE TEXT EMPTY!') + else: + tei_logger.log('WARNING', f'{url}: TITLE TEXT TAG NOT FOUND!') + else: + tei_logger.log('WARNING', f'{url}: TITLE SECTION TAG NOT FOUND!') + + # DATE PUBLISHED + date_published = article_root.find('div', {'class': 'dates d-flex flex-column flex-md-row'}).get_text(strip=True) + if date_published is not None: + data['sch:datePublished'] = parse_date(date_published, "%Y. %b %d. %H:%M") # TODO error handling? + else: + tei_logger.log('WARNING', f'{url}: DATE PUBLISHED TAG NOT FOUND!') + + # DATE MODIFIED + + # AUTHORS + authors_section = article_root.find('div', {'id': 'authors'}) + if authors_section is not None: + authors = authors_section.find_all('p', {'class': 'authorName'}) + if len(authors) > 0: # TODO it has Blikk-információ + data['sch:author'] = [t.get_text(strip=True) for t in authors if len(t.get_text(strip=True)) > 0] + else: + tei_logger.log('DEBUG', f'{url}: NO AUTHORS FOUND!') + else: + tei_logger.log('DEBUG', f'{url}: NO AUTHOR SECTION FOUND!') + + # ARTICLE SECTION + # TODO article section in url or meta? + + # KEYWORDS + keywords_section = article_root.find('section', {'class': 'row w-100 mt-2 mb-3 bottomTags'}) + if keywords_section is not None: + kw_tags = keywords_section.find_all('a') + if len(kw_tags) > 0: + data['sch:keywords'] = [t.get_text(strip=True) for t in kw_tags if len(t.get_text(strip=True)) > 0] + else: + tei_logger.log('DEBUG', f'{url}: NO KEYWORD TAGS FOUND!') + else: + tei_logger.log('DEBUG', f'{url}: NO KEYWORDS SECTION FOUND!') + return data From f1ad548e9293554c8ec6a3d2d359106769be517e Mon Sep 17 00:00:00 2001 From: everybitmihaly Date: Thu, 24 Mar 2022 10:45:45 +0100 Subject: [PATCH 04/23] blikk update --- configs/blikk/blikk_empty_BLACKLIST.txt | 0 configs/blikk/blikk_specific.py | 168 ++++++++++++++++++++++-- 2 files changed, 155 insertions(+), 13 deletions(-) create mode 100644 configs/blikk/blikk_empty_BLACKLIST.txt diff --git a/configs/blikk/blikk_empty_BLACKLIST.txt b/configs/blikk/blikk_empty_BLACKLIST.txt new file mode 100644 index 0000000..e69de29 diff --git a/configs/blikk/blikk_specific.py b/configs/blikk/blikk_specific.py index 0880c93..9517493 100755 --- a/configs/blikk/blikk_specific.py +++ b/configs/blikk/blikk_specific.py @@ -2,6 +2,7 @@ # -*- coding: utf-8, vim: expandtab:ts=4 -* import re +from os.path import join as os_path_join, dirname as os_path_dirname, abspath as os_path_abspath from html2tei import parse_date, BASIC_LINK_ATTRS, decompose_listed_subtrees_and_mark_media_descendants, \ tei_defaultdict @@ -12,6 +13,15 @@ (('section',), {'class': 'leftSide'})] #
+TOPIC_AND_ADVERT_SUBTITLES = ['Hirdetés', + 'A Tvr-hét ajánlja!', + 'A Tv-hét ajánlja!', + 'Szponzorált tartalom', + 'Szponzorált tartalom!', + 'Szonzorált tartalom', + 'Támogatott tartalom', + 'Koronavírus'] + SUBJECT_DICT = {'eletmod': 'életmód', 'galeria': 'galéria', 'allati': 'állati', @@ -26,7 +36,71 @@ 'tavaszi-megujulas': 'tavaszi-megújulás', 'adventi-teendok': 'adventi-teendők', 'dizajn': 'dizájn', - 'unnepi-tippek': 'ünnepi-tippek'} + 'unnepi-tippek': 'ünnepi-tippek', + 'baleset-info': 'baleset-info', + 'belfold': 'belföld', + 'kulfold': 'külföld', + 'divat': 'divat', + 'velemeny': 'vélemény', + 'erotika': 'erotika', + 'kultura': 'kultúra', + 'streaming': 'streaming', + 'zene': 'zene', + 'auto': 'autó', + 'hetvegere': 'hétvégére', + 'rio-2016': 'Rio 2016', + 'sztarsztorik': 'sztársztorik', + 'blikk-tv': 'blikk-tv', + 'garazs': 'garázs', + 'geo': 'geo', + 'gasztro': 'gasztro', + 'penz': 'pénz', + 'magyar-foci': 'magyar-foci', + 'hoppa': 'hoppá', + 'panorama': 'panoráma', + 'wtf': 'wtf', + 'filmklikk': 'filmklikk', + 'mindent-bele': 'mindent-bele', + 'gyors-ebed': 'gyors-ebéd', + 'tech': 'tech', + 'forma-1': 'forma-1', + 'durva': 'durva', + 'egyeni': 'egyéni', + 'a-nyulon-tul': 'a-nyúlon-túl', + 'retro-receptek': 'retró-receptek', + 'vilag-titkai': 'világ-titkai', + 'napi-ajanlat': 'napi-ajánlat', + 'speedzone': 'speedzone', + 'teszt': 'teszt', + 'szexi': 'szexi', + 'olimpia2021': 'olimpia2021', + 'erdekes': 'érdekes', + 'veszhelyzet': 'vészhelyzet', + 'sport': 'sport', + 'foci-eb-2016': 'foci-eb-2016', + 'husveti-tippek': 'húsvéti-tippek', + 'egyeb': 'egyéb', + 'kulfoldi-foci': 'külfoldi-foci', + 'politika': 'politika', + 'tippek': 'tippek', + 'edessegek': 'édességek', + 'konnyu-vacsora': 'könnyű-vacsora', + 'menetproba': 'menetpróba', + 'tavaszi-megujulas': 'tavaszi-megújulás', + 'egeszsegkalauz': 'egészségkalaúz', + 'eb-2021': 'eb-2021', + 'katalogus': 'katalógus', + 'receptek': 'receptek', + 'valasztas-2022': 'választás-2022', + 'spanyol-foci': 'spanyol-foci', + 'krimi': 'krimi', + 'csapat': 'csapat', + 'lol': 'lol', + 'vizes-vb': 'vizes-vb', + 'foci-vb-2018': 'foci-vb-2018', + 'magyar-japan-noi-vizilabda': 'magyar-japan-noi-vizilabda' + } + def get_meta_from_articles_spec(tei_logger, url, bs): @@ -37,7 +111,7 @@ def get_meta_from_articles_spec(tei_logger, url, bs): article_root = bs.find('section', {'class': 'leftSide'}) if article_root is not None: - # NAME + # NAME - TITLE title_tag = article_root.find('section', {'class': 'mainTitle'}) if title_tag is not None: title_text_tag = title_tag.find('h1') @@ -53,13 +127,17 @@ def get_meta_from_articles_spec(tei_logger, url, bs): tei_logger.log('WARNING', f'{url}: TITLE SECTION TAG NOT FOUND!') # DATE PUBLISHED - date_published = article_root.find('div', {'class': 'dates d-flex flex-column flex-md-row'}).get_text(strip=True) - if date_published is not None: - data['sch:datePublished'] = parse_date(date_published, "%Y. %b %d. %H:%M") # TODO error handling? + date_published_tag = article_root.find('div', {'class': 'dates d-flex flex-column flex-md-row'}) + if date_published_tag is not None: + date_published = date_published_tag.get_text(strip=True) + if len(date_published) > 0: + data['sch:datePublished'] = parse_date(date_published, "%Y. %b %d. %H:%M") # TODO error handling? + else: + tei_logger.log('WARNING', f'{url}: DATE PUBLISHED TAG TEXT EMPTY!') else: tei_logger.log('WARNING', f'{url}: DATE PUBLISHED TAG NOT FOUND!') - # DATE MODIFIED + # DATE MODIFIED - no date modified information found # AUTHORS authors_section = article_root.find('div', {'id': 'authors'}) @@ -73,23 +151,61 @@ def get_meta_from_articles_spec(tei_logger, url, bs): tei_logger.log('DEBUG', f'{url}: NO AUTHOR SECTION FOUND!') # ARTICLE SECTION - # TODO article section in url or meta? - + article_section_meta_tag = bs.find('meta', {'property':'article:section', 'content':True}) + if article_section_meta_tag is not None: + section_text = article_section_meta_tag['content'].strip() + if len(section_text) > 1: # content text may be '/' + data['sch:articleSection'] = section_text + # KEYWORDS + keywords = [] + keywords_section = article_root.find('section', {'class': 'row w-100 mt-2 mb-3 bottomTags'}) if keywords_section is not None: kw_tags = keywords_section.find_all('a') if len(kw_tags) > 0: - data['sch:keywords'] = [t.get_text(strip=True) for t in kw_tags if len(t.get_text(strip=True)) > 0] + for t in kw_tags: + if len(t.get_text(strip=True)) > 0: + keywords.append(t.get_text(strip=True)) else: tei_logger.log('DEBUG', f'{url}: NO KEYWORD TAGS FOUND!') else: tei_logger.log('DEBUG', f'{url}: NO KEYWORDS SECTION FOUND!') + # additional text is taken from section-path tag which contains path elements from the url + # these elements are considered keywords + section_path_tag = bs.find('meta', {'name': 'kt:section-path', 'content':True}) + if section_path_tag is not None: + section_path_text_split = section_path_tag['content'].strip().split('/') + section_path_elements = [t for t in section_path_text_split if len(t) > 1] + + # possible keywords are manually collated in the SUBJECT DICT dictionary. + for extra_keyword in section_path_elements: + if extra_keyword in SUBJECT_DICT.keys() and extra_keyword != data['sch:artcleSection']: + keywords.append(SUBJECT_DICT[extra_keyword]) + else: + tei_logger.log('DEBUG', f'{url}: SECTION PATH KEYWORD NOT IN SPECIFIC FILE SUBJECT DICT!') + + # additional text is taken from the subtitle tag which is sometimes used to annotate sponsored articles + # these elements are considered keywords + subtitle_tag = article_root.find('div', {'class': 'subtitle'}) + if subtitle_tag is not None: + stripped_subtitle_tag = subtitle_tag.get_text(strip=True) + if stripped_subtitle_tag in TOPIC_AND_ADVERT_SUBTITLES: + keywords.append(stripped_subtitle_tag) + elif len(stripped_subtitle_tag) > 0: + data['sch:alternateName'] = stripped_subtitle_tag + + if len(keywords) > 0: + data['sch:keywords'] = keywords + return data def excluded_tags_spec(tag): + tag_attrs = tag.attrs + if tag.name == 'div' and 'data-embed-id' in tag_attrs.keys(): + tag_attrs['data-embed-id'] = '@DATA-EMBED-ID' return tag @@ -112,7 +228,8 @@ def excluded_tags_spec(tag): (('div',), {'class': 'rltdwidget'}), (('h4',), {'class': 'mb-3'}), (('div',), {'id': 'fb-root'}), - (('section',), {'id': 'comments'}) + (('section',), {'id': 'comments'}), + (('div',), {'class':'detailRightSide'}) # featured articles on right side ] @@ -121,13 +238,38 @@ def excluded_tags_spec(tag): def decompose_spec(article_dec): decompose_listed_subtrees_and_mark_media_descendants(article_dec, DECOMP, MEDIA_LIST) + # the following subtitle tag contents are added to keywords to allow future + # filtering for sponsored content + for f in reversed(article_dec.find_all('div', {'class':'subtitle'})): + if ('Hirdetés' or 'A Tvr-hét ajánlja!' or 'Szponzorált tartalom') in f.text: + f.decompose() + + #

tag at the end of an article used for recommending further articles is decomposed + detail_section = article_dec.find('section', class_='detail') + if detail_section is not None: + all_immediate_detail_tags = detail_section.find_all(recursive=False) + if len(all_immediate_detail_tags) > 1: + check = lambda t: t.name == 'div' and 'class' in t.attrs.keys() and t['class'] == ['live_article_section'] + for f in all_immediate_detail_tags: + if f.name == 'p' and check(all_immediate_detail_tags[-2]) is True: + link_tag = f.find('a', {'id':True, 'rel':True, 'href':True}) + if link_tag is not None and 'blikk.hu' in link_tag['href']: + f.decompose() + return article_dec -BLACKLIST_SPEC = ['https://www.blikk.hu/prospektus/penny-market/penny-market-marciusi-akcios-ujsag/kyvtf51', - 'https://www.blikk.hu/prospektus/aldi/aldi-aprilisi-akcios-ujsag/2c457l2'] +BLACKLIST_SPEC = [url.strip() for url in open(os_path_join(os_path_dirname(os_path_abspath(__file__)), + 'blikk_empty_BLACKLIST.txt')).readlines()] + \ + ['https://www.blikk.hu/prospektus/penny-market/penny-market-marciusi-akcios-ujsag/kyvtf51', + 'https://www.blikk.hu/prospektus/aldi/aldi-aprilisi-akcios-ujsag/2c457l2', + 'https://www.blikk.hu/teszt/kxd74tx'] + +bad_url_list = ['http://read://https_www.foxnews.com/?url=https%3A%2F%2Fwww.foxnews.com%2Fentertainment%2Fcharlize-theron-dating-herself-her-daughter-said-she-needs-boyfriend', + 'http://read://https_www.foxnews.com/?url=https://www.foxnews.com/entertainment/charlize-theron-dating-herself-her-daughter-said-she-needs-boyfriend', + '//gdehu.hit.gemius.pl/_%%CACHEBUSTER%%/redot.gif?id=0nHlDa9qUQ.ZK6S5vQMx2pPanOju_9hLgs1k4l88n_H.p7/fastid=faqnnauibqujdjjoncywdnnoisla/stparam=onhehpijse/nc=0'] -LINK_FILTER_SUBSTRINGS_SPEC = re.compile('|'.join(['LINK_FILTER_DUMMY_STRING'])) +LINK_FILTER_SUBSTRINGS_SPEC = re.compile('|'.join([re.escape(s) for s in bad_url_list])) MULTIPAGE_URL_END = re.compile(r'^\b$') # Dummy From b16c4d201092bd2b95e222e488ddab11da0d04ad Mon Sep 17 00:00:00 2001 From: everybitmihaly Date: Thu, 24 Mar 2022 10:52:13 +0100 Subject: [PATCH 05/23] blikk blacklist empties --- configs/blikk/blikk_empty_BLACKLIST.txt | 10 ++++++++++ 1 file changed, 10 insertions(+) diff --git a/configs/blikk/blikk_empty_BLACKLIST.txt b/configs/blikk/blikk_empty_BLACKLIST.txt index e69de29..7b8bec6 100644 --- a/configs/blikk/blikk_empty_BLACKLIST.txt +++ b/configs/blikk/blikk_empty_BLACKLIST.txt @@ -0,0 +1,10 @@ +https://www.blikk.hu/aktualis/krimi/atvagtak-a-nagyszuleik-torkat-majd-hazibulit-rendeztek-tinik/jchnml5 +https://www.blikk.hu/aktualis/kineveztek-fazakast-europai-szamvevonek/ymym6nb +https://www.blikk.hu/sztarvilag/gene-simmons-nem-vagyok-jeno-bacsi-interju/w5xheny +https://www.blikk.hu/sztarvilag/sztarsztorik/ll-junior-sztarban-sztar-leszek-kiakadt/wgf7qyq +https://www.blikk.hu/aktualis/o-a-kalyhak-asszonya/lgkqn3q +https://www.blikk.hu/sztarvilag/zene/3-ev-utan-uj-albumon-dolgozik-adele/dxlxx1z +https://www.blikk.hu/aktualis/nem-volt-otos-a-lotton-otoslotto-nyeroszamai/rps86kn +https://www.blikk.hu/sztarvilag/sztarsztorik/fogadasokat-is-lehet-kotni-meghan-markle-es-harry-herceg-eljegyzesere/z2hnyr0 +https://www.blikk.hu/aktualis/bambi-a-jegen-video/ljlzfyk +https://www.blikk.hu/aktualis/a-keno-nyeroszamai/erq3q30 \ No newline at end of file From 93513f96e34fe080d9006355c51448804147f89f Mon Sep 17 00:00:00 2001 From: everybitmihaly Date: Thu, 31 Mar 2022 10:27:28 +0200 Subject: [PATCH 06/23] blikk update --- configs/blikk/blikk_notebook.ipynb | 3004 ++++++++++++++++++++ configs/blikk/blikk_notext_tags_normal.tsv | 509 ++++ configs/blikk/blikk_specific.py | 23 +- configs/blikk/blikk_text_tags_normal.tsv | 576 ++++ 4 files changed, 4110 insertions(+), 2 deletions(-) create mode 100644 configs/blikk/blikk_notebook.ipynb create mode 100644 configs/blikk/blikk_notext_tags_normal.tsv create mode 100644 configs/blikk/blikk_text_tags_normal.tsv diff --git a/configs/blikk/blikk_notebook.ipynb b/configs/blikk/blikk_notebook.ipynb new file mode 100644 index 0000000..21ce516 --- /dev/null +++ b/configs/blikk/blikk_notebook.ipynb @@ -0,0 +1,3004 @@ +{ + "cells": [ + { + "cell_type": "code", + "execution_count": 9, + "metadata": {}, + "outputs": [], + "source": [ + "import re\n", + "import json\n", + "import locale\n", + "import requests\n", + "import pandas as pd\n", + "from mplogger import Logger\n", + "from datetime import datetime\n", + "from bs4 import BeautifulSoup\n", + "from collections import Counter\n", + "from html2tei import parse_date\n", + "\n", + "from warcio.archiveiterator import ArchiveIterator\n", + "from webarticlecurator import WarcCachingDownloader\n", + "\n", + "from blikk_specific import get_meta_from_articles_spec as get_meta" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "

TODO:

\n", + "\n", + "- Mi van a pulse_embedekkel - meg kell nézni, hogy mindig van e alattuk iframe, ha igen akkor nem kell beagyazott_tartalomként jelölni\n", + "- Create BLACKLIST warc to check if really missing - urls from log [DONE]\n", + "- Invalid ref [STARTED]\n", + "- Invalid p: kérdéses, hogy kell-e a tag maga mivel ajánló: https://www.blikk.hu/aktualis/belfold/friss-hirek-eb-donto-pfizer-bognar-velence/b9v102q [DONE]\n", + "- Check if sponsoredBlock link has been removed [DONE] (Question of regif.dot item links which are empty square images are still in the TEIs)\n", + "- Why is video iframe missing from this? https://www.blikk.hu/sztarvilag/sztarsztorik/fodor-zsoka-ismerkedes-udvarloi-levelek/cxdwfvl\n", + "- Is \\ class=\"row bottomTags\" okay like this?\n", + "\n", + "

NOTES:

\n", + "\n", + "- Quiz válasz ami megjelenik miután kitöltötted: https://www.blikk.hu/sztarvilag/sztarsztorik/kviz-botrany-byealex-toth-gabi-puskas-peti-majka-szoke-zoli/nq098f4 ezeknek mi legyen a sorsa?\n", + "- Mindenképp meg kell nézni, hogy a 'Hirdetés' subtitle-t tényleg decompolta-e. Erre kell link!\n", + "- Az ilyeneknél: https://www.blikk.hu/aktualis/belfold/dunaba-csuszott-egy-auto-szentendren/fdf5gbc amikor egy mondaton belül a \\ tagek egymás mellett vannak az furcsán néz ki, lehet vele valamit kezdeni? \\ a \\ \\kutya\\" + ] + }, + { + "cell_type": "code", + "execution_count": 81, + "metadata": {}, + "outputs": [], + "source": [ + "# Linkek\n", + "section_recommend_problem = 'https://www.blikk.hu/aktualis/kulfold/eminem-rappelve-alazta-meg-donald-trumpot/qh11yxe'\n", + "section_row_problem = 'https://www.blikk.hu/sztarvilag/agi-amerikai-versenyre-gyur/9jqxtrr'\n", + "article_recommend_problem = 'https://www.blikk.hu/aktualis/belfold/kekesteto-ho-havazas-bukk/7cb8kj9'\n", + "image_wrapper_problem = 'https://www.blikk.hu/aktualis/biszku-bela-ejjel-vitette-el-goncz-arpadot-csaladja-mellol/g56nz38'\n", + "gallery_problem = 'https://www.blikk.hu/magyarorszag-szepe-miss-world-hungary-2016/21c7mzr'\n", + "quiz_problem = 'https://www.blikk.hu/aktualis/belfold/inzultus-az-iskolaban-megalazo-helyzetek/kp0ms9r'\n", + "formitem_num_problem = 'https://www.blikk.hu/aktualis/belfold/szavazzon-melyik-halloweeni-maskara-a-legfelelmetesebb/ndgbchz'\n", + "q_problem = 'https://www.blikk.hu/aktualis/krimi/drog-nagy-britannia-csevego-alkalmazas/cbjt3ds'\n", + "promo_problem = 'https://www.blikk.hu/sztarvilag/stohl-kis-hijan-sajat-magaval-vegzett/0l455xm'\n", + "subtitle_problem = 'https://www.blikk.hu/eletmod/tippek/hogyan-kerulheto-el-a-teli-megfazas/36sk0wh'\n", + "quiz_megosztas_problem = 'https://www.blikk.hu/sztarvilag/kultura/moliere-400-eve-szuletett-irodalom/fxf50jv' # AMIT VISSZAAD MIUTÁN KITÖLTÖTTED A QUIZT\n", + "detail_right_size_problem = 'https://www.blikk.hu/sztarvilag/sztarsztorik/kelemen-anna-teljesen-pucer-legujabb-kepen/pn8dlz9'\n", + "recept_box_problem = 'https://www.blikk.hu/receptek/konnyu-vacsora/mennyei-recept-konnyed-csirkes-lasagne/l7n9dqe'\n", + "amikor_a_quiz_kérdés_válasza_= 'https://www.blikk.hu/sztarvilag/sztarsztorik/kviz-botrany-byealex-toth-gabi-puskas-peti-majka-szoke-zoli/nq098f4'\n", + "\n", + "EMPTY_1 = 'https://www.blikk.hu/aktualis/krimi/atvagtak-a-nagyszuleik-torkat-majd-hazibulit-rendeztek-tinik/jchnml5'\n", + "EMPTY_2 = 'https://www.blikk.hu/aktualis/kineveztek-fazakast-europai-szamvevonek/ymym6nb'\n", + "EMPTY_3 = 'https://www.blikk.hu/sztarvilag/gene-simmons-nem-vagyok-jeno-bacsi-interju/w5xheny'\n", + "\n", + "ajanlo_a_cikk_vegen = 'https://www.blikk.hu/aktualis/belfold/friss-hirek-eb-donto-pfizer-bognar-velence/b9v102q'\n", + "\n", + "aktualis_ketszer = 'https://www.blikk.hu/aktualis/indexel-is-a-bringassisak/4zk43qs'\n", + "sponsoredBlock = 'https://www.blikk.hu/eletmod/30-kilo-fogyas-csodalatos-gyogyulas-ezek-az-emberek-bebizonyitottak-hogy-semmi-sem/hlnj16t'\n", + "missing_vid = \"https://www.blikk.hu/sztarvilag/sztarsztorik/fodor-zsoka-ismerkedes-udvarloi-levelek/cxdwfvl\"\n", + "horvatos = \"https://www.blikk.hu/sport/foci-eb-2016/veruket-adtak-a-gyozelemert-a-horvatok-modric-dontotte-el-a-torokok-elleni-merkozest/t814r9j\"\n", + "mvp1 = \"https://www.blikk.hu/sztarvilag/sztarsztorik/victoria-david-beckham-fia-romeo-18/wxpmz7k\"" + ] + }, + { + "cell_type": "code", + "execution_count": 2, + "metadata": {}, + "outputs": [], + "source": [ + "def response_warc_record_gen(warc_filename):\n", + " archive_base = ArchiveIterator(open(warc_filename, 'rb'))\n", + " for rec in archive_base:\n", + " if rec.rec_type == 'response':\n", + " article_url = rec.rec_headers.get_header('WARC-Target-URI')\n", + " raw_html = rec.content_stream().read()\n", + " yield article_url, raw_html\n", + "\n", + "def extract_resp_record_data(resp):\n", + " \"\"\"Extract response date, WARC ID and raw HTML from a WARC response record\"\"\"\n", + " warc_response_date = resp.rec_headers.get_header('WARC-Date')\n", + " if '.' in warc_response_date:\n", + " date_format = '%Y-%m-%dT%H:%M:%S.%fZ'\n", + " else:\n", + " date_format = '%Y-%m-%dT%H:%M:%SZ'\n", + " warc_response_datetime = datetime.strptime(warc_response_date, date_format)\n", + " warc_id = resp.rec_headers.get_header('WARC-Record-ID')\n", + " raw_html = resp.content_stream().read().decode(resp.rec_headers.get_header('WARC-X-Detected-Encoding'))\n", + "\n", + " return warc_response_datetime, warc_id, raw_html" + ] + }, + { + "cell_type": "code", + "execution_count": 3, + "metadata": {}, + "outputs": [], + "source": [ + "# locale.setlocale(locale.LC_ALL, 'hu_HU.UTF-8')\n", + "def response_warc_record_gen(warc_filename):\n", + " archive_base = ArchiveIterator(open(warc_filename, 'rb'))\n", + " for rec in archive_base:\n", + " if rec.rec_type == 'response':\n", + " article_url = rec.rec_headers.get_header('WARC-Target-URI')\n", + " raw_html = rec.content_stream().read()\n", + " yield article_url, raw_html" + ] + }, + { + "cell_type": "code", + "execution_count": 67, + "metadata": {}, + "outputs": [ + { + "name": "stderr", + "output_type": "stream", + "text": [ + "2022-03-30 11:56:51,481 INFO: Logging started\n", + "2022-03-30 11:56:51,484 INFO: Creating index for ../../warcs_dir/blikk_mvp.warc.gz...\n", + "2022-03-30 11:56:51,495 INFO: Index successfully created.\n" + ] + } + ], + "source": [ + "logger = Logger()\n", + "warc_filename_mvp = '../../warcs_dir/blikk_mvp.warc.gz'\n", + "mvp_warc = WarcCachingDownloader(warc_filename_mvp, None, logger, just_cache=True, download_params={'stay_offline': True})" + ] + }, + { + "cell_type": "code", + "execution_count": 5, + "metadata": {}, + "outputs": [ + { + "name": "stderr", + "output_type": "stream", + "text": [ + "2022-03-30 10:33:13,721 INFO: Logging started\n", + "2022-03-30 10:33:13,721 INFO: Logging started\n" + ] + } + ], + "source": [ + "logger = Logger()\n", + "warc_filename = '../../warcs_dir/blikk-articles_new3.warc.gz'\n", + "w = WarcCachingDownloader(warc_filename, None, logger, just_cache=True, download_params={'stay_offline': True})" + ] + }, + { + "cell_type": "code", + "execution_count": 4, + "metadata": {}, + "outputs": [], + "source": [ + "iter_10 = response_warc_record_gen(warc_filename)" + ] + }, + { + "cell_type": "code", + "execution_count": 5, + "metadata": {}, + "outputs": [ + { + "name": "stderr", + "output_type": "stream", + "text": [ + "2022-03-23 14:05:52,836 WARNING: https://www.blikk.hu/aktualis/o-a-kalyhak-asszonya/lgkqn3q: TITLE SECTION TAG NOT FOUND!\n", + "2022-03-23 14:05:52,838 WARNING: https://www.blikk.hu/aktualis/o-a-kalyhak-asszonya/lgkqn3q: DATE PUBLISHED TAG NOT FOUND!\n", + "2022-03-23 14:05:52,945 WARNING: https://www.blikk.hu/aktualis/nem-volt-otos-a-lotton-otoslotto-nyeroszamai/rps86kn: TITLE SECTION TAG NOT FOUND!\n", + "2022-03-23 14:05:52,947 WARNING: https://www.blikk.hu/aktualis/nem-volt-otos-a-lotton-otoslotto-nyeroszamai/rps86kn: DATE PUBLISHED TAG NOT FOUND!\n", + "2022-03-23 14:05:52,985 WARNING: https://www.blikk.hu/sztarvilag/zene/3-ev-utan-uj-albumon-dolgozik-adele/dxlxx1z: TITLE SECTION TAG NOT FOUND!\n", + "2022-03-23 14:05:52,986 WARNING: https://www.blikk.hu/sztarvilag/zene/3-ev-utan-uj-albumon-dolgozik-adele/dxlxx1z: DATE PUBLISHED TAG NOT FOUND!\n", + "2022-03-23 14:05:53,025 WARNING: https://www.blikk.hu/sztarvilag/sztarsztorik/ll-junior-sztarban-sztar-leszek-kiakadt/wgf7qyq: TITLE SECTION TAG NOT FOUND!\n", + "2022-03-23 14:05:53,026 WARNING: https://www.blikk.hu/sztarvilag/sztarsztorik/ll-junior-sztarban-sztar-leszek-kiakadt/wgf7qyq: DATE PUBLISHED TAG NOT FOUND!\n", + "2022-03-23 14:05:53,064 WARNING: https://www.blikk.hu/aktualis/bambi-a-jegen-video/ljlzfyk: TITLE SECTION TAG NOT FOUND!\n", + "2022-03-23 14:05:53,065 WARNING: https://www.blikk.hu/aktualis/bambi-a-jegen-video/ljlzfyk: DATE PUBLISHED TAG NOT FOUND!\n", + "2022-03-23 14:05:53,103 WARNING: https://www.blikk.hu/sztarvilag/sztarsztorik/fogadasokat-is-lehet-kotni-meghan-markle-es-harry-herceg-eljegyzesere/z2hnyr0: TITLE SECTION TAG NOT FOUND!\n", + "2022-03-23 14:05:53,105 WARNING: https://www.blikk.hu/sztarvilag/sztarsztorik/fogadasokat-is-lehet-kotni-meghan-markle-es-harry-herceg-eljegyzesere/z2hnyr0: DATE PUBLISHED TAG NOT FOUND!\n", + "2022-03-23 14:05:53,143 WARNING: https://www.blikk.hu/aktualis/kineveztek-fazakast-europai-szamvevonek/ymym6nb: TITLE SECTION TAG NOT FOUND!\n", + "2022-03-23 14:05:53,144 WARNING: https://www.blikk.hu/aktualis/kineveztek-fazakast-europai-szamvevonek/ymym6nb: DATE PUBLISHED TAG NOT FOUND!\n", + "2022-03-23 14:05:53,183 WARNING: https://www.blikk.hu/sztarvilag/gene-simmons-nem-vagyok-jeno-bacsi-interju/w5xheny: TITLE SECTION TAG NOT FOUND!\n", + "2022-03-23 14:05:53,184 WARNING: https://www.blikk.hu/sztarvilag/gene-simmons-nem-vagyok-jeno-bacsi-interju/w5xheny: DATE PUBLISHED TAG NOT FOUND!\n", + "2022-03-23 14:05:53,222 WARNING: https://www.blikk.hu/aktualis/krimi/atvagtak-a-nagyszuleik-torkat-majd-hazibulit-rendeztek-tinik/jchnml5: TITLE SECTION TAG NOT FOUND!\n", + "2022-03-23 14:05:53,223 WARNING: https://www.blikk.hu/aktualis/krimi/atvagtak-a-nagyszuleik-torkat-majd-hazibulit-rendeztek-tinik/jchnml5: DATE PUBLISHED TAG NOT FOUND!\n", + "2022-03-23 14:05:53,260 WARNING: https://www.blikk.hu/aktualis/a-keno-nyeroszamai/erq3q30: TITLE SECTION TAG NOT FOUND!\n", + "2022-03-23 14:05:53,261 WARNING: https://www.blikk.hu/aktualis/a-keno-nyeroszamai/erq3q30: DATE PUBLISHED TAG NOT FOUND!\n" + ] + } + ], + "source": [ + "for i in range(10):\n", + " u, h = next(iter_10)\n", + " get_meta(logger, u, BeautifulSoup(h, 'lxml'))" + ] + }, + { + "cell_type": "code", + "execution_count": 6, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "defaultdict(.()>,\n", + " {'sch:url': 'https://www.blikk.hu/aktualis/indexel-is-a-bringassisak/4zk43qs',\n", + " 'sch:name': 'Indexel is a bringássisak',\n", + " 'sch:datePublished': datetime.datetime(2013, 4, 1, 18, 23),\n", + " 'sch:articleSection': 'Aktuális',\n", + " 'sch:artcleSection': None,\n", + " 'sch:keywords': ['új bringás sisak',\n", + " 'sisak',\n", + " 'kerékpáros',\n", + " 'aktuális']})" + ] + }, + "execution_count": 6, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "# FROM REQUEST\n", + "\n", + "txt = requests.get(aktualis_ketszer).text\n", + "soup = BeautifulSoup(txt, 'lxml')\n", + "get_meta(logger, aktualis_ketszer, soup)\n" + ] + }, + { + "cell_type": "code", + "execution_count": 99, + "metadata": {}, + "outputs": [], + "source": [ + "detal_section = soup.find('section', class_='detail')\n", + "all_immediate_detail_tags = detal_section.find_all(recursive=False)" + ] + }, + { + "cell_type": "code", + "execution_count": 128, + "metadata": {}, + "outputs": [], + "source": [ + "\n", + "detal_section = soup.find('section', class_='detail')\n", + "all_immediate_detail_tags = detal_section.find_all(recursive=False)\n", + "if len(all_immediate_detail_tags) > 1:\n", + " check = lambda t: t.name == 'div' and 'class' in t.attrs.keys() and t['class'] == ['live_article_section']\n", + " for f in all_immediate_detail_tags:\n", + " if f.name == 'p' and check(all_immediate_detail_tags[-2]) is True:\n", + " link_tag = f.find('a', {'id':True, 'rel':True, 'href':True})\n", + " if link_tag is not None and 'blikk.hu' in link_tag['href']:\n", + " f.decompose()\n", + "\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 129, + "metadata": {}, + "outputs": [ + { + "ename": "AttributeError", + "evalue": "'NoneType' object has no attribute 'items'", + "output_type": "error", + "traceback": [ + "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m", + "\u001b[0;31mAttributeError\u001b[0m Traceback (most recent call last)", + "File \u001b[0;32m~/.local/lib/python3.8/site-packages/IPython/core/formatters.py:707\u001b[0m, in \u001b[0;36mPlainTextFormatter.__call__\u001b[0;34m(self, obj)\u001b[0m\n\u001b[1;32m 700\u001b[0m stream \u001b[39m=\u001b[39m StringIO()\n\u001b[1;32m 701\u001b[0m printer \u001b[39m=\u001b[39m pretty\u001b[39m.\u001b[39mRepresentationPrinter(stream, \u001b[39mself\u001b[39m\u001b[39m.\u001b[39mverbose,\n\u001b[1;32m 702\u001b[0m \u001b[39mself\u001b[39m\u001b[39m.\u001b[39mmax_width, \u001b[39mself\u001b[39m\u001b[39m.\u001b[39mnewline,\n\u001b[1;32m 703\u001b[0m max_seq_length\u001b[39m=\u001b[39m\u001b[39mself\u001b[39m\u001b[39m.\u001b[39mmax_seq_length,\n\u001b[1;32m 704\u001b[0m singleton_pprinters\u001b[39m=\u001b[39m\u001b[39mself\u001b[39m\u001b[39m.\u001b[39msingleton_printers,\n\u001b[1;32m 705\u001b[0m type_pprinters\u001b[39m=\u001b[39m\u001b[39mself\u001b[39m\u001b[39m.\u001b[39mtype_printers,\n\u001b[1;32m 706\u001b[0m deferred_pprinters\u001b[39m=\u001b[39m\u001b[39mself\u001b[39m\u001b[39m.\u001b[39mdeferred_printers)\n\u001b[0;32m--> 707\u001b[0m printer\u001b[39m.\u001b[39;49mpretty(obj)\n\u001b[1;32m 708\u001b[0m printer\u001b[39m.\u001b[39mflush()\n\u001b[1;32m 709\u001b[0m \u001b[39mreturn\u001b[39;00m stream\u001b[39m.\u001b[39mgetvalue()\n", + "File \u001b[0;32m~/.local/lib/python3.8/site-packages/IPython/lib/pretty.py:393\u001b[0m, in \u001b[0;36mRepresentationPrinter.pretty\u001b[0;34m(self, obj)\u001b[0m\n\u001b[1;32m 390\u001b[0m \u001b[39mfor\u001b[39;00m \u001b[39mcls\u001b[39m \u001b[39min\u001b[39;00m _get_mro(obj_class):\n\u001b[1;32m 391\u001b[0m \u001b[39mif\u001b[39;00m \u001b[39mcls\u001b[39m \u001b[39min\u001b[39;00m \u001b[39mself\u001b[39m\u001b[39m.\u001b[39mtype_pprinters:\n\u001b[1;32m 392\u001b[0m \u001b[39m# printer registered in self.type_pprinters\u001b[39;00m\n\u001b[0;32m--> 393\u001b[0m \u001b[39mreturn\u001b[39;00m \u001b[39mself\u001b[39;49m\u001b[39m.\u001b[39;49mtype_pprinters[\u001b[39mcls\u001b[39;49m](obj, \u001b[39mself\u001b[39;49m, cycle)\n\u001b[1;32m 394\u001b[0m \u001b[39melse\u001b[39;00m:\n\u001b[1;32m 395\u001b[0m \u001b[39m# deferred printer\u001b[39;00m\n\u001b[1;32m 396\u001b[0m printer \u001b[39m=\u001b[39m \u001b[39mself\u001b[39m\u001b[39m.\u001b[39m_in_deferred_types(\u001b[39mcls\u001b[39m)\n", + "File \u001b[0;32m~/.local/lib/python3.8/site-packages/IPython/lib/pretty.py:640\u001b[0m, in \u001b[0;36m_seq_pprinter_factory..inner\u001b[0;34m(obj, p, cycle)\u001b[0m\n\u001b[1;32m 638\u001b[0m p\u001b[39m.\u001b[39mtext(\u001b[39m'\u001b[39m\u001b[39m,\u001b[39m\u001b[39m'\u001b[39m)\n\u001b[1;32m 639\u001b[0m p\u001b[39m.\u001b[39mbreakable()\n\u001b[0;32m--> 640\u001b[0m p\u001b[39m.\u001b[39;49mpretty(x)\n\u001b[1;32m 641\u001b[0m \u001b[39mif\u001b[39;00m \u001b[39mlen\u001b[39m(obj) \u001b[39m==\u001b[39m \u001b[39m1\u001b[39m \u001b[39mand\u001b[39;00m \u001b[39misinstance\u001b[39m(obj, \u001b[39mtuple\u001b[39m):\n\u001b[1;32m 642\u001b[0m \u001b[39m# Special case for 1-item tuples.\u001b[39;00m\n\u001b[1;32m 643\u001b[0m p\u001b[39m.\u001b[39mtext(\u001b[39m'\u001b[39m\u001b[39m,\u001b[39m\u001b[39m'\u001b[39m)\n", + "File \u001b[0;32m~/.local/lib/python3.8/site-packages/IPython/lib/pretty.py:410\u001b[0m, in \u001b[0;36mRepresentationPrinter.pretty\u001b[0;34m(self, obj)\u001b[0m\n\u001b[1;32m 407\u001b[0m \u001b[39mreturn\u001b[39;00m meth(obj, \u001b[39mself\u001b[39m, cycle)\n\u001b[1;32m 408\u001b[0m \u001b[39mif\u001b[39;00m \u001b[39mcls\u001b[39m \u001b[39mis\u001b[39;00m \u001b[39mnot\u001b[39;00m \u001b[39mobject\u001b[39m \\\n\u001b[1;32m 409\u001b[0m \u001b[39mand\u001b[39;00m callable(\u001b[39mcls\u001b[39m\u001b[39m.\u001b[39m\u001b[39m__dict__\u001b[39m\u001b[39m.\u001b[39mget(\u001b[39m'\u001b[39m\u001b[39m__repr__\u001b[39m\u001b[39m'\u001b[39m)):\n\u001b[0;32m--> 410\u001b[0m \u001b[39mreturn\u001b[39;00m _repr_pprint(obj, \u001b[39mself\u001b[39;49m, cycle)\n\u001b[1;32m 412\u001b[0m \u001b[39mreturn\u001b[39;00m _default_pprint(obj, \u001b[39mself\u001b[39m, cycle)\n\u001b[1;32m 413\u001b[0m \u001b[39mfinally\u001b[39;00m:\n", + "File \u001b[0;32m~/.local/lib/python3.8/site-packages/IPython/lib/pretty.py:778\u001b[0m, in \u001b[0;36m_repr_pprint\u001b[0;34m(obj, p, cycle)\u001b[0m\n\u001b[1;32m 776\u001b[0m \u001b[39m\"\"\"A pprint that just redirects to the normal repr function.\"\"\"\u001b[39;00m\n\u001b[1;32m 777\u001b[0m \u001b[39m# Find newlines and replace them with p.break_()\u001b[39;00m\n\u001b[0;32m--> 778\u001b[0m output \u001b[39m=\u001b[39m \u001b[39mrepr\u001b[39;49m(obj)\n\u001b[1;32m 779\u001b[0m lines \u001b[39m=\u001b[39m output\u001b[39m.\u001b[39msplitlines()\n\u001b[1;32m 780\u001b[0m \u001b[39mwith\u001b[39;00m p\u001b[39m.\u001b[39mgroup():\n", + "File \u001b[0;32m/usr/lib/python3/dist-packages/bs4/element.py:1411\u001b[0m, in \u001b[0;36mTag.__unicode__\u001b[0;34m(self)\u001b[0m\n\u001b[1;32m 1409\u001b[0m \u001b[39mdef\u001b[39;00m \u001b[39m__unicode__\u001b[39m(\u001b[39mself\u001b[39m):\n\u001b[1;32m 1410\u001b[0m \u001b[39m\"\"\"Renders this PageElement as a Unicode string.\"\"\"\u001b[39;00m\n\u001b[0;32m-> 1411\u001b[0m \u001b[39mreturn\u001b[39;00m \u001b[39mself\u001b[39;49m\u001b[39m.\u001b[39;49mdecode()\n", + "File \u001b[0;32m/usr/lib/python3/dist-packages/bs4/element.py:1475\u001b[0m, in \u001b[0;36mTag.decode\u001b[0;34m(self, indent_level, eventual_encoding, formatter)\u001b[0m\n\u001b[1;32m 1473\u001b[0m \u001b[39mif\u001b[39;00m \u001b[39mnot\u001b[39;00m \u001b[39misinstance\u001b[39m(formatter, Formatter):\n\u001b[1;32m 1474\u001b[0m formatter \u001b[39m=\u001b[39m \u001b[39mself\u001b[39m\u001b[39m.\u001b[39mformatter_for_name(formatter)\n\u001b[0;32m-> 1475\u001b[0m attributes \u001b[39m=\u001b[39m formatter\u001b[39m.\u001b[39;49mattributes(\u001b[39mself\u001b[39;49m)\n\u001b[1;32m 1476\u001b[0m attrs \u001b[39m=\u001b[39m []\n\u001b[1;32m 1477\u001b[0m \u001b[39mfor\u001b[39;00m key, val \u001b[39min\u001b[39;00m attributes:\n", + "File \u001b[0;32m/usr/lib/python3/dist-packages/bs4/formatter.py:111\u001b[0m, in \u001b[0;36mFormatter.attributes\u001b[0;34m(self, tag)\u001b[0m\n\u001b[1;32m 104\u001b[0m \u001b[39mdef\u001b[39;00m \u001b[39mattributes\u001b[39m(\u001b[39mself\u001b[39m, tag):\n\u001b[1;32m 105\u001b[0m \u001b[39m\"\"\"Reorder a tag's attributes however you want.\u001b[39;00m\n\u001b[1;32m 106\u001b[0m \u001b[39m \u001b[39;00m\n\u001b[1;32m 107\u001b[0m \u001b[39m By default, attributes are sorted alphabetically. This makes\u001b[39;00m\n\u001b[1;32m 108\u001b[0m \u001b[39m behavior consistent between Python 2 and Python 3, and preserves\u001b[39;00m\n\u001b[1;32m 109\u001b[0m \u001b[39m backwards compatibility with older versions of Beautiful Soup.\u001b[39;00m\n\u001b[1;32m 110\u001b[0m \u001b[39m \"\"\"\u001b[39;00m\n\u001b[0;32m--> 111\u001b[0m \u001b[39mreturn\u001b[39;00m \u001b[39msorted\u001b[39m(tag\u001b[39m.\u001b[39;49mattrs\u001b[39m.\u001b[39;49mitems())\n", + "\u001b[0;31mAttributeError\u001b[0m: 'NoneType' object has no attribute 'items'" + ] + } + ], + "source": [ + "all_immediate_detail_tags" + ] + }, + { + "cell_type": "code", + "execution_count": 51, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "True" + ] + }, + "execution_count": 51, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "tc = lambda x: x.name == 'div' and 'class' in x.attrs.keys() and x['class'] == ['live_article_section']\n", + "tc(all_immediate_detail_tags[-2])" + ] + }, + { + "cell_type": "code", + "execution_count": 69, + "metadata": {}, + "outputs": [], + "source": [ + "for f in reversed(all_immediate_detail_tags):\n", + " if f.name == 'p':\n", + " f.decompose()" + ] + }, + { + "cell_type": "code", + "execution_count": 64, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "
\n", + "
\n", + "
\n", + "
" + ] + }, + "execution_count": 64, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "txt = requests.get('https://www.blikk.hu/sport/foci-eb-2016/veruket-adtak-a-gyozelemert-a-horvatok-modric-dontotte-el-a-torokok-elleni-merkozest/t814r9j').text\n", + "soup = BeautifulSoup(txt, 'lxml')\n", + "soup.find('div', {'class':'mvpLoading'})" + ] + }, + { + "cell_type": "code", + "execution_count": 126, + "metadata": {}, + "outputs": [ + { + "ename": "AttributeError", + "evalue": "'NoneType' object has no attribute 'find'", + "output_type": "error", + "traceback": [ + "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m", + "\u001b[0;31mAttributeError\u001b[0m Traceback (most recent call last)", + "\u001b[1;32m/home/misinagy/WORKSPACE/html2tei/HTML2TEI/configs/blikk/blikk_notebook.ipynb Cell 16'\u001b[0m in \u001b[0;36m\u001b[0;34m\u001b[0m\n\u001b[0;32m----> 1\u001b[0m soup\u001b[39m.\u001b[39;49mfind(\u001b[39m'\u001b[39m\u001b[39msection\u001b[39m\u001b[39m'\u001b[39m, class_\u001b[39m=\u001b[39m\u001b[39m'\u001b[39m\u001b[39mdetail\u001b[39m\u001b[39m'\u001b[39m)\u001b[39m.\u001b[39mfind_all(recursive\u001b[39m=\u001b[39m\u001b[39mFalse\u001b[39;00m)[\u001b[39m-\u001b[39m\u001b[39m1\u001b[39m]\n", + "\u001b[0;31mAttributeError\u001b[0m: 'NoneType' object has no attribute 'find'" + ] + } + ], + "source": [ + "soup.find('section', class_='detail').find_all(recursive=False)[-1]\n" + ] + }, + { + "cell_type": "code", + "execution_count": 82, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "defaultdict(.()>,\n", + " {'sch:url': 'https://www.blikk.hu/sztarvilag/sztarsztorik/victoria-david-beckham-fia-romeo-18/wxpmz7k',\n", + " 'sch:name': 'Az apja sármját örökölte: 18 éves lett Victoria és David Beckham „kisfia” – videó',\n", + " 'sch:datePublished': datetime.datetime(2020, 9, 1, 14, 9),\n", + " 'sch:author': ['Blikk-információ'],\n", + " 'sch:articleSection': 'Sztársztorik',\n", + " 'sch:artcleSection': None,\n", + " 'sch:keywords': ['David Beckham',\n", + " 'Victoria Beckham',\n", + " 'romeo',\n", + " 'Romeo Beckham',\n", + " '18',\n", + " 'születésnap',\n", + " 'sztárvilág',\n", + " 'sztársztorik']})" + ] + }, + "execution_count": 82, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "# FROM WARC\n", + "_, _, resp = mvp_warc.get_records(mvp1)\n", + "warc_response_datetime, warc_id, raw_html = extract_resp_record_data(resp)\n", + "soup = BeautifulSoup(raw_html, 'lxml')\n", + "get_meta(logger, mvp1, soup)\n", + "#[print(a.attrs) for a in all_articles]\n", + " " + ] + }, + { + "cell_type": "code", + "execution_count": 83, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "
\n", + "
\n", + "
\n", + "
" + ] + }, + "execution_count": 83, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "soup.find('div', {'class':'mvpLoading'})" + ] + }, + { + "cell_type": "code", + "execution_count": 84, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "'https://www.instagram.com/p/CElkS3Op-bf/?utm_source=ig_web_copy_link\"'" + ] + }, + "execution_count": 84, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "find_word = '\"url\":\"'\n", + "index1 = soup.find('div', {'class':'mvpLoading'}).div['data-params'].find(find_word) + len(find_word)\n", + "index2 = soup.find('div', {'class':'mvpLoading'}).div['data-params'][index1:].find('\"') +1 \n", + "soup.find('div', {'class':'mvpLoading'}).div['data-params'][index1:index1+index2]" + ] + }, + { + "cell_type": "code", + "execution_count": 85, + "metadata": {}, + "outputs": [], + "source": [ + "mvp_string = str(soup.find('div', {'class':'mvpLoading'}))" + ] + }, + { + "cell_type": "code", + "execution_count": 86, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "
\n", + "
\n", + "
\n", + "
" + ] + }, + "execution_count": 86, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "soup2 = BeautifulSoup(mvp_string, 'lxml')\n", + "def excluded_tags_spec(tag):\n", + " tag_attrs = tag.attrs\n", + " if tag.name == 'div' and 'data-embed-id' in tag_attrs.keys():\n", + " tag_attrs['data-embed-id'] = '@DATA-EMBED-ID'\n", + "\n", + " if tag.name == 'div' and tag_attrs == {'class': ['mvpLoading']}:\n", + " link_container_tag = tag.find('div', {'data-run-module':True, 'data-params':True})\n", + " if link_container_tag is not None:\n", + " url_beginning = '\"url\":\"'\n", + " index1 = link_container_tag['data-params'].find(url_beginning) + len(url_beginning)\n", + " index2 = link_container_tag['data-params'][index1:].find('\"')\n", + " link_from_json_string = link_container_tag['data-params'][index1:index1+index2]\n", + " tag['href'] = link_from_json_string\n", + " return tag\n", + "\n", + "excluded_tags_spec(soup2.find('div', {'class':'mvpLoading'}))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "

MISC" + ] + }, + { + "cell_type": "code", + "execution_count": 5, + "metadata": {}, + "outputs": [], + "source": [ + "with open('not_in_counts.json', 'r') as infile:\n", + " not_in_counts = json.load(infile)" + ] + }, + { + "cell_type": "code", + "execution_count": 17, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "[]" + ] + }, + "execution_count": 17, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "[l for l in all_blikk_urls if l.split('/')[3] not in not_in_counts.keys() and l.split('/')[3] not in SUBJECT_DICT.keys()]" + ] + }, + { + "cell_type": "code", + "execution_count": 21, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "['auto',\n", + " 'autotipp',\n", + " 'vonattal-utkozott-egy-auto',\n", + " 'evszazados-autocsoda',\n", + " 'ovatosan-mossuk-regi-auto',\n", + " 'ime-a-jovo-autoja',\n", + " 'kiteptek-a-falbol-az-automatat',\n", + " 'ragyujtottak-az-autot-egy-biztonsagi-orre',\n", + " 'kertbe-szallt-az-auto',\n", + " 'auto-vagodott-a-sportarenaba',\n", + " 'penzze-tett-meseauto',\n", + " 'ormanyos-automosas',\n", + " 'kutyautok',\n", + " 'szembejottek-az-autopalyan',\n", + " 'teglaval-tamad-autokra',\n", + " 'sajat-autokkal-a-borok-utjan',\n", + " 'autoszerelesben-is-bajnok',\n", + " 'porig-egett-egy-allo-auto',\n", + " 'hamilton-uj-autoja',\n", + " 'autostoppal-a-vilag-korul',\n", + " 'ezt-a-tuzoltoautot-epitettuk-otthon',\n", + " 'luxusautoval-a-bolhapiacon',\n", + " 'ime-a-vilag-legdragabb-autoja',\n", + " 'sajat-autoja-utotte-el',\n", + " 'felborult-autojaval-a-cserbenhagyo',\n", + " 'halal-az-autopalyan',\n", + " 'mit-keres-itt-auto',\n", + " 'autot-nyertem-a-blikk-kel',\n", + " 'automata-adja-a-tejet',\n", + " '500-loeros-autok-csataja',\n", + " 'eletveszelyesek-a-tuzoltoautok',\n", + " 'etios-ez-a-tipus-del-amerika-egyik-kedvenc-autoja',\n", + " 'megharomszorozott-auto-elettartam',\n", + " 'mutatjuk-hogy-melyik-a-google-elso-szamu-automarkaja',\n", + " 'megjelent-az-auto-bild-februari-szama',\n", + " 'magas-uj-es-hasznalt-auto-arak-ramaty-kinalat',\n", + " 'mar-lakoautot-is-gyartanak',\n", + " 'biztonsagi-tanusitvanyt-kapott-japanban-a-repulo-auto',\n", + " 'hibrid-rendorautokat-allitottak-szolgalatba-angliaban',\n", + " 'keves-orultebb-auto-letezik-a-vilagon-mint-ez-a-600-loeros-kisbusz',\n", + " 'mar-kozuton-tesztelik-a-szilardtest-akkumulatoros-autot',\n", + " 'iden-ezek-a-vilag-legertekesebb-automarkai',\n", + " 'kibertamadasok-elleni-vedelmen-az-autoiparban',\n", + " 'james-may-vakon-vette-meg-uj-autojat',\n", + " 'ennek-a-sportautonak-a-csucssebessege-csupan-28-kmh',\n", + " 'ezek-a-japan-luxus-automarka-2025-ig-szolo-tervei',\n", + " 'egy-ritka-autocsoda-felujitasa-a-masodik-fazisaba-erkezett',\n", + " 'ha-olyan-autot-szeretne-ami-nincs-is',\n", + " 'a-terepjarok-szerelmeseinek-kaphato-az-auto-bild-4x4-kulonszama',\n", + " 'ez-a-technologia-lesz-az-elektromos-autozas-szent-gralja',\n", + " 'szupersportautokat-eszik-reggelire-ez-a-kozel-700-loeros-sleeper',\n", + " 'mutatjuk-hogy-mi-talalhato-az-aktualis-auto-bildben',\n", + " 'az-elso-negyedevben-ezek-az-uj-autok-fogytak-itthon',\n", + " 'tegyen-lemezjatszot-az-autoba',\n", + " 'autoipari-forradalom-a-lathataron-igy-nez-ki-egy-univerzalis-uzemanyagcella-modul',\n", + " 'megvan-a-vilag-2021-es-kedvenc-noi-luxusautoja',\n", + " 'hamvaibol-tamad-fel-egy-legendas-sportauto',\n", + " 'kozeleg-a-tavasz-az-autok-is-viragba-borulnak',\n", + " 'az-ismeretlen-tanulmanyauto-ami-megvaltast-hozhatott-volna-a-jet-ski-sek-eletebe',\n", + " 'ezek-a-markak-viszik-elore-az-autoipart',\n", + " 'beulne-egy-ilyen-elektromos-varosi-miniautoba',\n", + " '25-millio-euros-jargany-az-auto-bild-sportauto-kulonszamaban',\n", + " 'ezek-az-ev-legfontosabb-autoipari-technologiai-ujitasai',\n", + " 'kilencszazezer-adasvetel-tanulsaga-a-hibrid-autok-tulajdonosai-a-legelegedettebbek',\n", + " 'villanyautohoz-komplett-europai-villanyhalozat-is-dukal',\n", + " 'taxi-autocsere-hatarido-meghosszabbitas',\n", + " 'what-car-felmeres-2020-itt-a-legmegbizhatobb-autok-rangsora',\n", + " 'beteg-autoatepitesek-ezt-latnia-kell',\n", + " 'ezek-a-legjobb-kutyas-autok-2020-ban',\n", + " 'megjelent-az-auto-bild-magyarorszag-szeptemberi-szama',\n", + " '5-os-fout-halalos-baleset-kerekparossal-utkozott-egy-teherauto',\n", + " '15-eves-fiu-obuda-auto-emblema-letor',\n", + " 'eszement-tuningauto-amin-semmi-sem-az-aminek-latszik',\n", + " 'oldtimer-es-youngtimer-koru-japan-sportautokhoz-ismet-kaphato-uj-alkatresz',\n", + " 'japan-foleny-ezek-a-legmegbizhatobb-hasznalt-autok',\n", + " 'hibrid-versenyauto-nincs-is-vagy-megis-itt-a-cosworth-toca-hybrid',\n", + " 'vajon-melyik-a-vilag-legertekesebb-automarkaja-mutatjuk',\n", + " 'megjelent-az-auto-bild-magyarorszag-nyari-szama-extra-16-oldal',\n", + " 'boris-johnson-london-jaguar-auto-tunteto',\n", + " 'vihar-debrecenben-elontotte-az-utcakat-az-ozonviz-autok-elmerulnek',\n", + " 'ide-jutott-fernando-alonso-teherautot-tesztel',\n", + " 'mutatjuk-a-villanyautokra-jaro-akar-25-millios-allami-tamogatas-reszleteit',\n", + " 'megujult-a-kia-kisautoja-porondon-a-mild-hibrid-rio',\n", + " 'nagy-baleset-tortent-a-xviii-keruletben-oszlopnak-csapodott-egy-auto',\n", + " 'irrealis-penzekkel-sarcolnak-a-biztositok-az-autosokat',\n", + " 'horvath-eva-dogos-szexi-takaritas-hazimuka-autotisztito-karpit',\n", + " 'meghalt-egy-22-honapos-kislany-miutan-3-orara-a-forro-autoban-hagyta-a-csaladja',\n", + " 'e-auto-villanyauto-tudnivalok',\n", + " 'kornyezetbarat-autok-az-f1-ben',\n", + " 'rendszamot-es-benzint-lopott-a-bedrogozott-autotolvaj-most-mehet-is-a-biro-ele',\n", + " 'm5-os-baleset-inarcs-autok-az-arokban',\n", + " 'bmw-kigyulladt-auto-tuz-oltas-motoros-video',\n", + " 'halalos-baleset-az-m5-os-autopalyan-szembefordult-suzukis',\n", + " 'halalos-baleset-tortent-az-m9-es-autouton-tolna-megyeben',\n", + " 'szalon-dubaiban-ahol-a-kiallitott-autok-kb-45-millio-dollart-ernek',\n", + " 'anglia-legelkenyeztetettebb-kutyaja-akinek-sajat-hajoja-es-autoja-van',\n", + " 'kamionbaleset-az-m1-es-autopalyan-10-kilometeres-a-sor-a-sztradan-fotok-a-helyszinrol',\n", + " 'szinte-eltunt-az-autok-eleje-hatborzongato-fotok-erkeztek-a-71-es-fouton-tortent',\n", + " 'elakadtak-az-autok-a-19-keruletben-az-eso-miatt',\n", + " 'fotok-az-oldalara-borult-mentoautorol-tobben-megserultek-a-budapesti-balesetben',\n", + " 'a-dunaba-zuhant-egy-auto-budapesten-nagy-erokkel-keresik',\n", + " 'teherauto-vontatmanya-akadt-fenn-egy-hidon',\n", + " 'a-bmw-motorhaztetojen-landolt-a-masik-auto-13-kerulet-baleset-budapest',\n", + " 'meghokkento-baleset-aluljaroba-hajtott-egy-autos-budapesten',\n", + " 'arokba-hajtott-egy-auto-rackeven',\n", + " 'ennyi-regi-autot-meg-biztosan-nem-latott-egy-helyen-budapesten-rendeztek-meg-a-regio',\n", + " 'keresztezodesben-utkozott-majd-fanak-csapodott-egy-auto-budapesten',\n", + " 'megmutatta-sebhelyet-az-autobaleset-utan-modell',\n", + " 'cafatokra-szakadt-a-kamionnal-utkozo-bmw-az-m5-os-autopalyan',\n", + " 'femeztelenul-vonaglo-holgyek-jarganyok-automobil-es-tuning-show-n',\n", + " 'villamos-utkozott-szemelyautoval',\n", + " 'vonattal-utkozott-egy-szemelyauto-debrecen-kulteruleten',\n", + " 'megyeri-uti-temeto-ujpest-kukasauto-viragbolt-baleset',\n", + " 'autot-mos-ana-braga-szexi-playmate-mellbimbo',\n", + " 'elkepeszto-jargany-elado-david-beckham-luxusautoja',\n", + " 'villamossal-utkozott-es-kigyulladt-egy-auto-a-bah-csomopontnal',\n", + " 'futurisztikus-autocsodak-es-az-orokzold-klasszikusok-genfi-autoszalon',\n", + " 'autobusz-motortere-gyulladt-ki-a-xii-keruletben',\n", + " 'elsullyedt-auto-duna-szigetmonostor-rev-komptuzoltok-rejtely',\n", + " 'halalos-rendorauto-baleset',\n", + " 'kiegett-egy-autobusz-a-24-es-fouton',\n", + " 'oszlopnak-utkozott-az-autos',\n", + " 'baleset-az-autopalyan-hajdunanas-kozeleben',\n", + " 'autoval-utkozott-ossze-egy-busz-nagykallon',\n", + " 'kukasauto-csapodott-hazfalba',\n", + " 'a-hatvano-eves-nick-arpad-guinness-rekordja-tuzoltoauto',\n", + " 'helyszini-kepek-a-pesterzsebeti-balesetrol-busz-kisteherauto',\n", + " 'mentoautoba-rejtett-pokolgep-robbant-kabulban',\n", + " 'vonattal-utkozott-egy-auto-dabasnal-gyerek-is-van-a-serultek-kozott',\n", + " 'elindult-a-mol-limo-bemutattak-az-autokat-fotok',\n", + " 'kirepult-az-autobol-majd-elgazoltak-a-sofort-az-m1-esen-fotok-a-horrorbalesetrol',\n", + " 'brutalis-kepek-az-autopalyara-omlott-a-pusztito-sarlavina-svajcban',\n", + " 'jessica-falkholt-es-csaladjanak-temetese-autobaleset',\n", + " 'hokotroval-utkozott-egy-auto-szodligeten',\n", + " 'durva-baleset-pesterzsebeten-kidontott-az-auto-egy-villanyoszlopot',\n", + " 'csucstechnologia-budapestrol-ime-ilyen-az-automatizalt-bolcsode',\n", + " 'sokkolo-fotok-a-roncsrol-anak-csapodott-egy-auto-nyirgyulajnal',\n", + " 'tomegbaleset-ot-auto-tort-romma-a-blahan-megerkeztek-a-fotok',\n", + " 'erre-az-autora-lottek-ra-csepelen-helyszini-fotok',\n", + " 'megalloba-loke-a-buszt-az-auto-harman-is-megserultek',\n", + " 'elarverezik-hitler-autojat',\n", + " 'ot-auto-karambolozott-a-vaci-uton',\n", + " 'villamossal-utkozott-ossze-egy-auto-pesterzsebeten',\n", + " 'arokba-hajtott-egy-auto-kisfaludnal',\n", + " 'mikrobusszal-utkozott-majd-arokba-csapodott-egy-auto',\n", + " 'villamos-es-kisteherauto-utkozott-a-budapesti-bah-csomopontnal',\n", + " 'szetolvadtak-az-autok-a-forrosagtol-dobbenetes-fotok-erkeztek-az-osztrak-robbanasrol',\n", + " 'szigethalmon-gazpalackok-robbantak-egy-kisteherautoban',\n", + " 'tomegbaleset-budapesten-osszetort-rendorauto-rengeteg-serult',\n", + " 'teherautoval-utkoztek-fotok-az-51-es-fouton-tortent-balesetrol',\n", + " 'tomegbaleset-tortent-az-m43-as-autopalyan',\n", + " 'tuz-utott-ki-egy-csepeli-autokereskedesben',\n", + " 'tragedia-zalaban-kamionnal-utkozott-szornyethalt-az-autos-helyszini-fotok',\n", + " 'felborult-az-auto-a-x-keruleti-balesetben-fotok',\n", + " 'minden-szenne-egett-autoalkatresz-raktar-gyulladt-ki-budapesten',\n", + " 'szemelyvonattal-utkozott-egy-kisteherauto-csorogon',\n", + " 'ennyi-maradt-az-autobol-sokkolo-kepek-a-debreceni-halalos-balesetrol',\n", + " 'szetszakadt-a-tankauto-romma-tort-kisbusz-az-m0-ason',\n", + " 'beszorult-az-autoba-no-a-brutalis-karambol-utan-igy-szabaditottak-ki-a-roncsbol-fotok',\n", + " 'buszmegalloba-csapodott-az-auto-budapesten',\n", + " 'teljesen-letarolta-a-vonat-a-szemelyautot-hodmezovasarhely-baleset',\n", + " 'horror-autos-uldozes-az-m5-on-a-rendorseg-szitava-lotte-az-amokfutot',\n", + " 'kamion-es-szemelyauto-utkozott-ossze-soredne',\n", + " 'villamos-gyurt-oszlopra-egy-autot-zugloban',\n", + " 'durva-baleset-ferihegyi-uton-leszakadt-az-egyik-auto-oldala',\n", + " 'kamion-borult-fel-az-m3-autopalyan',\n", + " 'van-bor-a-kepen-rokkanthelyen-parkolt-a-sztar-luxusautojaval',\n", + " 'egy-autoban-talaltak-ra-erre-a-kisoroszlanra',\n", + " 'villamosnak-hajtott-egy-auto-majd-egy-gyalogost-is-elutott-a-zebran',\n", + " 'baleset-a-vagohid-utcaban-szemelyauto-es-motoros-rendor-utkozott',\n", + " 'elkepeszto-luxusverdak-alomautokat-tart-garazsaban-lionel-messi',\n", + " 'felborult-egy-kamion-az-m5-os-autopalyan-kepek',\n", + " 'ket-auto-csapodott-egymasba-nyiregyhazan',\n", + " 'horrorbaleset-ujlengyelnel-osszepreselodott-a-teherautonak-csapodo-kocsi-meghalt-a',\n", + " 'bikinis-automosokkal-probalnak-tobb-ugyfelet-szerezni',\n", + " 'villamos-es-auto-utkozott-a-ix-keruletben',\n", + " 'sokkolo-kigyulladt-egy-luxusauto-menet-kozben-a-viii-keruletben',\n", + " 'fanak-csapodott-egy-auto-bicsken',\n", + " 'baleset-csepelen-oten-megserultek-a-rommatort-autokban',\n", + " 'kozlekedesi-lampanal-allva-gyulladt-ki-egy-auto-kaposvaron',\n", + " 'motorral-utkozott-egy-auto-budapesten-egy-ember-megserult',\n", + " 'megerkeztek-a-helyszini-fotok-az-m5-os-autopalyan-szetegett-kamionrol',\n", + " 'ket-auto-utkozott-a-soroksari-uton',\n", + " 'ket-ember-korhazban-megalloba-csapodott-a-kisteherauto',\n", + " 'kigyulladt-a-toro-rosso-autoja-a-kaotikus-azeri-nagydijon',\n", + " 'megrazo-kepek-parizsbol-hatalmas-a-kaosz-az-autos-merenylet-utan-galeria-18',\n", + " 'a-romai-kori-vizvezetekbe-csapodott-egy-auto-a-szentendrei-uton-ejjel',\n", + " 'egy-ember-eletet-vesztette-a-felborult-autoban-sopronnal',\n", + " 'beakadt-a-kabelbe-kidontott-negy-oszlopot-egy-teherauto-etesen',\n", + " 'helyszini-fotok-felborult-egy-kisteherauto-az-m1-es-autopalyan',\n", + " 'karambolozott-es-oldalara-borult-egy-rendorauto-a-lehel-utcanal',\n", + " 'tragedia-frontalisan-utkozott-ket-auto-a-47-es-fouton',\n", + " 'izze-porra-torte-a-traktor-az-autot-papanal',\n", + " 'ketteszakadt-auto-felborult-kamion-a-81-esen-fotok',\n", + " 'igy-fekeztek-meg-a-kigyulladt-kamion-langjait-az-autopalyan-fotok',\n", + " 'helyszini-fotok-igy-nezett-ki-a-leegett-auto-az-irottko-parkban',\n", + " 'autobusz-baleset-az-m70-esen',\n", + " 'halalos-baleset-tortent-debrecennel-alig-maradt-valami-az-autokbol',\n", + " 'lezuzott-egy-autot-a-hev-csepelen',\n", + " 'faronkok-csapodtak-neki-az-autoknak-mateszalkan-fotok',\n", + " 'betegszallito-utkozott-egy-mentoautoval-a-xvi-keruletben',\n", + " 'baleset-tortent-a-soroksari-uton-az-autoban-egy-gyerek-is-utazott',\n", + " 'feszitovagoval-vagtak-ki-a-sulyos-serultet-az-autobol',\n", + " 'autoritkasagok-konvoja-indult-el-gyorbol',\n", + " 'megrazo-fotok-halalos-autobaleset-tortent-az-ejszaka-tenknel',\n", + " 'harom-rendorauto-tort-ossze-az-uldozesben-budapest-fotok',\n", + " 'csaknem-40-auto-csapodott-egymasnak-popradnal',\n", + " 'brutalis-fotok-a-somogyi-balesetrol-fejreallt-a-teherauto-es-letarolta-a-haz',\n", + " 'horror-az-utakon-arokba-csuszott-buszokat-elakadt-teherautokat-mentenek-a-hegyekben',\n", + " 'elakadt-autok-lezart-utak-orszagszerte-teljes-a-kaosz-a-ho-miatt',\n", + " 'brutalis-23-auto-utkozott-a-husvethetfoi-halalos-tomegbalesetben',\n", + " 'gyonyoru-autok-vartak-az-erdeklodoket-new-york-ban',\n", + " 'kigyulladt-egy-autokat-szallito-kamion-rakomanya-miskolcnal',\n", + " 'brutalis-gep-igy-tettuk-probara-a-400-loeros-luxusrendorautot',\n", + " 'ketkezi-munkaval-fabol-epitett-autot-a-francia-szakember',\n", + " 'igy-vagjak-ki-a-serultet-a-villanyoszlopnak-hajto-autobol-tuzolto',\n", + " 'gazrobbanastol-feltek-komoly-panikot-okozott-az-aknaba-borult-auto',\n", + " 'vegye-meg-maganak-ezt-a-120-evnel-is-idosebb-autot',\n", + " 'sajat-autojaban-lotte-magat-fejbe-a-benzinkutrablo-szekesfehervaron',\n", + " 'egykori-autocsodak-allnak-kiegve-es-osszetorve-az-aleppoi-romok-kozott',\n", + " 'romma-tort-a-fanak-csapodo-auto-a-borsodi-halalos-balesetben-galeria',\n", + " 'halalos-baleset-az-m5-os-autopalyan',\n", + " 'auto-es-kamion-utkozott-ossze-frontalisan-a-becsi-uton',\n", + " 'autopalyara-zuhant-egy-hid-olaszorszagban',\n", + " 'elkepeszto-autokat-mutattak-be-a-87-genfi-nemzetkozi-autoszalonon',\n", + " 'felborult-egy-teherauto-a-xx-keruletben',\n", + " 'csodajarganyokat-a-87-genfi-nemzetkozi-autokiallitason',\n", + " 'az-ordog-mercedese-feny-derul-hitler-autojanak-titkaira',\n", + " 'megrazo-fotok-az-m5-os-autopalyan-tortent-halalos-balesetrol-galeria',\n", + " 'rendorauto-utkozott-ossze-egy-gepjarmuvel-perbalon',\n", + " 'ellopott-majd-brutalisan-osszetort-egy-autot-egy-ozdi-ferfi',\n", + " 'autobol-lakas-igy-jarja-a-vilagot-egy-parocska',\n", + " 'a-ket-auto-teljesen-osszezuzodott-halalos-baleset-tortent-nyiregyhazan',\n", + " 'betegszallito-es-ket-auto-karambolozott-gyerekek-is-serultek',\n", + " 'brutalis-ime-a-fotok-a-lengyel-miniszterelnok-autobaleseterol-galeria',\n", + " 'ketteszakadt-az-auto-helyszini-fotok-a-84-es-fouton-tortent-halalos-balesetrol',\n", + " 'ketteszakadt-egy-auto-mohacson',\n", + " 'fotok-a-brutalis-balesetrol-kisteherauto-utkozott-kamionnal-az-m1-esen-fotok',\n", + " 'brutalis-tomegkarambol-24-auto-utkozott-ossze-az-autopalyan-galeria',\n", + " '8-embert-olt-meg-a-lavina-tadzsikisztanban-igy-mentettek-az-autokat-a-ho-fogsagabol',\n", + " 'frontalisan-utkozott-ket-auto-a-36-os-fouton-helyszini-fotok',\n", + " 'arokba-borult-egy-autobusz-kislang-kozeleben',\n", + " 'dunaharasztiban-egy-auto-fanak-csapodott',\n", + " 'brutalis-baleset-villanyoszlopnak-csapodott-egy-auto-a-deli-palyaudvarnal-fotok',\n", + " 'oriasi-tomegbaleset-a-lengyel-autopalyan',\n", + " 'az-arokba-hajtott-egy-auto-az-m5-os-autopalyan-a-sofor-meghalt-az-utasai-megserultek',\n", + " 'jobb-ha-nem-indul-el-autoval-fotok-az-m1-esen-tortent-kamionbalesetrol',\n", + " 'megrazo-fotok-keritesnek-hajtott-az-autobusz-meghalt-a-sofor',\n", + " 'elkepeszto-fotok-igy-veszi-birtokba-a-termeszet-az-elhagyatott-autokat',\n", + " 'tomegkarambol-az-iteletido-miatt-szerbiaban-a-ho-fogsagaba-estek-az-autopalyan-fotok',\n", + " 'ujabb-verengzes-torokorszagban-tuzharc-aldozatok-es-langolo-autok-az-utcan-fotok',\n", + " 'kamion-ala-hajtott-egy-auto-az-m3-ason-ujabb-reszletek-es-fotok-a-helyszinrol',\n", + " 'keritesnek-utkozott-majd-arokba-csapodott-egy-auto-albertirsan',\n", + " 'brutalis-baleset-13-auto-rohant-egymasba-az-m5-os-autopalyan',\n", + " 'halalos-baleset-az-m43-as-autopalyan-teljesen-osszepreselodott-a-kisbusz-fotok-a',\n", + " 'felgyujtottak-a-pancelautot-elvittek-az-aranyrudakat',\n", + " 'auto-utkozott-villamossal-miskolcon',\n", + " 'kidontotte-a-haz-falat-az-auto-zalabaksan-fotok',\n", + " 'a-cegledi-temeto-keriteset-attorve-csapodott-a-sirok-koze-egy-auto',\n", + " 'voros-riasztas-suru-fustkod-lepte-el-parizst-az-autok-felet-kitiltottak-a-fovarosbol',\n", + " 'autobaleset-gyorben',\n", + " 'tiz-auto-utkozott-az-m1-esen',\n", + " 'uri-kutya-ruhatarral-es-sajat-autokkal',\n", + " 'tehervonat-es-teherauto-utkozott-egy-vasuti-atjaroban-nyulon',\n", + " 'apropenzzel-fizette-ki-autojat',\n", + " 'teherautoval-egyutt-mertek-meg-a-vilag-legkoverebb-emberenek-sulyat-galeria',\n", + " '430-lefoglalt-luxusautot-arvereznek',\n", + " 'teljesen-osszezuzodott-az-auto-helyszini-kepek-a-bicskei-balesetrol',\n", + " 'meghalt-egy-fanak-utkozo-auto-utasa-pomaznal',\n", + " 'autok-es-munkagepek-egtek-porra-a-dunaujvarosi-garazstuzekben',\n", + " 'sokkolo-helyszini-fotok-ket-auto-utkozott-frontalisan-egy-ember-meghalt',\n", + " 'villanyoszlopnak-utkozott-egy-auto-budaorson',\n", + " 'ezzel-a-luxus-lakoautoval-barhova-utnak-indulnank',\n", + " 'brutalis-csotores-elmosta-az-autokat-az-ozonviz-obudan',\n", + " 'luxusautokat-epitett-roncsokbol-a-muvesz',\n", + " 'kartonbol-csinaltak-lexus-autot',\n", + " 'jaszberenyi-uton-egy-motoros-szemelyautonak-utkozott',\n", + " 'nezze-meg-a-parizsi-autoszalon-legszebb-ujdonsagait-galeria',\n", + " 'autobalesetben-meghalt-egy-auto-soforje-kecskemeten',\n", + " 'automento-baleset',\n", + " 'a-rababa-gurult-egy-auto-gyorben',\n", + " 'automoso-elefant',\n", + " 'halalos-baleset-az-m1-es-autopalyan-tatanal',\n", + " 'teljesen-elmerult-egy-auto-a-felhoszakadas-miatt-vecsesen',\n", + " 'felrobbant-egy-auto-kijevben',\n", + " 'csepel-lakoauto',\n", + " 'kamionnal-karambolozott-egy-auto-tiszapalkonyanal-a-sofor-meghalt',\n", + " 'sort-szallito-teherauto-rakomanya-borult-ki-az-m0-ason',\n", + " 'az-utas-femkoporsojava-valt-a-fanak-csapodott-auto-fotok',\n", + " 'horrorbaleset-igy-tarolta-le-a-soderszallito-az-autot',\n", + " 'autobusz-es-szemelygepkocsi-utkozott-fotnal',\n", + " 'beszakadt-a-dobo-ter-egerben-a-tuzoltoauto-alatt-galeria',\n", + " 'felujitottak-a-lenin-pancelauto-masolatat',\n", + " 'sulyos-mentoauto-baleset-tortent-budapesten',\n", + " '20000-dollaros-fa-auto-foto-northfoto',\n", + " 'brutalis-fotok-a-kamion-es-a-teherauto-utkozeserol',\n", + " 'elado-ceausescu-autoja',\n", + " 'michelisz-270-nel-szaguldhat-uj-versenyautojaval-video',\n", + " 'nyomorekka-tett-egy-autost-kim-kardashian',\n", + " 'az-ejjel-ketteszakadt-egy-auto-budapesten',\n", + " 'luxusautoban-feszit-vajna-timea-huga',\n", + " 'halalra-gazolta-a-kukasauto-az-asszonyt',\n", + " 'semmit-sem-valtozott-a-magyar-autoversenyzo',\n", + " 'romma-torte-az-autojat-a-menekulo-embercsempesz-az-m5-oson-fotok',\n", + " 'autopalyan-koszalt-a-gyori-korhazbol-megszokott-ferfi',\n", + " 'oszlop-es-kerites-koze-szorult-egy-auto-a-szent-gellert-rakparton',\n", + " 'trelerrol-lezuhano-auto-utkozott-neki-egy-tartalykocsinak',\n", + " 'jo-dontes-forintra-valtani-az-autohitelt',\n", + " 'oriasi-csoda-athajtott-a-pici-gyerekeken-az-autos-de-tuleltek-felkavaro-video',\n", + " 'kegyetlen-autoval-hajtott-at-a-haldoklo-katalinon-a-gyilkos',\n", + " 'a-legujabb-penzkiado-automatak-felismernek-az-arcunk-alapjan',\n", + " 'autos-balesetnel-megtagadhatja-a-fizetest-a-biztosito',\n", + " 'furcsa-autokat-mutattak-be-a-tokyo-motor-show-sajtonapjan',\n", + " 'a-jovo-autoi-a-tokyoi-motor-shown',\n", + " 'nyiregyhaza-mentoauto-baleset',\n", + " 'filmekbol-ismert-autok-talalkozoja-londonban',\n", + " 'frankfurti-autoszalon-2015',\n", + " 'fekhiba-miatt-zuhant-a-sinekre-az-auto',\n", + " 'autoalkatreszekbol-keszitett-allatok',\n", + " 'szuperautot-epitettek-a-kez-es-lab-nelkuli-ferfinak',\n", + " 'nehezen-lesz-egymillio-elektromos-auto-a-nemet-utakon-2020-ra',\n", + " 'hatalmas-kamion-baleset-az-autopalyan',\n", + " 'kigyulladt-egy-magyar-autobusz-a-cseh-autopalyan',\n", + " 'luxusautokkal-pozol-timi',\n", + " 'utra-keszen-michelisz-autoja-is',\n", + " 'igy-keszul-michelisz-a-turaauto-vebere',\n", + " 'betondarab-az-autopalyan',\n", + " 'kiegett-autobusz-donyeckben',\n", + " 'ket-autoval-is-utkozott-egy-szemelygepkocsi-zalaegerszegen',\n", + " 'kigyulladt-auto-az-m5-os-autopalyan',\n", + " 'orulet-igy-nez-ki-egy-spermafejo-automata',\n", + " 'larion-zoe-autot-mos',\n", + " 'auto-motor-es-tuning-show-2014',\n", + " 'mukodik-a-lego-auto',\n", + " 'rendorauto-baleset',\n", + " 'ket-auto-utkozott-ossze',\n", + " 'faauto',\n", + " 'amerikai-autok-talalkozoja-veresegyhazan',\n", + " 'hofuvas-m1-autopalya',\n", + " 'tomegbaleset-az-autopalyan',\n", + " 'autocsodak-a-genfi-autoszalonon',\n", + " 'politikusok-autoi',\n", + " 'autografikus',\n", + " 'ime-vitezyek-autoszerzodese',\n", + " 'veronika-es-cristofel-autozik',\n", + " 'arokba-borult-egy-kamion-az-m0-s-autouton',\n", + " 'eger-ragta-az-orzott-autot',\n", + " 'mr-v8-az-amerikai-autok-restauratora',\n", + " 'tolato-kisteherauto-gazolt-el-egy-not',\n", + " 'ezek-a-legveszelyesebb-autoszinek',\n", + " 'benzinar-40-50-ezren-befejezhetik-az-autozast',\n", + " 'a-szexguruk-valaszolnak-hogyan-lehet-jobb-az-autos-szex',\n", + " 'a-kemeny-agyat-szereti-az-autoversenyzo',\n", + " 'igy-lesz-egy-csodaautobol-kanape',\n", + " 'csapas-az-autosokra-8500-forint-kiadas-johet',\n", + " 'tatra-auto',\n", + " 'tobb-pasival-autoban-sztarok-szextippjei',\n", + " 'autohoz-kotozve-kinozta-halalra-a-kutyat',\n", + " 'autok-kerekei-alol-a-szereto-csaladba',\n", + " 'autos-hirdetes',\n", + " '10-auto-amelyben-legjobb-a-szex',\n", + " 'dobbenetes-felvetel-kutya-vezeti-az-autot',\n", + " 'autoban-asztalon-spajzban',\n", + " 'elo-pornoval-dobjak-fel-az-automosot',\n", + " 'fenyo-buli-alomautoval',\n", + " 'autopalyan-landoltak',\n", + " 'remalom-az-autopalyan',\n", + " 'teherautoval-a-borralin',\n", + " 'egy-karcolas-nelkul-szallt-ki-az-autobol',\n", + " 'bardosi-sandor-luxusautoert-acsorog',\n", + " 'melyek-a-legmegbizhatobb-autok',\n", + " 'atveros-automata',\n", + " 'vebeautot-kapott-erdi',\n", + " 'ket-izgalmas-sportauto',\n", + " 'bajban-a-hazai-autopiac',\n", + " '32-milliardba-kerul-ez-az-auto',\n", + " 'csodaauto',\n", + " 'hova-tunt-az-autom',\n", + " 'mentoautonak-utkozott',\n", + " 'ime-a-megbizhato-autok',\n", + " 'tudta-minden-nap-mas-autotipus-a-nyero',\n", + " 'nem-engednek-a-luxusautobol',\n", + " 'bajban-az-autosok',\n", + " 'auto-hitelestul-elado',\n", + " 'autocsoda-roncsbol',\n", + " 'kormanyfoi-baleset-lerobbant-a-pancelauto',\n", + " 'jatszom-a-blikk-kelide-az-autot',\n", + " 'semminek-sem-utkozik-neki-az-uj-kisauto',\n", + " 'autoba-rohant-gyurcsany-audija',\n", + " 'inditsa-be-autojat-a-teli-alom-utan',\n", + " 'nyerje-meg-az-alomautot',\n", + " 'itthon-a-legolcsobb-a-mi-autonk',\n", + " 'halalauto',\n", + " 'vezessenf1-es-autot',\n", + " '12-auto-csuszott-egymasba',\n", + " 'penzeso-az-autopalyan',\n", + " 'kromofaggal-ontottek-le-az-autot',\n", + " 'kerekbilincs-leszereleseert-itelt-el-a-birosag-egy-autost',\n", + " 'repulo-auto',\n", + " 'segitseget-az-autosoknak',\n", + " 'hogy-valaszt-autot-gera',\n", + " 'segitsen-uj-autohoz-az-allam',\n", + " 'hodit-a-kis-auto-genfben',\n", + " 'teherauto-ala-szorult',\n", + " 'diana-hercegno-autobalesete',\n", + " 'autoval-rontott-a-korhazba',\n", + " 'pedalos-faauto',\n", + " 'ilyen-katyutol-borult-fel-egy-auto',\n", + " 'rossz-kipufogo-az-auto-odvas-foga',\n", + " 'osszefirkaltak-az-ugyvedno-autojat',\n", + " 'autopalyak-kozeleben-csap-le-a-halalbrigad',\n", + " 'felborult-autoban-volt-a-csempeszcigi',\n", + " 'molnar-masik-autot-kap',\n", + " 'zsaruautot-tessek',\n", + " 'egy-ujabb-luxusauto',\n", + " 'lemondott-a-luxusautorol-molnar-csaba',\n", + " 'kettetort-a-teherauto',\n", + " 'vonat-ele-loktek-a-vetlen-autost',\n", + " 'honlap-wwwszalonautohu',\n", + " 'milliardos-auto',\n", + " 'veres-levetett-autojanal-rosszabbak-is-vannak',\n", + " 'luxusauto-a-fidesznel-is',\n", + " 'lepcson-allt-fejre-az-auto',\n", + " 'izzocsere-az-autosok-mumusa',\n", + " 'letert-az-utrol-fanak-csapodott-az-auto',\n", + " 'beszallt-a-templomba-autojaval',\n", + " 'feltortek-karasz-autojat',\n", + " 'a-fogaskereku-arkaba-zuhant-az-auto',\n", + " 'harom-gyermeket-utott-el-egy-autos',\n", + " 'mini-postasautok',\n", + " '22-kiegett-auto-6-honap-alatt',\n", + " 'beszaguldott-autojaval-a-mom-park-kavezojanak-kirakataba',\n", + " 'legyen-ovatosabb-a-turboautokkal',\n", + " 'biztonsagi-ov-nelkul-autozott',\n", + " 'honlap-wwwokautohu']" + ] + }, + "execution_count": 21, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "[a for a in not_in_counts.keys() if 'auto' in a]" + ] + }, + { + "cell_type": "code", + "execution_count": 26, + "metadata": {}, + "outputs": [], + "source": [ + "url = \"https://www.blikk.hu/sztarvilag/sztarsztorik/igy-sikerult-gorbe-noranak-feldolgoznia-a-gyaszt-sri-lankan/dyed2nt\"\n", + "raw_html = requests.get(url).text\n", + "soup = BeautifulSoup(raw_html, 'lxml')" + ] + }, + { + "cell_type": "code", + "execution_count": 27, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "" + ] + }, + "execution_count": 27, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "soup.find('meta', {'property':'article:section', 'content':True})" + ] + }, + { + "cell_type": "code", + "execution_count": 35, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "['sztarvilag', 'sztarsztorik']" + ] + }, + "execution_count": 35, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "section_path_text_split = soup.find('meta', {'name': 'kt:section-path', 'content':True})['content'].strip().split('/')\n", + "[t for t in section_path_text_split if len(t) > 1]\n" + ] + }, + { + "cell_type": "code", + "execution_count": 43, + "metadata": {}, + "outputs": [], + "source": [ + "# \n", + "#
2021. szept 19. 16:42
\n", + "date = root.find('div', {'class': 'dates d-flex flex-column flex-md-row'}).get_text(strip=True)\n", + "try_date = \"2022. Sep 10. 11:47\"\n", + "asdate = datetime.strptime(date, \"%Y. %b %d. %H:%M\")" + ] + }, + { + "cell_type": "code", + "execution_count": 45, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "
\n", + " 2020. feb 22. 21:23\n", + " \n", + "
" + ] + }, + "execution_count": 45, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "root.find('div', {'class': 'dates d-flex flex-column flex-md-row'})" + ] + }, + { + "cell_type": "code", + "execution_count": 66, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "'Orbán Viktor ma babakocsit kormányoz: rábízták a kisunokát, bevitte a melóhelyre – fotó'" + ] + }, + "execution_count": 66, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "title_tag = root.find('section', {'class': 'mainTitle'})\n", + "title_tag.find('h1').get_text(strip=True)" + ] + }, + { + "cell_type": "code", + "execution_count": 39, + "metadata": {}, + "outputs": [], + "source": [ + "with open('all_blikk_section_path.tsv', 'r') as tsv:\n", + " paths = [a.split('\\t')[0] for a in tsv.read().splitlines()]" + ] + }, + { + "cell_type": "code", + "execution_count": 48, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "74" + ] + }, + "execution_count": 48, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "all_sects = []\n", + "for l in [p.split('/') for p in paths]:\n", + " for i in l:\n", + " all_sects.append(i)\n", + "len(set(all_sects))" + ] + }, + { + "cell_type": "code", + "execution_count": 14, + "metadata": {}, + "outputs": [], + "source": [ + "SUBJECT_DICT = {'eletmod': 'életmód',\n", + " 'galeria': 'galéria',\n", + " 'allati': 'állati',\n", + " 'egeszseg': 'egészség',\n", + " 'sztarvilag': 'sztárvilág',\n", + " 'utazas': 'utazás',\n", + " 'aktualis': 'aktuális',\n", + " 'hoppa': 'hoppá',\n", + " 'karacsony': 'karácsony',\n", + " 'husvet': 'húsvét',\n", + " 'lelek': 'lélek',\n", + " 'tavaszi-megujulas': 'tavaszi-megújulás',\n", + " 'adventi-teendok': 'adventi-teendők',\n", + " 'dizajn': 'dizájn',\n", + " 'unnepi-tippek': 'ünnepi-tippek',\n", + " 'baleset-info': 'baleset-info',\n", + " 'belfold': 'belföld',\n", + " 'kulfold': 'külföld',\n", + " 'divat': 'divat',\n", + " 'velemeny': 'vélemény',\n", + " 'erotika': 'erotika',\n", + " 'kultura': 'kultúra',\n", + " 'streaming': 'streaming',\n", + " 'zene': 'zene',\n", + " 'auto': 'autó',\n", + " 'hetvegere': 'hétvégére',\n", + " 'rio-2016': 'Rio 2016',\n", + " 'sztarsztorik': 'sztársztorik',\n", + " 'blikk-tv': 'blikk-tv',\n", + " 'garazs': 'garázs',\n", + " 'geo': 'geo',\n", + " 'gasztro': 'gasztro',\n", + " 'penz': 'pénz',\n", + " 'magyar-foci': 'magyar-foci',\n", + " 'hoppa': 'hoppá',\n", + " 'panorama': 'panoráma',\n", + " 'wtf': 'wtf',\n", + " 'filmklikk': 'filmklikk',\n", + " 'mindent-bele': 'mindent-bele',\n", + " 'gyors-ebed': 'gyors-ebéd',\n", + " 'tech': 'tech',\n", + " 'forma-1': 'forma-1',\n", + " 'durva': 'durva',\n", + " 'egyeni': 'egyéni',\n", + " 'a-nyulon-tul': 'a-nyúlon-túl',\n", + " 'retro-receptek': 'retró-receptek',\n", + " 'vilag-titkai': 'világ-titkai',\n", + " 'napi-ajanlat': 'napi-ajánlat',\n", + " 'speedzone': 'speedzone',\n", + " 'teszt': 'teszt',\n", + " 'szexi': 'szexi',\n", + " 'olimpia2021': 'olimpia2021',\n", + " 'erdekes': 'érdekes',\n", + " 'veszhelyzet': 'vészhelyzet',\n", + " 'sport': 'sport',\n", + " 'foci-eb-2016': 'foci-eb-2016',\n", + " 'husveti-tippek': 'húsvéti-tippek',\n", + " 'egyeb': 'egyéb',\n", + " 'kulfoldi-foci': 'külfoldi-foci',\n", + " 'politika': 'politika',\n", + " 'tippek': 'tippek',\n", + " 'edessegek': 'édességek',\n", + " 'konnyu-vacsora': 'könnyű-vacsora',\n", + " 'menetproba': 'menetpróba',\n", + " 'tavaszi-megujulas': 'tavaszi-megújulás',\n", + " 'egeszsegkalauz': 'egészségkalaúz',\n", + " 'eb-2021': 'eb-2021',\n", + " 'katalogus': 'katalógus',\n", + " 'receptek': 'receptek',\n", + " 'valasztas-2022': 'választás-2022',\n", + " 'spanyol-foci': 'spanyol-foci',\n", + " 'krimi': 'krimi',\n", + " \n", + " }\n", + "\n", + "# streaming, podcast, receptek, erotika " + ] + }, + { + "cell_type": "code", + "execution_count": 134, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "'belfold'" + ] + }, + "execution_count": 134, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "next(gener)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "sport / https://www.blikk.hu/sport/jaszapati-petra-peking-2022-teli-olimpia-elodonto-verseny/j2nj9qc\n", + "blikk-tv / https://www.blikk.hu/blikk-tv/aktualis/kolbasz-fustolt-kolbasz-jatek-verseny/7rql0yh\n", + "auto / https://www.blikk.hu/auto/autolegendak-magazin-melle-meretaranyos-automodelleket-kapunk/6hgew62\n", + "receptek / https://www.blikk.hu/receptek/hetvegere/keszitse-el-ezeket-a-kinai-recepteket-otthon/pggqex7\n", + "streaming / https://www.blikk.hu/streaming/lakers-gyozelem-rajongok/qls323q" + ] + }, + { + "cell_type": "code", + "execution_count": 29, + "metadata": {}, + "outputs": [], + "source": [ + "# len(w.url_index) 576494\n", + "rovatok = set([u.split('/')[3] for u in list(w.url_index) if len(u.split('/')[3])])" + ] + }, + { + "cell_type": "code", + "execution_count": 30, + "metadata": {}, + "outputs": [], + "source": [ + "megvan = list(SUBJECT_DICT.keys())\n", + "nincsmeg = [i for i in rovatok if i not in megvan]\n", + " " + ] + }, + { + "cell_type": "code", + "execution_count": 34, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "{'eltuntettek-a-menekulteket-a-keletibol',\n", + " 'filmszerepre-gyur-nagy-sandor',\n", + " 'lovagga-utottek',\n", + " 'igy-hoditott-krumplis-zsak-meretu-mellevel-bogyos-maca-video',\n", + " 'mary-zsuzsi-temetese',\n", + " 'serkedi-gabi-grid-girl',\n", + " 'folytatodik-a-hokiaranycsata',\n", + " 'veszteseges-focitorna',\n", + " 'kiemelt-vedelmet-kap-az-egereszolyv',\n", + " 'folytatodik-a-furedfest',\n", + " '2018-maxim-party-dekoltazsai',\n", + " 'a-magyar-honvedseg-megmutatta-a-fegyvereit-budaorson',\n", + " 'csillagok-heti-horoszkop-december-10-16-unnepek',\n", + " 'toronydaruval-emeltette-lakasaba-luxuskanapejat',\n", + " 'bankkartyaval-olcsobb-lehet-a-nyaralas',\n", + " 'egess-el-akar-500-kaloriat-az-intervall-treninggel',\n", + " 'uj-tarozo-a-tiszan',\n", + " 'teljes-keszultseg-a-strandon',\n", + " 'meddig-marad-a-magas-kamat',\n", + " 'oosthuizen-utese-mindent-vitt',\n", + " 'eltunt-egy-mentokutya',\n", + " 'bella-hadid-feher-felsot-viselt-melltarto-nelkul',\n", + " 'katonai-buvarok-gyakorlata',\n", + " 'szokokutnyi-orias-vizsugar-tort-elo-a-foldbol-salgotarjanban',\n", + " 'kulonbsegek',\n", + " 'a-het-legszexibb-insta-posztjai',\n", + " 'mellbedobassal-tert-vissza-liptai',\n", + " 'nem-lesz-feleles-a-szakiskolakban',\n", + " 'liftben-irodaban-moziban-a-legjobb-helyek-gyorsmenethez',\n", + " '5-poz-amitol-tuti-orgazmusa-lesz-a-parodnak',\n", + " 'mi-lett-beloled-gabi',\n", + " 'a-cimvedo-legyozesevel-lett-bajnok-a-videoton-honved',\n", + " 'belehalt-a-rab-a-veresbe',\n", + " 'garay-var-erdeire',\n", + " 'a-hirek-szerint-vege-a-sztarpar-romancanak',\n", + " 'koki-terminal-kornyeket-is-elleptek-a-rendorok',\n", + " 'orkan-pusztitott-bristolban',\n", + " 'edesanyja-aggodva-nezte-az-akciot-igy-csaptak-le-a-rendorok-es-a-kommandosok-s-abelre',\n", + " 'balla-irma-fia-milliokra-perelheti-az-allamot',\n", + " 'pepe-a-noe-allatotthonban',\n", + " 'nagy-fero-producer-lesz',\n", + " 'mark-zuckerberg-ellenorizes-a-politikai-hirdeteseket-alhir-valasztas-vadak',\n", + " 'kozod-kampany-a-blikktol',\n", + " 'illegalis-bevandorlas-migransok-athenban',\n", + " 'mennyezetomlas-egy-londoni-szinhazban',\n", + " 'torvenytelen',\n", + " 'szex-kollegaval-megeri',\n", + " '15-eves-fiu-obuda-auto-emblema-letor',\n", + " '50-euroert-nagyot-villant',\n", + " 'szalai-serulese',\n", + " 'az-olasz-szovetsegi-kapitany-az-eb-utan-erkezhet-londonba',\n", + " 'a-greenpeace-allitasaval-ellentetben-nincs-mergezo-paprika-a-spar-ban',\n", + " 'rekorder-lett-a-vihar-ellenere',\n", + " 'baleset-volt',\n", + " 'a-kut-cimu-film-bemutatoja',\n", + " 'ket-vilagsztar-egy-csapasra',\n", + " 'te-kozejuk-tartozol-nyilvanos-szexre-buknak-a-magyar-nok',\n", + " 'horoszkop-februar-16',\n", + " 'nem-latta-a-hableany-kapitanya-a-masik-hajot',\n", + " 'eled-a-balaton',\n", + " 'eotvos-cirkusz',\n", + " 'atment-felette-a-vonat',\n", + " 'viz-alatt-porognek-a-rudon',\n", + " 'kifosztottak-egy-parlagisasfeszket',\n", + " 'igy-repul-javitasra-a-siklo',\n", + " 'a-fenyuzo-hotel-mara-teljesen-lepukkant',\n", + " 'snowboard-es-sielos-farsang',\n", + " 'teljes-csondben-erkezett-meg-a-honvedkorhazba-az-aldozatokat-szallito-konvoj-video',\n", + " 'plazaba-hajtott-egy-emeletes-busz',\n", + " 'ciki-ha-21-evesen-szuz-vagyok',\n", + " 'nem-a-pilota-volt-a-hibas',\n", + " 'tokeletes-gyerekeket-rakatott-ossze-jacko',\n", + " 'ennyit-er-a-lakasod',\n", + " 'igy-kaptak-el-a-terroristat',\n", + " 'eros-antonia-a-legszexibb',\n", + " 'whitney-houston-visszater',\n", + " 'mi-tortent-szunetelnek-a-telenor-szolgaltatasai',\n", + " 'ebbe-bele-kell-halni',\n", + " 'megvaltoztatta-a-csillagjegyeket-a-nasa',\n", + " 'igy-ujitotta-fel-a-hazat-bridget-jones',\n", + " 'tunderi-portrek-gazdi-kereso-kutyakrol',\n", + " 'cesc-fabregast-akarja-az-ac-milan',\n", + " 'elarvereztek-a-james-bond-filmek-kellekeit-on-mit-fogadna-el-esetleg-egy-aston',\n", + " 'telkiben-nyit-az-edzokozpont',\n", + " 'tonkretette-madonna-edzesterve',\n", + " 'arokba-csapodott-egy-audi-szekesfehervarnal-fotok-a-baleset-helyszinerol',\n", + " 'tuzharcot-vivtak-a-magyar-katonak',\n", + " 'horvath-greta-azsia-expressz-anyatest-elfogadta-onmagat',\n", + " 'mentot-hivtak-mary-zsuzsihoz',\n", + " 'elindultak-magyarorszag-fele-a-hatarnyitast-kovetelo-migransok',\n", + " 'oromjatek',\n", + " 'ilyen-palotaban-elt-kivegzeseig-ceausescu-a-roman-diktator',\n", + " 'panellakasod-van-megint-szegenyebb-lettel',\n", + " 'szeftoro-postasok',\n", + " 'elarasztotta-a-viz-az-elhagyatott-bevasarlokozpont',\n", + " 'betegorzo-monitort-adomanyozott-a-heim-pal-gyermekkorhaznak-maga-zoltan',\n", + " 'miniatur-vilag',\n", + " 'lerobbant-egy-szerelveny-az-m2-es-metron',\n", + " 'megerkezett-az-airbus-380-budapestre',\n", + " 'fulladozo-ferfi-torkaban-elo-halat-talaltak-az-orvosok',\n", + " 'al-csitat-unnepelnek',\n", + " 'zsenialis-magyar-jegszobrasz',\n", + " 'egessel-eltunt-a-szeplo',\n", + " 'a-premiumot-ajanlottak-fel-a-labdarugok',\n", + " 'nyulkiallitas-batonyterenyen',\n", + " 'gyilkossag-kamera-elott',\n", + " 'gyalogos-esett-a-villamos-ala-ami-kette-tepte',\n", + " 'hihetetlen-ez-a-lany-egy-elo-disney-hercegno-fotok',\n", + " 'januar-7-eig-ervenyesek-a-decemberre-szolo-berletek',\n", + " 'szilveszteri-matricak-a-blikkben',\n", + " 'visszaugatta-az-eletbe-gazdajat-monty',\n", + " 'az-otello-bemutatoja-az-operaban',\n", + " 'kaprazatos-felvetelek-a-befagyott-tiszarol-galeria',\n", + " '20-percig-szexel-a-magyar',\n", + " 'nok-akik-egykor-egy-part-alkottak-brad-pittel',\n", + " 'harcban-alltak-a-gyerekhonvedek',\n", + " 'mustart-kapott-obama',\n", + " 'valo-vilag-rtl-klub-szereplok',\n", + " 'helyszini-felvetelek-a-margit-hidnal-tortent-oriasi-balesetrol',\n", + " 'dragabb-lett-az-elet',\n", + " 'kiboritotta-a-hoseg-renot',\n", + " 'orokbe-fogadtak-a-vilag-legszomorubb-cicajat',\n", + " 'partai-lucia',\n", + " 'niagara-tuleloje',\n", + " 'tininek-alcazta-magat-a-pedofil',\n", + " 'mutatjuk-kiket-zsakmanyol-ki-brutalisan-a-divatipar',\n", + " 'lazar-vilmos-a-negyedik-helyen',\n", + " 'huzhattak-a-koffert-a-villalakok',\n", + " 'on-hisz-a-veletlenekben',\n", + " 'a-nyugati-trendek-miatt-plasztikaztatta-magat-az-azsiai-lany',\n", + " 'belefogy-a-szakitasba',\n", + " 'agyonlottek-a-ferjem',\n", + " 'szex-nelkul-is-lehet-baba',\n", + " 'vagyfokozot-a-zoldsegespultbol',\n", + " 'felelmetes-vasuti-baleset-komaromban-daruval-utkozott-egy-szemelyvonat-fotok-a',\n", + " 'fegyverrel-ment-a-patikaba',\n", + " 'nezd-magad-maszturbalas-kozben-belulrol',\n", + " 'berki-krisztian-hazatert-a-londoni-olimpiarol',\n", + " 'gatlasos-vagy-a-szexben-teszteld',\n", + " 'ehetek-ami-belem-fer',\n", + " 'less-be-vv-veronika-otthonaba',\n", + " 'modell-lett-a-ritka-betegsegben-szenvedo-kis-srac',\n", + " 'tuntetes-2015-02-01',\n", + " 'villantassal-nyitott-debreczeni-zita',\n", + " 'divatbemutato-rendeznek-sao-pauloban',\n", + " 'minikiralynok',\n", + " 'federer-dontos-wimbledonban',\n", + " 'keson-jott-a-segitseg',\n", + " 'hat-ez-szep',\n", + " 'szerelmi-feszek-zugloban',\n", + " 'elvonorol-elvonora',\n", + " 'nem-tunt-betegnek',\n", + " 'lukacs-laci-peldakepet-szinkronizalhatja-a-metallica-frontemberenek-hangja-lett',\n", + " 'igy-meg-biztos-nem-latott-komondort-ugralni-galeria',\n", + " 'lebuktak-mit-muvelnek-ezek-a-pajkos-mokusok-a-kertben-fotok',\n", + " 'ok-is-felelnek-cozmaert',\n", + " 'a-rakos-tinilany-utolso-kivansaga-volt-hogy-elvegye-ot-szerelme',\n", + " 'anne-mcclain-nasa-urrepules-elmarad',\n", + " 'megmutatta-formas-testet-a-dogos-amerikai-szineszno-lea-michele',\n", + " 'valasztas-2018-igy-unnepeltek-gyozelmunket-orbanek-',\n", + " 'rabszolgak-tuntettek-a-blaha-lujza-teren',\n", + " 'vicces-kepek-egy-elkepzelt-urhajos-elkepzelt-hetkoznapjairol',\n", + " 'bella-hadid-labai-koze-teljesen-be-lehetett-latni',\n", + " 'ez-megvolt',\n", + " 'esztergalyos-cecilia',\n", + " 'tokreszeg-diakok-az-oran',\n", + " 'bomba-nok-a-pult-mogott',\n", + " 'csepregi-eva-kertje',\n", + " 'lego-imado-csalad',\n", + " 'teszt-te-mennyit-tudsz-a-vedekezesrol',\n", + " 'tomeghiszteria-a-bucsuztaton',\n", + " 'bemutattak-az-uj-furdoruhatrendeket-a-miami-divatheten',\n", + " 'kigyulladt-egy-kamion',\n", + " 'ujpest-ferencvaros',\n", + " 'mar-zuhanas-elott-meghaltak-az-utasok',\n", + " 'gazai-sebesulteket-gyogyitottam',\n", + " 'hillary-clinton-ismerose-volt-a-bamakoban-lelott-amerikai-tusz',\n", + " 'dundika-is-a-vegleges-mellett-dontott',\n", + " '130-ev-utan-derulhet-ki-az-igazsag-megsem-no-volt-a-szabadsagszobor-modellje',\n", + " 'iden-ezek-a-vilag-legertekesebb-automarkai',\n", + " 'ilyen-ha-40-fokban-kiomlik-a-tea',\n", + " 'arpad-kori-templomot-es-temetot-tarnak-fel-tazlaron',\n", + " 'vilagbajnok-paros',\n", + " 'fotok-a-brutalis-ljubljanai-tomegbalesetrol',\n", + " 'osztrak-doppingugy',\n", + " 'aszteroida-csapodott-a-jupiterbe',\n", + " 'aljasok-a-vamszedok',\n", + " 'igy-unnepeltek-obamat',\n", + " 'meghan-markle-kiralyi-eskuvo-tomeg-harry-herceg',\n", + " '3-eves-szepsegkiralyno',\n", + " 'moss-a-zullott-kismama',\n", + " 'ezt-a-pornot-mar-tilos-megnezni-angliaban-video',\n", + " 'konyvben-a-kameleon',\n", + " 'fogathajtas',\n", + " 'fedezze-fel-a-buszke-korzikat',\n", + " 'nezze-meg-biztonsagos-e-az-otthona',\n", + " 'nem-kapott-penzt',\n", + " 'ivokuran-a-kiscsillag',\n", + " 'langol-amazonas-esoerdo-napot-is-eltakarja',\n", + " 'a-golt-vegul-a-csatarnak-adtak',\n", + " 'hullamok-hercege',\n", + " 'te-milyen-szereto-vagy',\n", + " 'akik-nem-felnek-a-halaltol-egy-szefiert',\n", + " 'cuki-oriaspanda-kolyok-szuletett-tokioban',\n", + " 'aczel-ismet-ujpesti-lesz',\n", + " 'putyinnal-lehet-a-gyogyir',\n", + " 'rivalis-bandak-kegyetlen-verfurdot-rendeztek-egy-mexikoi-bortonben',\n", + " 'horoszkop-majus-5-papp-greti-asztrologus',\n", + " 'aruljak-a-gumino-szuzesseget',\n", + " 'toth-krisztina-a-16-kozott',\n", + " 'titkok-a-linkin-park-elso-magyarorszagi-fellepeserol-bejutottunk-es-megtudtuk-azt-is',\n", + " 'ime-olvasoink-teli-fotopalyazatunkra-kuldott-kepei-galeria',\n", + " 'ez-tortent-ma-az-56os-forradalom-es-szabadsagharc-emleknapjan',\n", + " 'kulonleges-hagyomanyokkal-rendelkezik-az-etiop-suri-torzs',\n", + " 'ez-a-gyilkos-fegyver',\n", + " 'hatalmas-robotot-epitettek-hogy-orizze-a-szfinxet',\n", + " 'igy-nezte-orban-a-meccset',\n", + " 'clark-adam-teri-korforgalom-viragagyasaba-hajtott-egy-gepkocsi',\n", + " 'indonez-tuzfoci',\n", + " 'megvan-a-taxis',\n", + " 'fotos-work-shop',\n", + " 'kim-kardashian-ruhajat-szinte-csak-a-mellbimboi-tartjak',\n", + " 'jakabos-es-bernek-bronzzal-nyitott-londonban',\n", + " 'sportolok-edzenek-a-hosegben',\n", + " 'gerrard-racs-moge-kerult',\n", + " 'egy-ev-utan-temethettek-el',\n", + " 'szavay-legyozte-azarenkat',\n", + " 'kejgyilkosolte-meg-norit-14',\n", + " 'buntetest-kapott-a-rendezo',\n", + " 'felmentik-az-apagyilkost',\n", + " 'gyorgy-herceg-eldobta-az-agyat-a-szulinapi-ajandekatol',\n", + " '15-milliard-forintos-lakast-vett-a-2-eves-gyerekenek',\n", + " 'tizennegyen-haltak-meg-a-tomegbalesetben',\n", + " 'sokkolo-hat-sportolo-eroszakolt-a-hotelben',\n", + " 'szabo-gyozo-az-alul-semmi-vigjatek-probajan',\n", + " 'online-rendelest-inditott',\n", + " 'kegyetlen-tinik',\n", + " 'bontjak-a-puskas-ferenc-stadiont-foto-mti-mathe-zoltan',\n", + " 'eletveszelyes-szenvedely-igy-olelgeti-az-aligatorokat-a-meresz-gondozo-fotok',\n", + " 'felmondott-a-bekesi-szado-mazo-tanar',\n", + " 'gyur-a-bulira-a-karthago',\n", + " 'nincs-bocsanat-harrynek',\n", + " 'megette-fonoke-meregdraga-kutyajat',\n", + " 'pasztor-noemi-enekel-anastacia-elott',\n", + " 'hajdu-peterek-ausztriaban-sieltek',\n", + " 'erdotuz-gorogorszagban',\n", + " 'felelmetes-1500-tarantulaval-el-egyutt-ez-a-no-fotok',\n", + " 'a-nap-szama-26',\n", + " 'pumped-gabo-gyurcsany-ferenc-mem-bernie-sanders',\n", + " 'a-hatos-lotto-nyeroszamai',\n", + " 'orban-viktor-kormany-tamogatas-reformatus-egyhaz',\n", + " 'obamane-100-napja',\n", + " 'az-utolso-orak',\n", + " 'ezt-nem-lesz-szived-eldobni',\n", + " 'szamba-di-budapest',\n", + " 'ilyen-lesz-iden-a-fenyek-ejszakaja-debrecenben',\n", + " 'eleteert-retteg-toaso-elod',\n", + " 'tacsko-verseny-ausztraliaban',\n", + " 'igy-villamlott-salgotarjan-felett-hetfo-ejszaka',\n", + " 'kozep-amerika-eta-hurrikan-halalos-aldozat',\n", + " 'ujrajatszottak-a-ii-vilaghaboru-utolso-nagy-csatajat',\n", + " 'kedvencbol-ellenfel',\n", + " 'lewis-hamilton-botrany-forma-1-rasszizmus-szobor-instagram',\n", + " 'roofer-ket-nap-alatt-ketszer-halt-meg',\n", + " 'amerikaban-da-vinci-budapesti-lova',\n", + " 'szol-a-faluradio',\n", + " 'hagyta-meghalni-a-lanyom',\n", + " 'atadtak-a-mupa-nemzeti-szinhaz-hajoallomast-budapesten',\n", + " 'kalandra-fel',\n", + " 'bekoltoztek-a-megasztarok',\n", + " 'titokban-jott-pestre-bruce-willis',\n", + " 'elnek-flores-aldozatai',\n", + " 'barbie-man',\n", + " 'tul-abaratsagon',\n", + " 'luxus-jar-a-remnek',\n", + " 'babat-olt-a-viz',\n", + " 'felizgultal-latszik-a-ruhadon',\n", + " '1000-milliardot-facsar-ki-matolcsy',\n", + " 'par-turista-latta-az-eu-s-szazmilliokbol-epult-kilatokat',\n", + " 'hajdu-beszolt-fresh-vikinek',\n", + " 'murszi-torzs-tagjairol-portrek',\n", + " 'lengyel-sulyos-balesete',\n", + " 'a-legrosszabbul-sikerult-vasarlasok-ezert-ne-vegyen-ruhat-online',\n", + " 'orban-viktor-is-locsoloverset-mondott-husvetal-alkalmabol',\n", + " 'meghalt-surda',\n", + " 'nem-adom-fel',\n", + " 'nyaron-is-tanulnak',\n", + " 'szennyezett-drogot-arult',\n", + " 'dobogora-futottak-a-blikkes-lanyok',\n", + " 'cirkuszi-divat',\n", + " 'szedd-magad',\n", + " 'joseph-borell-aggodalom-navalnij-mergezes',\n", + " 'david-cameron-elismerte-hogy-hibazott',\n", + " 'dani-torzs-papua-uj-guinean-peniszvedo-tok',\n", + " 'a-nap-szama-100',\n", + " 'andrej-arsavin-az-arsenale',\n", + " 'romba-dolt-varos-alol-mentettek-serulteket-gyakorlat-katasztrofavedok',\n", + " 'brutalisan-draga-de-lelegzetelallitoan-gyonyoru-kate-welsh-elado-haza',\n", + " 'igy-legyen-nyari-kalandod-forgatokonyv-3-lepesben',\n", + " 'kozuti-baleset-afganisztanban',\n", + " 'bevallottak',\n", + " 'tuntetest-szerveznek-a-szinmuveszetis-hallgatok',\n", + " 'repteri-takaritok-sztrajkja-spanyolorszagban',\n", + " 'szegedi-szaguldas',\n", + " 'kutyak-a-szorfdeszkan',\n", + " 'tulekedes-a-a-keletibol-indulo-vonaton',\n", + " 'a-pofatlansagnak-nincs-hatara',\n", + " 'meg-kevesebbet-er-a-fizetesunk',\n", + " 'halalos-epitkezes',\n", + " 'eb-t-er-a-kezibravur',\n", + " 'nem-kell-vasfuggony',\n", + " 'ovgyujto-marquez',\n", + " 'sanya-legyozhetetlen-heni-csomagolhat-a-farmbol',\n", + " 'tudni-akarja-mi-var-onre-a-heten-most-kiderul',\n", + " '31-eves-lett-az-egyik-legszexisebb-szineszno-megan-fox-dogos-fotok',\n", + " 'seres-uj-nepszavazast',\n", + " 'baleset-egy-epuletben-indoneziaban',\n", + " 'gardistak-pedig-nincsenek',\n", + " 'nemeth-kristof-kiffiaval-sikloson-pihen',\n", + " 'topmodell-a-parlamentben',\n", + " 'stedman-baileyt-csipojen-es-fejen-ertek-a-golyok',\n", + " 'egyel-csak-hattyu',\n", + " 'latvanyosan-tarol-a-lathatatlan-ember',\n", + " 'jennifer-lawrence-foszerep-sorrentino-film',\n", + " 'legyozte-a-gyilkos-kor',\n", + " 'havizgyork-baleset-ketten-meghaltak',\n", + " 'bemutattak-a-varva-vart-uj-louis-vuitton-kollekciot-cruise',\n", + " 'blikk-szuperkviz-magyarorszag-tesztje',\n", + " 'igy-sut-a-pekkiralyno',\n", + " 'cozma-ugy-mindenki-hallgat',\n", + " 'tulelte-egy-hazaspar-mentette-meg-az-ebet-tamadoitol',\n", + " 'interneten-talaltam-mega-szerelmet',\n", + " 'pusztito-vegyifegyverrel-meszarolt-az-iszlam-allam',\n", + " 'bardosi-elete-mma-meccse-elott-igeri-kemeny-leszek',\n", + " 'a-szexguruk-valaszolnak-a-pasimmal-mas-az-orgazmus-mint-egyedul',\n", + " 'babak-mihaly-szarvasi-fideszes-polgarmester-elnezest-kert-serto-megjegyzese-miatt',\n", + " 'hasonlitok-a-kutyamra',\n", + " 'lilu-jon-a-baba',\n", + " 'iden-is-kiosztottak-a-bambi-dijakat-nemetorszagban-galeria',\n", + " 'jo-reggelt-magyarorszag-majus-28-csutortok',\n", + " 'tipp-ha-kilyukadt-a-harisnya',\n", + " 'novak-katalin-friss-ifjusagi-kutatas',\n", + " 'olvassunk-a-strandon',\n", + " 'irany-a-sipalya',\n", + " 'pofatlan-nepmesek',\n", + " 'leegett-de-niro-lakasa',\n", + " 'szamoransky-a-podgoricaban',\n", + " 'miss-peace',\n", + " 'gyulai-szaguldas',\n", + " 'hihetetlen-fogyason-ment-keresztul-a-kolafuggo-no',\n", + " 'indul-a-celeb-vagyok-ments-ki-innen-valosag-show',\n", + " 'ket-embert-mentettek-ki-a-vaci-tuzoltok-a-godi-szigetrol',\n", + " 'ketteszakadt-auto-felborult-kamion-a-81-esen-fotok',\n", + " 'liget-budapest-demonstracio-a-hungexpo-irodahazaknal',\n", + " 'bodrogi-75',\n", + " 'sokkolo-fotok-a-szomaliai-terrortamadasrol',\n", + " 'kolyokpanda-spanyolorszagban',\n", + " 'kiki-koki-k-o',\n", + " 'akadalyozta-a-tuzoltokat-a-filmezo',\n", + " 'menti-a-jegybank-a-forintot',\n", + " 'helikopter-szimulator',\n", + " 'fepucer-nok-tuntettek-franciaorszagban',\n", + " 'hoppa-demi-moore-mellbimboja-kikukucskalt-a-sztar-dogos-ruhajabol',\n", + " 'ettol-lesz-vonzo-egy-ferfi',\n", + " 'lancon-vezettek-a-boszme-nagy-medvet-kozben-elloptak-a-busojarast-fotok',\n", + " 'kemnek-nezte-a-drukkert-a-dvtk-edzoje',\n", + " 'mankocsata',\n", + " 'sasszemmel',\n", + " 'dagad-a-kebel',\n", + " 'tozser-lehet-88-as',\n", + " 'vegkielegitesek-ujra-dolnek-a-milliok',\n", + " 'balul-sult-el',\n", + " 'pitt-reszegen-gunyolta-clooneyt',\n", + " 'cseh-botrany',\n", + " 'tovabbra-is-a-viz-az-ur-a-duna-felso-szakaszan',\n", + " 'kiutessel-vegzodott-a-pokeresek-bunyoja',\n", + " 'botox-es-lulu-a-legjobb-baratok',\n", + " 'bruce-willis-forgatas-0619',\n", + " 'patrick-swayze-emlekiratait-irja',\n", + " 'legyel-te-is-blikk-szepe',\n", + " 'spanyolorszagi-vonatbaleset',\n", + " 'talma-katarban-tesztel',\n", + " 'hoppa-megmutatta-szexi-dekoltazsat-jennifer-lopez-galeria',\n", + " 'nehez-kezdet',\n", + " 'polorangadot-nyert-a-honved',\n", + " 'gyozikeek-tizmilliokkal-lognak',\n", + " 'a-szavunk-is-elallt-ettol-a-luxus-alomotthontol-fotok',\n", + " 'van-jobb-otlet-alig-kerik-az-arfolyamrogzitest',\n", + " 'dzsudzsak-parade',\n", + " 'tel-hollandiaban',\n", + " 'brutalis-haromnegyed-kilos-tumort-tavolitottak-el-egy-ferfi-orrabol-fotok-18',\n", + " 'csak-55-millio-van-paradekra',\n", + " 'a-vasas-legyozte-a-bajnoki-cimert-harcolo-honvedot',\n", + " '4-eves-fiu-de-a-teste-olyan-mint-egy-80-evese',\n", + " 'justin-bieber',\n", + " 'renee-oconnor',\n", + " 'hatalmas-tuz-kaliforniaban',\n", + " 'bajban-a-vasprefektus',\n", + " 'harry-herceg-a-katona',\n", + " 'mindennap-kell-a-szex-ha-gyereket-szeretnenk',\n", + " 'tragediaba-torkollott-a-rangado',\n", + " 'buszbol-atalakitott-lakasban-elo-csalad-washingtonban',\n", + " 'dzsudzsak-a-bombazo',\n", + " 'vignjevics-masik-harom-csatarara-szamit',\n", + " 'bontjak-az-orszag-karacsonyfajat',\n", + " 'itt-tilos-csokolozni',\n", + " 'felavattak-a-margitszigeti-multimedias-szokokutat',\n", + " 'sztarban-szar-baba-zsuri',\n", + " 'tamogatjak-szulei-a-12-eves-fiu-nemvaltasat',\n", + " 'kampany-plakatok-a-bevandorlassal-kapcsolatos-nepszavazasrol',\n", + " 'palyakezdo-diplomasok-188-ezres-fizetest-akarnak',\n", + " 'milla-jovovich-ferjhez-megy',\n", + " 'megkapta-a-lufthansa-az-allami-tamogatas-reszletet',\n", + " 'sebezhetetlen-gyorgy',\n", + " 'elado-a-falu-nyolcmilliardert',\n", + " 'hiv-panik-a-pornoiparban',\n", + " 'a-makulatlan-szepseg',\n", + " 'hoppa-eden-adam-nyelvevel-kenyeztette-melanie-t-video',\n", + " 'matraccal-verte-at-az-aligatorokat-az-orult-furdozo-fotok',\n", + " 'a-tigrisnek-is-jar-egy-kis-nyugi',\n", + " 'megoljuk-magunkat',\n", + " 'harom-napig-tart-a-magyar-alma-napok-x',\n", + " 'ime-totoo-a-tatu',\n", + " 'volgyesi-gabi-csaladi-wellneszen',\n", + " 'egy-orszag-aggodik-bujtorert',\n", + " 'budapesten-koncertezik-ennio-morricone-ime-az-elso-fotok',\n", + " 'a-beszolas-szabadsaga',\n", + " 'massa-sisak-barrichellon',\n", + " 'elszabadulhat-a-nyelvkonyvek-ara',\n", + " 'a-nap-szama-101',\n", + " 'pusztito-onos-eso',\n", + " '21-evesen-pelenkaztatja-magat',\n", + " 'kemeny-szex-magyar-pornos-orgiazott-a-pornovonaton-video',\n", + " 'itt-a-monogamy-felnott-tarsasjatek',\n", + " 'szetolvadtak-az-autok-a-forrosagtol-dobbenetes-fotok-erkeztek-az-osztrak-robbanasrol',\n", + " 'ketszer-mondja-ki-az-igent-tommyboy',\n", + " 'herczig-ujabb-sikert-remel',\n", + " 'fiala-janos',\n", + " 'a-nap-szama-96',\n", + " 'beranyanak-kert-fel-jacko',\n", + " 'hatalmasat-alakitottak-a-sztarok-a-nagy-duett-szinpadan',\n", + " 'szexi-szamba-tancosok',\n", + " 'bunos-zsaruk',\n", + " 'ime-a-pasik-6-titkos-erogenzonaja',\n", + " 'hazon-landolt-a-sportrepulogep',\n", + " 'peches-pelikan',\n", + " 'azsiai-tovabbjutok-a-japan-tornan',\n", + " 'a-szexguruk-valaszolnak-nem-elvez-el-a-pasim',\n", + " 'tessek-fizetni',\n", + " 'titkos-szexfelvetelek-kerultek-elo-a-vilagsztarrol',\n", + " 'japan-bombazo',\n", + " 'igy-szoktassuk-a-kutyat-a-vizhez',\n", + " 'szexi-modellek-buliztak-egy-londoni-klubban',\n", + " 'minket-is-bedonthet-amerika-csodje',\n", + " 'antrax-veszely-miatt-kiuritettek-a-brusszeli-mecsetet',\n", + " 'oroszlan-hiena-vidra-a-legjobb-baratok',\n", + " 'galeria-husito-kepek-a-balaton-atuszasrol',\n", + " 'pelenkas-dakos',\n", + " 'kipusztul-a-banan',\n", + " 'vilagbajnok-mukeblek',\n", + " 'keson-jott-a-haboru',\n", + " 'felcsaptak-a-langok-balmazujvarosban-tobb-mint-200-negyzetmeteren-eg-a-szemet-mar-a',\n", + " 'osszevesztek-az-asztana-sztarjai',\n", + " 'transzvesztita-szepsegverseny',\n", + " 'uj-jatekos-szarvas-andrea-rtl-klub-love-island-luxusvilla-jatek-parkereso-reality',\n", + " 'igy-nezett-ki-budapest-a-fold-orajan',\n", + " 'egyiptom',\n", + " 'a-legendas-hotel-epulete-langol-dobogokon',\n", + " 'jo-uzlet-a-horvat-nyaralo',\n", + " 'jatekos-hortenziak',\n", + " 'kutyak-irany-a-viz',\n", + " 'kabat-a-nyero-ember',\n", + " 'van-bor-a-kepen-rokkanthelyen-parkolt-a-sztar-luxusautojaval',\n", + " 'felnotte-valas-napja-japanban',\n", + " 'gwyneth-paltrow-es-lanya-kozos-foton',\n", + " 'hosszabbitas-koeman-marad',\n", + " 'nyolcvan-metert-esett-a-no-49-a-hegyrol',\n", + " 'egyhangu-tobbseggel-allt-ki-a-kozgyules-az-elnok-mellett',\n", + " 'csokollak',\n", + " 'kristen-stewart-hazat-vett-los-angelesben',\n", + " 'negy-napig-elt-halott-anyjaval',\n", + " 'ki-akar-bkv-s-fonok-lenni',\n", + " 'miert-leszunk-hutlenek',\n", + " 'magyarorszag-svedorszag',\n", + " 'elrepult-a-tolvaj',\n", + " 'hemperegnek-es-vegighanyjak-az-utcakat-a-reszeg-tinik-angliaban',\n", + " 'a-nap-szama-46',\n", + " 'vonatcsoda-csopaknal',\n", + " 'lessen-be-az-elhagyatott-eromube-ahol-vilagsztarok-forgattak',\n", + " 'elozetesben-az-idos-ferfi-gyilkosai',\n", + " 'a-nap-szama-80',\n", + " 'csunyan-meghalni',\n", + " 'botranyos-orgia',\n", + " 'hevesi-tamas-es-horvath-csenge-letarolta-a-sztarban-sztar-1-kicsit',\n", + " 'ordog-nori-is-baratok-kozt',\n", + " 'mi-lett-vele-schmidt-vera',\n", + " 'vizsgaljak-a-nem-fizeto-fonokoket',\n", + " 'britney-spears-kiszokott-szexelni',\n", + " 'nem-csak-a-20-eveseke-a-szex',\n", + " 'cipot-naponta-meglatogatjak',\n", + " 'tarifaforradalom-a-vodafone-nal',\n", + " 'monogamia-nalam-kizarva',\n", + " 'csalas',\n", + " 'madridi-divathet',\n", + " 'a-vilag-legnepszerubb-videoi-2015-ben',\n", + " 'borbeteg-lany',\n", + " 'legyozte-a-hiv-virust',\n", + " 'kis-kutya-nagy-kutya',\n", + " 'a-legszomorubbes-es-a-legboldogabb-napom',\n", + " 'zsebben-egyetertenek',\n", + " 'beres-alexandra',\n", + " 'negyszaz-csivava-a-szaporitonal',\n", + " 'gyozelem-napi-unnepsegek-oroszorszagban',\n", + " 'talma-a-harcos',\n", + " 'robotzsaru-segiti-a-dubaji-rendorseg-munkajat',\n", + " 'eletkor-szerint-mas-mas-betegsegnek-no-a-kockazata',\n", + " 'kicsi-a-bors-de-eros',\n", + " 'maszk-nelkul-mutatkozott-nancy-pelosi',\n", + " 'a-szexguruk-valaszolnak-halalosan-feltekeny-a-pasim',\n", + " 'plaza-helyett-nagybevasarlas',\n", + " 'igy-melegednek-sztarjaink',\n", + " 'indul-a-snowboard-suli',\n", + " 'keszitsen-salatat-az-egesz-csaladnak',\n", + " 'igazi-szuperhos-elkepeszto-jelmezeket-alkot-a-mukarral-elo-lany-fotok',\n", + " 'keszenleti-rendorok-segedkeznek-a-balaton-partjan-galeria',\n", + " 'eljen-a-fradi',\n", + " 'pocakos-palcso',\n", + " 'napi-kilenc-orat-maszturbal-a-vilagbajnok',\n", + " 'speci-kisbusz',\n", + " 'nem-sokon-mulott-a-baj-majdnem-felborult-egy-gazpalackokat-szallito-kamion',\n", + " '500-loeros-autok-csataja',\n", + " 'hova-tunt-a-penz',\n", + " 'telefonon-szakitott-a-megasztaros',\n", + " 'a-szexguruk-valaszolnak-kibirhatatlan-az-anyosom',\n", + " 'wales-forditott-belgium-ellen-es-eb-elodontos',\n", + " 'vad-az-ugyeszseg-ellen',\n", + " 'igy-nyaral-egy-sztar',\n", + " 'percekkel-a-szuletesuk-utan-meghaltak-az-indiai-sziami-ikrek',\n", + " 'montenegro-eszak-macedonia-koronavirus-jarvany',\n", + " 'dundika',\n", + " 'beoltozott-a-kutya',\n", + " 'hiszem-hogy-el-a-fiam',\n", + " 'ejszaka-csapott-le-a-legendas-gerilla',\n", + " 'regeszek-papi-ellen',\n", + " 'micsoda-csalad',\n", + " 'igy-el-a-titokzatos-amerikai-vallasi-kozosseg',\n", + " 'utkozott-felrobbant',\n", + " 'felek-a-valastol',\n", + " 'jotekony-arveres-sportereklyekkel',\n", + " 'ismet-atmaszott-egy-ferfi-a-feher-haz-keritesen',\n", + " '6-gyerek-halt-meg-az-ovoda-bombazasaban-18',\n", + " 'bajnai-vizsgalna-a-bombavideot',\n", + " 'csaladonkent-legalabb-havi-228-ezer-kell',\n", + " 'ez-egy-nehez-idoszak',\n", + " 'viziszonyos-pingvin',\n", + " 'ronaldo-is-a-reale',\n", + " 'mar-gazdija-karjaiban-csahol-bogdany',\n", + " '100-ezerrel-novekszik-iden-a-munkanelkuliek-szama',\n", + " 'uruguay-abortusz-ellenes-tuntetes',\n", + " 'bizarr-fotok-doglott-ragcsalot-nyom-a-felmeztelen-no-arcaba-a-saman-18',\n", + " 'elkepeszto-130-millio-eves-dinoagyra-bukkantak-a-kutatok-galeria',\n", + " 'rejtelyes-virus',\n", + " 'vadoczek-elvonalban-maradtak',\n", + " 'hatalmas-habpartit-rendeztek-egy-skot-egyetemen',\n", + " '30-milliard-kakaert',\n", + " 'igy-nez-ki-egy-elhagyatott-eromu-ami-maig-eletveszelyes',\n", + " 'bekoltoztunk',\n", + " 'kell-e-jutalomfalat',\n", + " 'sulyos-beteg-a-szinesz',\n", + " 'vera-jourova-eb-alelnok-megszolalt-magyar-kormany-kritika-orban-viktor',\n", + " '7-ostoba-szextipp-az-amerikai-tevebol',\n", + " 'tobb-ital-felelotlenebb-szex',\n", + " 'szexnaptar-ket-hetre-orgazmusbiztos-tippek',\n", + " 'olaszorszag-kijarasi-korlatozas-koronavirus',\n", + " 'nyilvanosan-nyalogatta-mariah-carey-labat-az-uj-pasija-akivel-megcsalta-az-elozot',\n", + " 'kisfaludy-gozhajo',\n", + " 'igy-el-a-gyonyoru-leszbikus-pa',\n", + " 'igy-rettegtek-europaban-a-terroristaktol',\n", + " 'padlon-a-vasas',\n", + " 'hollandiaban-romantikazik-rippel',\n", + " 'megmenekult-a-vilag-eletre-keltek-korunk-mesehosei',\n", + " 'milliokat-ero-szabik',\n", + " 'szabadult-a-viszkis',\n", + " 'megemelik-a-munkanelkuli-segelyeket-lengyelorszagban',\n", + " 'mennyi-penzt-kapsz-mikor-fizeted-vissza-mindent-a-diakhitelrol',\n", + " 'szenzacios-kepek-az-allatkerti-orangutanokrol',\n", + " 'rohac-vallott',\n", + " 'kinaiak-tuntetnek',\n", + " 'ennivalo-oroszlankolykok',\n", + " 'a-serult-nemeth-krisztian-belevetette-magat-a-katari-ejszakaba',\n", + " 'csontsovanyan-vartak-a-halalt-a-foglyok-a-japan-taborban',\n", + " 'o-anglia-legtobbet-szexelo-diakja',\n", + " 'afrodiziakumok-vagykelto-izek-a-konyhabol',\n", + " 'a-kiralyi-csalad-vesenyfutasa',\n", + " 'szornyu-tobb-sebesultje-is-van-a-brutalis-gyali-karambolnak-fotok',\n", + " 'mirol-arulkodik-a-mosolya',\n", + " 'a-juve-es-a-milan-is-hivja-juhaszt',\n", + " 'villam-csapott-a-sikloba',\n", + " 'kik-oltek-meg-borost',\n", + " 'a-szexguruk-valaszolnak-buliban-kavartunk-emlekszik-ram',\n", + " 'evi-5-milliard-gisele-nek',\n", + " 'dobd-fel-kapcsolatotokat-tantra-szexszel',\n", + " 'sandra-bullock-anya',\n", + " 'szmogriado-utan-jogi-kaosz',\n", + " 'a-penz-nem-szamit',\n", + " 'berlinbe-erkezett-a-vilagbajnok-nemet-valogatott',\n", + " 'mi-lesz-a-hitelunkkel',\n", + " 'jo-reggelt-januar-20-kedd',\n", + " 'modell-lett-kennedy-unokajabol',\n", + " 'kalap-divat-angliabol',\n", + " 'nem-adoma-tincsemet',\n", + " 'feleseget-csokolja-emilio',\n", + " 'claudia-romani-a-tengerparton',\n", + " 'csak-ulok-es-tanitok',\n", + " 'az-ugyfel-miert-az-utolso',\n", + " 'elgondolkodtato-miert-kinozzuk-az-allatokat-galeria',\n", + " 'botranyt-okoz-clooney-ek-uj-szerelmi-feszke',\n", + " 'lehet-e-szexelni-infarktus-utan',\n", + " 'fotok-a-brutalis-balesetrol-kisteherauto-utkozott-kamionnal-az-m1-esen-fotok',\n", + " 'matics-meg-ket-meccset-kapott-szegeden',\n", + " 'maldini-bucsuzik',\n", + " 'schumit-hivja-a-csapataba-brawn',\n", + " 'high-tec-nyilvanos-wc',\n", + " 'celebek-chris-martin-szulinapi-partijan',\n", + " 'traktor-gazolt-halalra-egy-not-bicskenel-fotok',\n", + " 'cara-delevingne-egy-hajon-bulizott-villant-a-fenek',\n", + " 'itt-az-uj-szepsegkiralyno-o-lett-2018-ban-magyarorszag-szepe',\n", + " 'mesevarost-epitett-a-kertjeben',\n", + " 'dontos-a-gyor',\n", + " 'megmerik-a-tanarok-digitalis-erettseget',\n", + " 'vagatlan-hatalmasat-szexeltek-a-zuhanyzoban-vv-fanniek-video-18',\n", + " 'ftc-edzes',\n", + " 'magyar-lengyel-kormany-veto-gdp',\n", + " 'kutyat-talalt-demcsak-zsuzsa',\n", + " 'ne-hagyja-magat-atverni',\n", + " 'dronnal-locsoltak-a-zalai-noket',\n", + " 'lapatfulunk-van',\n", + " 'lovardat-epitenek-a-budai-varban',\n", + " 'rangadot-nyert-a-dac-a-slovan-bratislava-ellen-galeria',\n", + " 'pentek-jelzi-a-rohamot',\n", + " 'miert-marad-a-no-ha-osszeveri-a-parja',\n", + " 'az-enekesno-marc-jacobs-kollekciojat-nepszerusitette',\n", + " 'kozosenkonnyebb',\n", + " 'jo-reggelt-februar-7-szombat',\n", + " 'bevittek-a-nyeremenyeket-a-villalakoknak',\n", + " 'edina-nelkul-lelekben-erosen',\n", + " 'a-koltsegvetes-elfogadasa-ellen-tuntetnek-a-kossuth-teren',\n", + " 'chis-rock-sajatjakent-nevelt-egy-kislanyt',\n", + " 'nemzeti-ovszer-nap-van-indiaban-fotok',\n", + " '86-eves-neni-sajat-tervezesu-ruhaban-hazasodott',\n", + " 'megemlekeznek-a-diszkoban-elhunyt-fiatalokra',\n", + " 'kabrio-trabanton-szallni-elvezet',\n", + " 'osszeomlott-a-ba-rendszere-megtelt-emberekkel-a-heathrow',\n", + " 'tavaszi-tel-harom-oran-at',\n", + " 'o-lesz-az-en-kiralynom',\n", + " 'terence-hill-bud-spencer-temetesen-meghato-fotok-a-legendas-szinesz-utolso-utjarol',\n", + " 'megcsal-a-parom-ha-elutazik',\n", + " 'blikk-szepe-tomanne-monikaa',\n", + " 'szexfotokkal-zsaroltak',\n", + " 'a-szexguruk-valaszolnak-prostikhoz-jart-talan-most-is',\n", + " '2012-11-20-blikk-szepe-nyeki-noemi-virag',\n", + " 'unalmas-a-munka-dobd-fel-szexszel',\n", + " 'the-dire-straits-experience-koncert-papp-laszlo-sportarena',\n", + " 'elso-nemzetkozi-koteltanc-fesztival',\n", + " 'ilyen-gyonyoru-lesz-ma-a-szuperhold',\n", + " 'uj-focimdal-bebeekkel',\n", + " 'meghalt-az-oscar-dijas-szinesz-jon-whiteley',\n", + " 'obamat-akarta-megolni',\n", + " 'itt-a-tokeletes-brazil-csajok-titka',\n", + " 'belehalt-seruleseibe-a-holland-kiralyi-csaladra-tamado-ferfi',\n", + " 'ricco-es-claudia-nyerte-az-idei-x-faktort-ilyen-volt-a-donto-kepekben',\n", + " 'kasler-miklos-iskola-tanevkezdes-jarvany',\n", + " 'negy-dolog-amit-minden-ferfi-akar-a-szexben',\n", + " 'kibeszelik-szerelmi-ugyeiket',\n", + " 'onmagukat-sanyargatjak-egy-unnepen-indiaban-a-hivok',\n", + " 'lazban-eg-az-orszag',\n", + " 'soha-tobbe-futball',\n", + " 'ebbol-a-galeriabol-mindent-megtudhat-ott-vagyunk-a-story-galan',\n", + " 'bobby-brown-csodadoktora-szerint-megoltek-bobbi-kristinat',\n", + " 'egy-fiatal-lany-feltalalta-a-munkanelkuliseg-ellenszeret-allasinterju-sydney',\n", + " 'kourtney-kardashian-oldalcickot-villantott',\n", + " 'vonatbaleset-pakisztanban',\n", + " 'sebestyen-galazni-akar',\n", + " 'vizelettel-koccintottak',\n", + " 'korrupcio-miatt-nyomoznak',\n", + " 'a-nap-szama-137',\n", + " 'halaltol-buzlott-a-lakas-a-kadat-hasznaltak-wc-nek',\n", + " 'kimeld-a-kornyezetet-es-a-penztarcad-tippek-a-tudatos-iskolakezdeshez',\n", + " 'megkaptak-elso-oltasukat-a-parducok',\n", + " 'tanulj-meg-velunk-snowboardozni',\n", + " 'ezekre-erdemes-figyelnie-hogy-boldog-legyen-a-nyara',\n", + " 'charlotte-clavier',\n", + " 'valo-vilag-orult-jatekok',\n", + " 'ez-mar-gyilkossag',\n", + " 'pirner-alma-otthona',\n", + " 'igy-orultek-a-babanak',\n", + " 'ujabb-hazrombolas-az-indiai-gettoban',\n", + " 'halallista',\n", + " 'belebetegszem-a-mobilomba',\n", + " 'tetovalt-sellolany',\n", + " 'elsirta-magat-bush',\n", + " 'nekicsapodtak-a-gyalogosnak',\n", + " 'beckhammal-szurkolt-a-meccsen-a-red-hot-frontembere',\n", + " 'elevenen-egtek-meg',\n", + " 'rendet-tett-a-palyan-a-drukker-meccs-kozben-mert-gyengen-jatszott-a-csapata-video',\n", + " 'napi-cuki-bebi-oposszumok',\n", + " 'fideszes-siker-pecsett',\n", + " 'onteni-fogjak-az-eu-s-penzt',\n", + " 'sinko-laszlo-kepekben',\n", + " 'sajat-tarsa-szurta-hatba-arulo-akasztotta-ki-boris-johnsont',\n", + " 'sokkolo-tenyek-nokrol-es-szexrol',\n", + " 'dave-gahan-ujra-a-szinpadon',\n", + " 'kosz-a-kituntetest-uff',\n", + " '32-eve-megemlekeztek-a-csernobili-atomkatasztrofa-aldozatairol',\n", + " 'brutalis-jegeso-csapott-le-a-hungaroringre-igy-vegzodott-micheliszek-versenye-fotok',\n", + " 'a-szexguruk-valaszolnak-lehet-szexpartner-a-haverombol',\n", + " 'a-bayern-munchen-csatara-a-darmstadt-ellen-lott-csodagolt',\n", + " 'noi-gyilkologepek-vonulnak-moszul-fele-fotok-a-pokoli-haborubol',\n", + " 'ordog-nori-meg-a-munkait-sem-mondta-le-a-beultetes-miatt',\n", + " 'michael-j-fox-ot-drogosnak-neztek',\n", + " 'tuz-egy-mexikoi-tartalyhajon',\n", + " 'orban-viktor-donald-trump-lecso-nagykovet-david-b-cornstein-klubbradio',\n", + " 'elindultak-uszoink-kazanyba',\n", + " 'folytatja-az-oroszlankiralyt-a-disney',\n", + " 'barlangtemplom',\n", + " 'mienk-a-legjobb-suli',\n", + " 'negyven-joszag-veszett-oda',\n", + " 'concerto-budapest-es-szabo-stein-imre-koncertfilmje',\n", + " 'erosnek-kell-lenni',\n", + " 'a-nap-szama-87',\n", + " 'cserbenhagytak',\n", + " 'a-nagy-futam',\n", + " 'oko-hazat-epitettek-uj-mexikoban',\n", + " 'nagy-duettkonnyek-kozt-bucsuzott-pamela-es-jolly',\n", + " 'elozetesben-marad-a-kutyas-gyilkos',\n", + " 'kaliforniaban-kerestek-a-legcsunyabb-kutyakat',\n", + " 'ujabb-balhe-jolie-eknal',\n", + " '35-mazsas-raja',\n", + " 'jo-szex-utan-jobban-megy-meg-a-munka-is',\n", + " 'otodszor-is-megnosult-demszky',\n", + " 'bruce-jenner-halalos-baleset-resztvevoje',\n", + " 'edvin-apa-lesz',\n", + " 'ujra-otthon-pacquiao',\n", + " 'rekordszamu-futo-vett-reszt-a-budapesti-felmaratonon-fotok',\n", + " 'sir-paul-mccartneyt-megint-kituntette-a-kiralyno',\n", + " 'szalljatok-le-az-unokamrol',\n", + " 'bulvarszinhaz-magantarsulat',\n", + " 'elkepeszto-vak-ferfi-szereli-ossze-a-trabantokat-nemetorszagban',\n", + " 'ez-adivat',\n", + " 'sikeresen-szetvalasztottak-a-sziami-ikreket',\n", + " 'brusszel-deutsch-tamas-magyar-erdekek',\n", + " 'traktorverseny',\n", + " 'hat-hetig-ujra-a-kepernyon-gombos-edina',\n", + " 'vihar-a-balatonnal',\n", + " 'tevezhet-a-gyerek',\n", + " 'sztarkommentar',\n", + " 'cannes-csajok-ha-talalkoznak-nicole-kidman-elle-fanning',\n", + " 'bodi-syilvi-surf',\n", + " 'lencsevegre-kaptak-az-uj-aygot',\n", + " 'blikk-nyeremenyjatek-gyozo-penz',\n", + " 'vizsgalat-a-foti-vesztegetesben',\n", + " 'londonban-duborogtek-a-tankok',\n", + " 'igy-szinleld-az-orgazmust',\n", + " 'harmas-szexre-vagysz-igy-talalsz-hozza-konnyeden-tarsakat-uj-app-a-piacon',\n", + " 'ezek-a-legjobb-kutyas-autok-2020-ban',\n", + " 'kiabalni-tilos',\n", + " 'tojas-husvet-unnep-gazdak-aremeles',\n", + " 'borpince-a-bazilika-alatt',\n", + " 'a-raszorulok-helyett-a-tolvajoke-lesz-az-adomany',\n", + " 'egeszseges-babat-szult-a-fitness-manias-chontel-duncan',\n", + " 'orokbe-fogadta-a-makako-a-csirket-ringatja-mint-egy-kisbabat',\n", + " 'lovesek-vacsora-elott',\n", + " 'cooco-melle-nagyobb-mint-a-kis-chanel',\n", + " 'dzsungelshow-atveres',\n", + " 'menekultek-2015-08-27-hajnal',\n", + " 'igy-kezdodott-a-szavazas',\n", + " 'celegyenesben-a-maganyos-hajos',\n", + " 'ezek-a-kedvenc-szexhelyek',\n", + " 'ez-a-volgyhid-900-meteres-lesz',\n", + " 'felnott-jatek-erotika-parkapcsolat',\n", + " '20-dolog-amire-a-pasik-vagynak-az-agyban',\n", + " 'nezd-meg-szexkonyv-a-18-szazadbol',\n", + " 'meztelenul-jarkalt-zellweger',\n", + " 'gyalog-indult-koldulni-budapestre',\n", + " 'nyolceves-rendszergazda',\n", + " 'csod-utan-is-hulyenek-neznek',\n", + " 'a-szexguruk-valaszolnak-allandoan-megbant-elhagyjam',\n", + " 'tudorakot-kiszagolo-kutya',\n", + " 'igy-keringozik-egy-kiralyno',\n", + " 'csotorest-hozott-az-ujev',\n", + " 'tavasztol-oszig-viragzik-a-viaszvirag',\n", + " 'europai-parlament-korona-virus-nem-fogad-latogatok',\n", + " 'szexbe-menekulunk-a-valsag-elol',\n", + " 'penzhez-jutott-a-kormany',\n", + " 'dobjon-el-mindent-es-nezegessen-kepeket-urben-lebego-macskakrol',\n", + " 'nincs-dns-e-a-lenynek',\n", + " 'kamaras-irany-hollywood',\n", + " 'egyre-kevesebbert-szexelnek-a-pornosok',\n", + " 'ongyilkos-merenylet-afganisztanban',\n", + " 'nem-volt-eselye-tulelni-semmi-nem-maradt-a-suzukibol-ujabb-megrazo-fotok-erkeztek-a',\n", + " 'bac-mono-balesete-a-budai-varalagutban',\n", + " 'a-szereto-a-kulcsfigura',\n", + " 'gazdalkodj-okosan',\n", + " 'segitseg-hijan-elpusztulnak',\n", + " 'arviz-nagy-britanniaban',\n", + " 'pati-elni-akar',\n", + " '2013-01-17-havazas',\n", + " 'petr-cech-a-legjobb-cseh-focista',\n", + " 'igy-toloncoltak-vissza-a-migransokat-torokorszagba-fotok',\n", + " 'irany-sziberia',\n", + " '715m-melyen-dontottek-rekordot-a-magyar-barlangaszok',\n", + " 'nincs-penz-a-versenyre',\n", + " 'micimacko-80-ev-utan-ter-vissza',\n", + " 'vastag-keritesrud-szurta-at-a-szegeny-macskat',\n", + " 'ezt-jo-vezetni',\n", + " 'befellegzett-mariah-carey-alomeskuvojenek',\n", + " 'keleti-varroda',\n", + " 'ime-a-blikk-unnepi-fotopalyazatanak-uj-kepei',\n", + " 'halalos-baleset-az-m1-es-autopalyan-tatanal',\n", + " 'fanszorzetetet-mutogatta-axl-rose-exe',\n", + " 'barna-medve-erkezett-a-pecsi-allatkertbe',\n", + " 'dramai-fotok-es-video-az-ankarai-robbantasrol-galeria',\n", + " 'repulo-show-2013-05-01',\n", + " 'swayze-harcol',\n", + " 'ruszlan-csagajev-maradt-a-tronon',\n", + " 'diszdoktor-lett-jose-mourinho',\n", + " 'holegballon-agard',\n", + " 'alkotmanyozo-nemzetgyulesi-valasztas-venezuelaban',\n", + " 'szabadedzes',\n", + " 'tuntetes-rioban',\n", + " 'a-nap-szama-35',\n", + " 'elozetesbe-tettek-a-kobanyai-bankrablot-kepek',\n", + " 'medveborben-unnepelnek-romaniaban',\n", + " 'kossuth-irta',\n", + " 'extravagans-nyugdijasok',\n", + " 'nemet-tengeresz-fotoalbuma-hitler-kepekkel',\n", + " '4-jo-tanacs-a-gyermek-vedelmeben',\n", + " 'jackonak-nem-volt-orra',\n", + " 'kifutora-termett-boris-becker-lanya',\n", + " 'ezt-csinaljak-a-celebek-amikor-nagyritkan-metroval-utaznak',\n", + " 'plussmaci',\n", + " 'kiraly-egy-par',\n", + " 'viki-ringbe-szall-a-cigizes-ellen',\n", + " 'alberlet-szexert',\n", + " 'itt-lesz-minden-ami-fegyver-es-vad',\n", + " 'baleset-erte-eltunese-elott-dzsenifert',\n", + " 'duplan-elvez-a-ket-huvelyu-no',\n", + " 'kolasinac-es-ozil-csaladjat-fenyegetik-a-keses-tamadoik',\n", + " 'haromszor-is-adozhatsz-a-netto-fizetesbol',\n", + " 'dilemma',\n", + " 'vorosbegyet-mentettek-lorinciben',\n", + " 'tuztorony',\n", + " '6-eves-a-kislany-akinek-betegsege-miatt-minden-csontja-eltort-mar',\n", + " 'a-milan-rabja-lett-beckham',\n", + " 'magyarorszag-szepe-miss-world-hungary-versenyzok',\n", + " 'egyedul-el-eden-mate',\n", + " 'kegyes-halal-kez-a-kezben',\n", + " 'dolgozz-rabszolga',\n", + " 'megserult-a-kapitany',\n", + " 'hosszu-katinkanak-jobban-megy-az-uszas-mint-a-sapkabiznisz',\n", + " 'mozdulj-te-lo',\n", + " 'vigyazz-jon-a-labda',\n", + " 'megsem-bujik-ujra-a-vasember-panceljaba-robert-downey-jr',\n", + " 'orban-a-csucsra-tor',\n", + " 'celebfoci-2014-07-08',\n", + " 'tizezrek-buliztak-lukacsekkal',\n", + " 'macskakiallitas-0308',\n", + " 'volvo-futes',\n", + " '2014-11-24-valo-vilag-7',\n", + " 'ujpest-vasas',\n", + " 'aldozatokra-emlekeztek',\n", + " 'kilenc-evet-kapott-a-rem',\n", + " 'jo-reggelt-mi-tortenik-ma-magyarorszagon',\n", + " 'jo-reggelt-magyarorszag-majus-30-szombat',\n", + " 'csak-harom-perc-nyeremenyjatekunk-nyertesei',\n", + " 'eluldoztek',\n", + " 'kettos-emberoles-hodmezovasarhelyen-tuzeset',\n", + " 'hurra-itt-a-kanikula',\n", + " 'a-zold-feherek-odasoztak-egyet-a-rivalisnak',\n", + " 'szeretkezz-hogy-jol-aludj',\n", + " 'mexikoban-elfajult-az-uber-tuntetes-mti',\n", + " 'hatalmas-tumorral-a-fejen-szuletett-a-kisgyerek',\n", + " 'matthaus-visszater',\n", + " 'horoszkop-aprilis-21',\n", + " 'gyonyoru-helyeken-kenuzott-es-pecazott-katalin-es-vilmos-galeria',\n", + " 'prosti-mozgalmar',\n", + " 'kegyetlenul-megdolgoztak-dukai-reginat-foto',\n", + " 'azt-gondoltam-nekem-annyi',\n", + " 'borton-kutyak-rabok-baracska',\n", + " 'felujitjak-az-m3-as-metrovonal-eszaki-szakaszat-fotok-az-alagutbol',\n", + " 'schumisokk',\n", + " 'pokolla-valt-a-kanariszigeteki-nyaralas',\n", + " 'festo-szepseg',\n", + " 'vicces-kutyafotokat-keszit-az-eskuvoi-fotos',\n", + " 'csaladtagok-csontjat-tisztitjak-meg-a-majak-halottak-napjan',\n", + " 'jo-reggelt-magyarorszag-majus-27-szerda',\n", + " 'szuperbrutto-ezen-ragodik-oszko',\n", + " 'heti-horoszkop-februar-18-24',\n", + " 'kutyaterapia-a-gyerekkorhazakban-braziliaban',\n", + " 'remulet-a-levegoben',\n", + " 'oreg-ugro-nem-ven-ugro',\n", + " 'sas-itelet-juniusban',\n", + " 'viszlat-cukorbaj',\n", + " 'ha-senki-nem-hibas-miert-rossz-a-szex',\n", + " 'enyem-lettminden',\n", + " 'ordog-vagy-angyal',\n", + " 'igy-izgatta-tusoloval-dorit-vv-laci-fotok',\n", + " 'kigyullad-egy-csuklosbusz-zalasarszeg-kozeleben',\n", + " 'anyja-mellett-halt-meg-kilenceves-kislanya-baleset-janoshida',\n", + " 'lakatlan-varos-amerikaban',\n", + " 'szivszorito-tuzoltok-teljesitettek-egy-beteg-kisfiu-almat',\n", + " 'tiltakozas-az-allatkiserletek-ellen-mexikoban',\n", + " 'adriano-szerelme-miatt-bunhodik',\n", + " 'zuhanyrudon-szexel-a-sorozatsztar-video',\n", + " 'rossz-anyagi-helyzetbe-kerult-rekasi',\n", + " 'haldoklik-a-legokosabb-ember',\n", + " 'irany-europa',\n", + " 'benik-apa-lett',\n", + " 'polgar-zsofia-remizett',\n", + " '4-0-ra-kikapott-a-videoton-a-partizantol-kepek',\n", + " 'a-sport-tv-harcol-az-nb-i-ert',\n", + " 'holgyek-elmondtak-ilyen-ize-van-a-spermanak',\n", + " 'varazshegy-ujszinhaz',\n", + " 'itt-tilos-megerinteni-egy-not',\n", + " 'szextipp',\n", + " 'jotekonysagi-koncert-a-kutyaotthonert',\n", + " 'villat-viheti-a-barcelona',\n", + " 'az-instagram-nyomaban-a-magyar-applikacio',\n", + " 'ellepik-a-zsaruk-miskolc-utcait',\n", + " '300-millio-adot-csalt-yannick-noah',\n", + " 'ramona-lesz-a-legdivatosabb',\n", + " 'francia-szurkolok-unneplese-igy-telt-az-ejszaka-parizsban-foci-vb-2018',\n", + " 'beltisztito-program',\n", + " 'shaolin-fung-fu',\n", + " 'uj-magyar-csodabusz',\n", + " 'polyak-lilla-vallomasa-rengeteget-sirtam-a-valasunk-elott',\n", + " 'all-a-balhe',\n", + " 'horoszkop-julius-29',\n", + " 'csont-es-bor-aggasztoan-sovany-cindy-crawford-lanya-fotok',\n", + " 'foldrenges-japanban',\n", + " 'ez-aztan-a-varazslat',\n", + " 'mergezett-vizet-kapott-a-vonaton',\n", + " 'piquet-t-az-apja-mentheti-meg',\n", + " 'czink-melinda-ujabb-gyozelme',\n", + " 'ezt-uzeni-orban-matteo-salvininek',\n", + " 'talma-negy-kereken',\n", + " 'feltik-madonnatol-mercyt',\n", + " 'a-horvat-miniszterelnok-kozvetve-biralta-az-allamfot',\n", + " 'jessy-malone-barmit-kepes-sminkkel-elerni',\n", + " 'bubik-istvan-lett-a-nevado',\n", + " 'lipcseiek-tuntetnek-a-migransok-miatt',\n", + " 'sosem-latott-kepek-kerultek-elo-marilyn-monroerol',\n", + " 'ormenyorszag-szegenyseg-pokla',\n", + " 'kesobb-rendezik-a-snow-dayt',\n", + " 'akar-egy-kisertetkastely-igy-nez-ki-ma-wales-egyik-elhagyatott-elmegyogyintezete',\n", + " 'szenzacios-otos',\n", + " 'falujaban-helyeztek-orok-nyugalomra-mandelat',\n", + " 'kamion-borult-fel-az-m3-autopalyan',\n", + " 'egy-app-ami-megmutatja-a-radiohullamokat',\n", + " 'allatok-az-elso-vilaghaboruban',\n", + " 'porig-egett-egy-allo-auto',\n", + " 'nezz-be-csepregi-evahoz',\n", + " 'ujra-mosolyoghat-a-gigantikus-nyelvvel-szuletett-kisbaba',\n", + " 'tipp-kvizkonyv-a-szerelemert',\n", + " 'kis-remekelt-cseh-dresszeben',\n", + " 'talmacsi-szakitott-csapataval',\n", + " 'ujra-egyutt-farrell-es-hayek',\n", + " 'krokodil-vs-vizilo',\n", + " 'busznak-oltoztettek-a-kutyat',\n", + " 'hulye-no-aki-egy-omladozo-szikla-szelen-jogazott',\n", + " 'ezeket-a-szexpozokat-imadjak-a-nok',\n", + " 'hogy-ovjuk-kedvenceinket-a-melegben',\n", + " 'ki-miatt-utazott-95-orat-betegen',\n", + " 'kikepzes-130714',\n", + " 'foldre-rogytak-a-tuntetok',\n", + " 'szorcsomot-tavolitottak-el-13-eves-kislany-gyomrabol',\n", + " 'sztrajk-elt-12-orat',\n", + " 'zenevel-mond-koszonetet',\n", + " 'futballpalyan-a-zavadszky-ikrek',\n", + " 'tokonrugassal-edzenek-az-iszlam-allam-harcosai',\n", + " 'a-divattervezok-vegleg-megorultek-tokioi-divathet',\n", + " 'veteran-jargany-nem-ven-jargany',\n", + " 'kinat-vertek-a-poloslanyok',\n", + " 'kinos-hatalmas-tevepatat-villantott-kim-kardashian',\n", + " 'meztelenul-pancsolt-a-capakkal-az-orosz-modell',\n", + " 'olyan-mint-ibiza',\n", + " 'maratoni-tekeres',\n", + " 'dardai-berlini-marad',\n", + " 'mar-osz-elejen-valasztast-tartananak-auzstriaban',\n", + " 'vegyen-hazat-az-apeh-tol',\n", + " 'szexi-fotok-holly-burt-rol',\n", + " 'oscar-kisebbsegek-filmek-botrany-tarsadalom',\n", + " 'ilyen-merleget',\n", + " 'tipp-irjuk-ki-magunkbol-a-fajdalmat',\n", + " 'fedetlen-keblek',\n", + " 'a-nap-szama-34',\n", + " 'stork-natasa-dij-film',\n", + " 'ertesites-nelkuli-hazkutatas-betiltasa',\n", + " 'bajnai-a-partok-zsebeben-turkal',\n", + " 'bill-haas-es-luke-wilson-halalos-baleset-fotok',\n", + " ...}" + ] + }, + "execution_count": 34, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "set(nincsmeg)" + ] + }, + { + "cell_type": "code", + "execution_count": 36, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "0.0%\n", + "0.17%\n", + "0.35%\n", + "0.52%\n", + "0.69%\n", + "0.87%\n", + "1.04%\n", + "1.21%\n", + "1.39%\n", + "1.56%\n", + "1.73%\n", + "1.91%\n", + "2.08%\n", + "2.26%\n", + "2.43%\n", + "2.6%\n", + "2.78%\n", + "2.95%\n", + "3.12%\n", + "3.3%\n", + "3.47%\n", + "3.64%\n", + "3.82%\n", + "3.99%\n", + "4.16%\n", + "4.34%\n", + "4.51%\n", + "4.68%\n", + "4.86%\n", + "5.03%\n", + "5.2%\n", + "5.38%\n", + "5.55%\n", + "5.72%\n", + "5.9%\n", + "6.07%\n", + "6.24%\n", + "6.42%\n", + "6.59%\n", + "6.77%\n", + "6.94%\n", + "7.11%\n", + "7.29%\n", + "7.46%\n", + "7.63%\n", + "7.81%\n", + "7.98%\n", + "8.15%\n", + "8.33%\n", + "8.5%\n", + "8.67%\n", + "8.85%\n", + "9.02%\n", + "9.19%\n", + "9.37%\n", + "9.54%\n", + "9.71%\n", + "9.89%\n", + "10.06%\n", + "10.23%\n", + "10.41%\n", + "10.58%\n", + "10.75%\n", + "10.93%\n", + "11.1%\n", + "11.28%\n", + "11.45%\n", + "11.62%\n", + "11.8%\n", + "11.97%\n", + "12.14%\n", + "12.32%\n", + "12.49%\n", + "12.66%\n", + "12.84%\n", + "13.01%\n", + "13.18%\n", + "13.36%\n", + "13.53%\n", + "13.7%\n", + "13.88%\n", + "14.05%\n", + "14.22%\n", + "14.4%\n", + "14.57%\n", + "14.74%\n", + "14.92%\n", + "15.09%\n", + "15.26%\n", + "15.44%\n", + "15.61%\n", + "15.79%\n", + "15.96%\n", + "16.13%\n", + "16.31%\n", + "16.48%\n", + "16.65%\n", + "16.83%\n", + "17.0%\n", + "17.17%\n", + "17.35%\n", + "17.52%\n", + "17.69%\n", + "17.87%\n", + "18.04%\n", + "18.21%\n", + "18.39%\n", + "18.56%\n", + "18.73%\n", + "18.91%\n", + "19.08%\n", + "19.25%\n", + "19.43%\n", + "19.6%\n", + "19.77%\n", + "19.95%\n", + "20.12%\n", + "20.3%\n", + "20.47%\n", + "20.64%\n", + "20.82%\n", + "20.99%\n", + "21.16%\n", + "21.34%\n", + "21.51%\n", + "21.68%\n", + "21.86%\n", + "22.03%\n", + "22.2%\n", + "22.38%\n", + "22.55%\n", + "22.72%\n", + "22.9%\n", + "23.07%\n", + "23.24%\n", + "23.42%\n", + "23.59%\n", + "23.76%\n", + "23.94%\n", + "24.11%\n", + "24.28%\n", + "24.46%\n", + "24.63%\n", + "24.81%\n", + "24.98%\n", + "25.15%\n", + "25.33%\n", + "25.5%\n", + "25.67%\n", + "25.85%\n", + "26.02%\n", + "26.19%\n", + "26.37%\n", + "26.54%\n", + "26.71%\n", + "26.89%\n", + "27.06%\n", + "27.23%\n", + "27.41%\n", + "27.58%\n", + "27.75%\n", + "27.93%\n", + "28.1%\n", + "28.27%\n", + "28.45%\n", + "28.62%\n", + "28.79%\n", + "28.97%\n", + "29.14%\n", + "29.32%\n", + "29.49%\n", + "29.66%\n", + "29.84%\n", + "30.01%\n", + "30.18%\n", + "30.36%\n", + "30.53%\n", + "30.7%\n", + "30.88%\n", + "31.05%\n", + "31.22%\n", + "31.4%\n", + "31.57%\n", + "31.74%\n", + "31.92%\n", + "32.09%\n", + "32.26%\n", + "32.44%\n", + "32.61%\n", + "32.78%\n", + "32.96%\n", + "33.13%\n", + "33.3%\n", + "33.48%\n", + "33.65%\n", + "33.83%\n", + "34.0%\n", + "34.17%\n", + "34.35%\n", + "34.52%\n", + "34.69%\n", + "34.87%\n", + "35.04%\n", + "35.21%\n", + "35.39%\n", + "35.56%\n", + "35.73%\n", + "35.91%\n", + "36.08%\n", + "36.25%\n", + "36.43%\n", + "36.6%\n", + "36.77%\n", + "36.95%\n", + "37.12%\n", + "37.29%\n", + "37.47%\n", + "37.64%\n", + "37.81%\n", + "37.99%\n", + "38.16%\n", + "38.34%\n", + "38.51%\n", + "38.68%\n", + "38.86%\n", + "39.03%\n", + "39.2%\n", + "39.38%\n", + "39.55%\n", + "39.72%\n", + "39.9%\n", + "40.07%\n", + "40.24%\n", + "40.42%\n", + "40.59%\n", + "40.76%\n", + "40.94%\n", + "41.11%\n", + "41.28%\n", + "41.46%\n", + "41.63%\n", + "41.8%\n", + "41.98%\n", + "42.15%\n", + "42.32%\n", + "42.5%\n", + "42.67%\n", + "42.85%\n", + "43.02%\n", + "43.19%\n", + "43.37%\n", + "43.54%\n", + "43.71%\n", + "43.89%\n", + "44.06%\n", + "44.23%\n", + "44.41%\n", + "44.58%\n", + "44.75%\n", + "44.93%\n", + "45.1%\n", + "45.27%\n", + "45.45%\n", + "45.62%\n", + "45.79%\n", + "45.97%\n", + "46.14%\n", + "46.31%\n", + "46.49%\n", + "46.66%\n", + "46.83%\n", + "47.01%\n", + "47.18%\n", + "47.36%\n", + "47.53%\n", + "47.7%\n", + "47.88%\n", + "48.05%\n", + "48.22%\n", + "48.4%\n", + "48.57%\n", + "48.74%\n", + "48.92%\n", + "49.09%\n", + "49.26%\n", + "49.44%\n", + "49.61%\n", + "49.78%\n", + "49.96%\n", + "50.13%\n", + "50.3%\n", + "50.48%\n", + "50.65%\n", + "50.82%\n", + "51.0%\n", + "51.17%\n", + "51.34%\n", + "51.52%\n", + "51.69%\n", + "51.87%\n", + "52.04%\n", + "52.21%\n", + "52.39%\n", + "52.56%\n", + "52.73%\n", + "52.91%\n", + "53.08%\n", + "53.25%\n", + "53.43%\n", + "53.6%\n", + "53.77%\n", + "53.95%\n", + "54.12%\n", + "54.29%\n", + "54.47%\n", + "54.64%\n", + "54.81%\n", + "54.99%\n", + "55.16%\n", + "55.33%\n", + "55.51%\n", + "55.68%\n", + "55.85%\n", + "56.03%\n", + "56.2%\n", + "56.38%\n", + "56.55%\n", + "56.72%\n", + "56.9%\n", + "57.07%\n", + "57.24%\n", + "57.42%\n", + "57.59%\n", + "57.76%\n", + "57.94%\n", + "58.11%\n", + "58.28%\n", + "58.46%\n", + "58.63%\n", + "58.8%\n", + "58.98%\n", + "59.15%\n", + "59.32%\n", + "59.5%\n", + "59.67%\n", + "59.84%\n", + "60.02%\n", + "60.19%\n", + "60.36%\n", + "60.54%\n", + "60.71%\n", + "60.89%\n", + "61.06%\n", + "61.23%\n", + "61.41%\n", + "61.58%\n", + "61.75%\n", + "61.93%\n", + "62.1%\n", + "62.27%\n", + "62.45%\n", + "62.62%\n", + "62.79%\n", + "62.97%\n", + "63.14%\n", + "63.31%\n", + "63.49%\n", + "63.66%\n", + "63.83%\n", + "64.01%\n", + "64.18%\n", + "64.35%\n", + "64.53%\n", + "64.7%\n", + "64.87%\n", + "65.05%\n", + "65.22%\n", + "65.4%\n", + "65.57%\n", + "65.74%\n", + "65.92%\n", + "66.09%\n", + "66.26%\n", + "66.44%\n", + "66.61%\n", + "66.78%\n", + "66.96%\n", + "67.13%\n", + "67.3%\n", + "67.48%\n", + "67.65%\n", + "67.82%\n", + "68.0%\n", + "68.17%\n", + "68.34%\n", + "68.52%\n", + "68.69%\n", + "68.86%\n", + "69.04%\n", + "69.21%\n", + "69.38%\n", + "69.56%\n", + "69.73%\n", + "69.91%\n", + "70.08%\n", + "70.25%\n", + "70.43%\n", + "70.6%\n", + "70.77%\n", + "70.95%\n", + "71.12%\n", + "71.29%\n", + "71.47%\n", + "71.64%\n", + "71.81%\n", + "71.99%\n", + "72.16%\n", + "72.33%\n", + "72.51%\n", + "72.68%\n", + "72.85%\n", + "73.03%\n", + "73.2%\n", + "73.37%\n", + "73.55%\n", + "73.72%\n", + "73.89%\n", + "74.07%\n", + "74.24%\n", + "74.42%\n", + "74.59%\n", + "74.76%\n", + "74.94%\n", + "75.11%\n", + "75.28%\n", + "75.46%\n", + "75.63%\n", + "75.8%\n", + "75.98%\n", + "76.15%\n", + "76.32%\n", + "76.5%\n", + "76.67%\n", + "76.84%\n", + "77.02%\n", + "77.19%\n", + "77.36%\n", + "77.54%\n", + "77.71%\n", + "77.88%\n", + "78.06%\n", + "78.23%\n", + "78.4%\n", + "78.58%\n", + "78.75%\n", + "78.93%\n", + "79.1%\n", + "79.27%\n", + "79.45%\n", + "79.62%\n", + "79.79%\n", + "79.97%\n", + "80.14%\n", + "80.31%\n", + "80.49%\n", + "80.66%\n", + "80.83%\n", + "81.01%\n", + "81.18%\n", + "81.35%\n", + "81.53%\n", + "81.7%\n", + "81.87%\n", + "82.05%\n", + "82.22%\n", + "82.39%\n", + "82.57%\n", + "82.74%\n", + "82.91%\n", + "83.09%\n", + "83.26%\n", + "83.44%\n", + "83.61%\n", + "83.78%\n", + "83.96%\n", + "84.13%\n", + "84.3%\n", + "84.48%\n", + "84.65%\n", + "84.82%\n", + "85.0%\n", + "85.17%\n", + "85.34%\n", + "85.52%\n", + "85.69%\n", + "85.86%\n", + "86.04%\n", + "86.21%\n", + "86.38%\n", + "86.56%\n", + "86.73%\n", + "86.9%\n", + "87.08%\n", + "87.25%\n", + "87.43%\n", + "87.6%\n", + "87.77%\n", + "87.95%\n", + "88.12%\n", + "88.29%\n", + "88.47%\n", + "88.64%\n", + "88.81%\n", + "88.99%\n", + "89.16%\n", + "89.33%\n", + "89.51%\n", + "89.68%\n", + "89.85%\n", + "90.03%\n", + "90.2%\n", + "90.37%\n", + "90.55%\n", + "90.72%\n", + "90.89%\n", + "91.07%\n", + "91.24%\n", + "91.41%\n", + "91.59%\n", + "91.76%\n", + "91.94%\n", + "92.11%\n", + "92.28%\n", + "92.46%\n", + "92.63%\n", + "92.8%\n", + "92.98%\n", + "93.15%\n", + "93.32%\n", + "93.5%\n", + "93.67%\n", + "93.84%\n", + "94.02%\n", + "94.19%\n", + "94.36%\n", + "94.54%\n", + "94.71%\n", + "94.88%\n", + "95.06%\n", + "95.23%\n", + "95.4%\n", + "95.58%\n", + "95.75%\n", + "95.92%\n", + "96.1%\n", + "96.27%\n", + "96.45%\n", + "96.62%\n", + "96.79%\n", + "96.97%\n", + "97.14%\n", + "97.31%\n", + "97.49%\n", + "97.66%\n", + "97.83%\n", + "98.01%\n", + "98.18%\n", + "98.35%\n", + "98.53%\n", + "98.7%\n", + "98.87%\n", + "99.05%\n", + "99.22%\n", + "99.39%\n", + "99.57%\n", + "99.74%\n", + "99.91%\n" + ] + } + ], + "source": [ + "# u1 = 'https://www.blikk.hu/eletmod/tippek/hoki-parajegkorong-teli-olimpiai-jatekok/pxnyc94'\n", + "blikk_iter = response_warc_record_gen(warc_filename)\n", + "not_in_2 = []\n", + "for i in range(576494):\n", + " if i % 1000 == 0:\n", + " print(f'{round((i / 576494) * 100, 2)}%')\n", + " u, _ = next(blikk_iter)\n", + " if u.split('/')[3] not in megvan:\n", + " not_in_2.append(u)" + ] + }, + { + "cell_type": "code", + "execution_count": 48, + "metadata": {}, + "outputs": [], + "source": [ + "['sport', 'valasztas-2022', 'receptek', 'blikk-tv', 'auto']\n", + "not_in_rovat = [u.split('/')[3] for u in not_in_2]" + ] + }, + { + "cell_type": "code", + "execution_count": 45, + "metadata": {}, + "outputs": [], + "source": [ + "not_in_without_dash = [i for i in not_in_rovat if '-' not in i]" + ] + }, + { + "cell_type": "code", + "execution_count": 52, + "metadata": {}, + "outputs": [], + "source": [ + "not_in_count = sorted(Counter(not_in_rovat).items(), key=lambda x:x[1], reverse=True)" + ] + }, + { + "cell_type": "code", + "execution_count": 15, + "metadata": {}, + "outputs": [], + "source": [ + "# METACHECKING\n", + "with open('blikk10000metas.json', 'r') as infile:\n", + " blikkdict = json.load(infile)\n", + " " + ] + }, + { + "cell_type": "code", + "execution_count": 22, + "metadata": {}, + "outputs": [], + "source": [ + "authors = [d['sch:author'] for d in blikkdict.values() if 'sch:author' in d.keys()]\n", + "set([c for c in [b[0] for b in [a for a in authors if len(a) == 1]] if ' ' not in c])" + ] + }, + { + "cell_type": "code", + "execution_count": 38, + "metadata": {}, + "outputs": [], + "source": [ + "dates = [(d['sch:url'],d['sch:datePublished']) for d in blikkdict.values()]" + ] + }, + { + "cell_type": "code", + "execution_count": 3, + "metadata": {}, + "outputs": [], + "source": [ + "# LOG CHECKING\n", + "with open('../../LOGS/tei_writing_blikk.log', 'r') as infile:\n", + " lines = infile.read().splitlines()" + ] + } + ], + "metadata": { + "interpreter": { + "hash": "916dbcbb3f70747c44a77c7bcd40155683ae19c65e1c03b4aa3499c5328201f1" + }, + "kernelspec": { + "display_name": "Python 3.8.10 64-bit", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.8.10" + }, + "orig_nbformat": 4 + }, + "nbformat": 4, + "nbformat_minor": 2 +} diff --git a/configs/blikk/blikk_notext_tags_normal.tsv b/configs/blikk/blikk_notext_tags_normal.tsv new file mode 100644 index 0000000..068373e --- /dev/null +++ b/configs/blikk/blikk_notext_tags_normal.tsv @@ -0,0 +1,509 @@ +frequency tag average_word_count average_descendant_num immediate_texts_average_length URL_example normal_name preserved_attribute +3388950 0 3.747583175 0 https://www.blikk.hu/sztarvilag/sztarsztorik/koronavirus-vendeglatohelyek-segitseg-tamogatas-gianni-annoni/xs2mhym https://www.blikk.hu/sztarvilag/sztarsztorik/fiatal-lanyok-csabitjak-randira-a-jokepu-x-faktorost/j11ngr1 https://www.blikk.hu/aktualis/nott-a-villamosenergia-felhasznalas-2014-ben/8g1eq1c https://www.blikk.hu/sport/rubi-a-levante-uj-vezetoedzoje/q5jyytw https://www.blikk.hu/eletmod/tudtadallergias-reakciot-valthat-ki-ennek-a-hetkoznapi-fuszernek-az-illoolaja/3k9n993 media_tartalom default +2535329
0 5.033488356 0 https://www.blikk.hu/aktualis/krimi/segitsen-megtalalni-eltunt-egy-50-eves-encsi-no/zxxh62x https://www.blikk.hu/sztarvilag/sztarsztorik/rubint-reka-mikulas-ajandek-ekszer-mikulas/k4c1wkh https://www.blikk.hu/sztarvilag/filmklikk/berlinale-mozi-visszateres-fesztival-volt-vezeto-dieter-kosslick/z59wx88 https://www.blikk.hu/aktualis/elkaptak-a-becsi-metro-remet/z322csy https://www.blikk.hu/sport/magyar-foci/a-videoton-fiatalja-dzsudzsakek-peldajat-kovetheti/c0efk9t media_tartalom default +2535329 0 4.033488356 0 https://www.blikk.hu/eletmod/tippek/ezek-a-legnehezebben-betarthato-ujevi-fogadalmak/7dnf7wz https://www.blikk.hu/sztarvilag/sztarsztorik/igy-ment-ferjhez-meghan-markle/zmzgfct https://www.blikk.hu/sztarvilag/sztarsztorik/muri-eniko-dramai-vallomasa-az-operacio-utan-adtam-idot-magamnak-hogy-meggyaszoljam-a/xprrj5w https://www.blikk.hu/sport/mindent-bele/kvangdzsu-vizes-vb-magyarorszag-ausztralia-montenegro-ferfi-vizilabda/4bm4v1m https://www.blikk.hu/sztarvilag/kultura/videosuli-5-evfolyam-nyelvtan-a-szavak-szerkezete/5rd0z6p hivatkozas href +2535326 0 0 0 https://www.blikk.hu/aktualis/kulfold/elkepeszto-mit-muvelnek-a-bikaval-a-gyerekek-video/16nh6fl https://www.blikk.hu/aktualis/politika/kovacs-bela-ugyeszseg-fegyhaz/fb31bkj https://www.blikk.hu/sztarvilag/szulak-andrea-nem-a-papir-szamit/ds9tm5z https://www.blikk.hu/auto/teszt/elkepeszto-video-igy-veszi-a-suzuki-swift-a-hegyi-szerpentin-kanyarjait/030kygv https://www.blikk.hu/eletmod/egeszseg/pollenszezon-elkezdodott-allergia-szakember-tippek-tanacsok-egeszseg/38g08tk null default +2535308 0 0 0 https://www.blikk.hu/sztarvilag/sztarsztorik/balint-gazda-temetes-julius-14-en-kedden-11-orakor-fiume-uti-sirkert/cf74lrb https://www.blikk.hu/aktualis/ok-a-foldkerekseg-legbefolyasosabb-asszonyai/9g7y5m6 https://www.blikk.hu/aktualis/kigyulladt-egy-idosek-otthona-a-komi-koztarsasagban/chhbb27 https://www.blikk.hu/eletmod/egeszseg/megfogadta-ujevkor-hogy-valtoztat-az-eletmodjan-ezt-el-kell-olvasnia/ndbl585 https://www.blikk.hu/aktualis/kigyulladt-egy-csaladi-haz-pomazon/2ww9rcl null default +2450425 @alt 0 0 0 https://www.blikk.hu/aktualis/belfold/kutba-esett-egy-idos-ferfi-felsobukben/3kcrr04 https://www.blikk.hu/egyuttmukodest-kert-a-kormanyfo/tznfte4 https://www.blikk.hu/aktualis/krimi/igy-csapott-le-a-tek-ezek-a-legdurvabb-helyszini-fotok-a-terez-koruti-robbanto/qeqtgv5 https://www.blikk.hu/sztarvilag/filmklikk/jobaratok-reunion-folytatas-elso-elozetes/8h49sbm https://www.blikk.hu/aktualis/belfold/visszater-a-tavaszias-ido-23-fok-lesz-a-homerseklet/08vj84y media_hivatkozas data-src +1679893 0 5.000001786 0 https://www.blikk.hu/christina-aguilera-narancsot-szed/g7qsdp1 https://www.blikk.hu/aktualis/belfold/malev-praga-40-eve-baleset-betonnak-csapodott-repulogep-csoda-tulelte-mindenki/nh0nk2y https://www.blikk.hu/sport/magyar-foci/elmarad-a-foci-valogatott-sorsdonto-bulgariai-meccse/ndtz6kd https://www.blikk.hu/aktualis/dobbenet-ketmeteres-tengeri-szornyet-fogtak-fukushimanal/s1dw9jp https://www.blikk.hu/aktualis/melegszex-aldozata-lett-a-latexes-ferfi/ddnq3zz null default +1679890 0 1.999998214 0 https://www.blikk.hu/sztarvilag/sztarsztorik/mi-tortenhetett-aggaszto-fotot-posztolt-toth-vera-a-traumatologiarol/3l1w95m https://www.blikk.hu/sztarvilag/tobb-napig-unnepelt-a-30-eves-dukai/ezgbnvm https://www.blikk.hu/sport/horvath-edzo-marad/p324d06 https://www.blikk.hu/sport/f1-es-sztrajkra-keszulhetnek-a-pilotak/52qt0r7 https://www.blikk.hu/aktualis/krimi/budapest-adathamisitas-draga-mobiltelefonok-rendeles-csalas/kf37wkn null default +887727
0 0 0 https://www.blikk.hu/sztarvilag/sztarsztorik/katy-perry-nem-megy-ferjhez-tobbe/3k3hc86 https://www.blikk.hu/aktualis/krimi/tobb-ezer-loszert-es-fegyvereket-talaltak-egy-debreceni-hazban-fotok/w0f65ks https://www.blikk.hu/sztarvilag/hargitai-bea-a-domina/1lxrgwv https://www.blikk.hu/aktualis/tuntettek-a-marihuanafogyasztas-legalizalasaert/1tdhnzg https://www.blikk.hu/sztarvilag/sztarsztorik/shane-tusup-kviz-lagzi-lacsji-szabo-zsofi-vajna-timi-kajdi-csaba/7zl2w20 decompose default +587308 0 2.5 0 https://www.blikk.hu/sztarvilag/sztarsztorik/szabo-dori-valtja-varkonyi-andreat-breaking-life-tv/xmp34kv https://www.blikk.hu/aktualis/kulfold/szexualis-zaklatassal-vadoljak-az-amerikai-elnokot-courtney-friel/edlpq7b https://www.blikk.hu/aktualis/kulfold/baguette-unesco-vilagoroksegi-lista/j2lbm6x https://www.blikk.hu/sport/ronaldinho-bevaltotta-igeretet/zpe8fv1 https://www.blikk.hu/aktualis/megdobbentek-szeremley-huba-ismerosei/yh6lxs2 null default +545809
0 0 0 https://www.blikk.hu/sztarvilag/sztarsztorik/kovacs-patricia-bevallotta-ket-es-fel-evig-szoptatta-a-kislanyat/m41wsz4 https://www.blikk.hu/sztarvilag/sztarsztorik/igy-bucsuzik-a-madach-szinhaz-paudits-belatol/cc0z90l https://www.blikk.hu/aktualis/belfold/pest-megye-negy-ferfi-ket-kollega-emberrablas-veres-gumilovedek-vademeles/y7f50s9 https://www.blikk.hu/sztarvilag/paris-hilton-egy-disznoval-hal/yq6f37x https://www.blikk.hu/aktualis/politika/orban-viktor-varpalotai-elkerulo-ut-8-as-fout-migrans/d1vqlvn decompose default +399270 @alt 0 0 0 https://www.blikk.hu/sztarvilag/sztarsztorik/igy-emlekeznek-baratai-a-fiatalon-meghalt-magyar-enekesnore/m1kslml https://www.blikk.hu/aktualis/belfold/betort-egy-lakasba-zamardiban-a-ferfi-majd-elaludt/t6e1q4b https://www.blikk.hu/sztarvilag/ok-az-igazi-hollywoodi-balfekek/mwtjj6w https://www.blikk.hu/sport/kulfoldi-foci/kiszivargott-o-nyeri-majd-az-idei-aranylabdat/pvzbxrn https://www.blikk.hu/sport/a-6-milliardert-vett-neuer-potyagolja/nf0rlsh media_hivatkozas src +380736 0 8 0 https://www.blikk.hu/aktualis/belfold/szekesfehervari-birosag-alkotmanybirosag-hajlektalantorveny/1yrw82r https://www.blikk.hu/aktualis/belfold/tragedia-vonatbaleset-tapolca-temetes-video/x8ezs3p https://www.blikk.hu/aktualis/ket-milliot-fizethet-amiert-lemelegezte-a-fideszes-kocsis-matet/9zzy507 https://www.blikk.hu/sztarvilag/sztarsztorik/fortelmes-napokon-van-tul-fuldoklott-a-korhazban-sebestyen-balazs/gvtdjs8 https://www.blikk.hu/aktualis/kulfold/hat-gyermekevel-indult-el-az-ego-toronyhazbol-neggyel-jutott-ki/3g13qlx hivatkozas href +293654 @alt 0 0 0 https://www.blikk.hu/sztarvilag/sztarsztorik/kulisszatitkok-a-hiressegek-magyarorszagi-kiruccanasairol/hg933yg https://www.blikk.hu/eletmod/tippek/ha-bulit-tartunk-a-hetvegen-ez-fontos-most-megtudhatja-mit-milyen-poharban-talaljon/xtr06wz https://www.blikk.hu/aktualis/belfold/meg-juniusban-tunt-el-a-38-eves-kecskemeti-no/bk4scbq https://www.blikk.hu/aktualis/jarvany-dul-az-oceanjaron/zlfjfh3 https://www.blikk.hu/auto/megjelent-az-auto-bild-aprilisi-szama/67zweht media_hivatkozas data-src +293003 0 1 0 https://www.blikk.hu/aktualis/paradicsom-nott-a-villamossinek-kozott-foto/3zjvb6r https://www.blikk.hu/aktualis/kulfold/rejtelyes-regi-penztarcat-talaltak-a-klub-felujitasakor/nsndt1r https://www.blikk.hu/sport/egyeni/uszobotrany-mar-az-edzok-sem-kernek-a-szovetsegbol/ft6g9kz https://www.blikk.hu/eletmod/szoros-dogos-bor-vagy-pink-a-legjobb-telikabatok/9pexr9j https://www.blikk.hu/sport/gera-visszatert-a-valogatottba/mmq1qf4 hivatkozas href +160697
0 9 0 https://www.blikk.hu/aktualis/belfold/baleset-nyarlorinc-kozeleben-44-es-fout-halalos-baleset/b1jc6d1 https://www.blikk.hu/igy-szuretelik-a-chilit-galeria/r9yqrzh https://www.blikk.hu/kelemen-anna-visszatert-igy-meg-nem-latta-az-fix/qwsm3f5 https://www.blikk.hu/oroszlanok-testkozelbol/vpqt3c0 https://www.blikk.hu/az-orosz-kim-kardashian-anastasia-kvitko/kmegym8 media_tartalom default +160697 0 8 0 https://www.blikk.hu/aktualis/belfold/kiszakadt-az-erkelykorlat-a-harminckettesek-teren-ketten-lezuhantak-fotok-a/pkpj39v https://www.blikk.hu/aktualis/veszhelyzet/a-franciaknak-sem-kegyelmez-az-ozonviz-kepek/4w6lz9t https://www.blikk.hu/farmerben-feszitenek-a-mav-mozdonyvezetoi/nl02qw2 https://www.blikk.hu/kinaban-romboltak-le-egy-feluljarot-kotrogeppel/bk3p9r4 https://www.blikk.hu/ezrevel-menekulnek-az-emberek-moszul-kornyekerol/snmlct9 hivatkozas href +160697 @alt 0 0 0 https://www.blikk.hu/galeria/sugarhajtasu-ruha-hadsereg-bemutatas/227h4vf https://www.blikk.hu/galeria/hazahoztak-a-16-veronai-aldozat-holttestet-a-honvedkorhazba-fotok/59s2tdc https://www.blikk.hu/mtv-music-awards-2017/ev6f8t7 https://www.blikk.hu/galeria/csodalatok-termeszet-fotok-a-fold-napja-alkalmabol/xlkjwb8 https://www.blikk.hu/europa-legjobb-allatkertje-lett-sajat-kategoriajaban-a-nyiregyhazi-allatpark/lgxsvwh media_hivatkozas src +160521 0 0 0 https://www.blikk.hu/sztarvilag/filmklikk/bujtor-istvan-pogany-madonna-forgatasi-titkok-hernadi-judit-kern-andras/c0e84lv https://www.blikk.hu/lucy-hale-mellbimbo-meztelen-szexjelenet-dude-sorozat/ztxlm7j https://www.blikk.hu/aktualis/politika/ader-janos-nemzetkozi-eucharisztikus-kongresszus-hit-beszed/hv6s7r3 https://www.blikk.hu/tamogatast-kapott-a-magyar-gyermekonkologiai-halozat/b8welqt https://www.blikk.hu/galeria/dramai-kepek-a-coloradoi-iskolai-lovoldozesrol/y7b2zfj null default +84904 0 0 0 https://www.blikk.hu/sztarvilag/szexi/erotikus-tanc-szexi-vv-reni-valovilag/8vfhrjh https://www.blikk.hu/szikora-melinda-a-debrecen-ellen-talalt-be/zve1byw https://www.blikk.hu/aktualis/mar-a-sikloernyo-is-szimulalhato/0pwygdf https://www.blikk.hu/aktualis/aszpirinnel-a-szivroham-ellen/5jn796p https://www.blikk.hu/aktualis/rendort-rugott-meg-egy-no/ks3jjcl null default +84904 @alt 0 0 0 https://www.blikk.hu/aktualis/kulfold/kiadtak-a-figyelmeztetes-terrortamadas-varhato-europaban/dx6kstl https://www.blikk.hu/aktualis/belfold/bkk-caf-villamos-uzembe-helyezes/gk3gewj https://www.blikk.hu/aktualis/kulfold/szexualis-eroszakkal-vadoljak-az-illegalisan-mukodo-ortodox-zsido-iskolakat/vr3wmt1 https://www.blikk.hu/aktualis/zebran-utottek-el-egy-gyereket-kaposvaron/c3ls9es https://www.blikk.hu/aktualis/kiegett-egy-lakas-a-fovarosban/1sdz6yf media_hivatkozas data-src +50732
0 2 0 https://www.blikk.hu/sztarvilag/sztarsztorik/zambo-krisztian-edzes-hizas-tervek/w3f2rpm https://www.blikk.hu/sztarvilag/sztarsztorik/uj-frizura-haj-gorgenyi-fruzsina-frufrut-vagatott/m560ypq https://www.blikk.hu/aktualis/politika/orban-viktor-evertekelo-jakab-peter/we9gzf4 https://www.blikk.hu/sztarvilag/sztarsztorik/varga-iren-sminkelos-video/hmpns0q https://www.blikk.hu/sztarvilag/sztarsztorik/herczeg-zoltan-koronavirusos/n6bt9lm null default +50732
0 1 0 https://www.blikk.hu/aktualis/veszhelyzet/tragedia-lakohazba-csapodott-egy-kisrepulogep-utah-allamaban/ekzgfw2 https://www.blikk.hu/sztarvilag/sztarsztorik/nemeth-lajos-feleseg-hazassag-rajongas/9jm406d https://www.blikk.hu/sztarvilag/sztarsztorik/tragikusan-fiatalon-hunyt-el-a-szineszno-ababi-csilla-nagyvarad/hkezq0t https://www.blikk.hu/sport/foci-eb-2016/veruket-adtak-a-gyozelemert-a-horvatok-modric-dontotte-el-a-torokok-elleni-merkozest/t814r9j https://www.blikk.hu/sztarvilag/sztarsztorik/victoria-david-beckham-fia-romeo-18/wxpmz7k beagyazott_tartalom default +50732
0 1 0 https://www.blikk.hu/aktualis/veszhelyzet/tragedia-lakohazba-csapodott-egy-kisrepulogep-utah-allamaban/ekzgfw2 https://www.blikk.hu/sztarvilag/sztarsztorik/nemeth-lajos-feleseg-hazassag-rajongas/9jm406d https://www.blikk.hu/sztarvilag/sztarsztorik/tragikusan-fiatalon-hunyt-el-a-szineszno-ababi-csilla-nagyvarad/hkezq0t https://www.blikk.hu/sport/foci-eb-2016/veruket-adtak-a-gyozelemert-a-horvatok-modric-dontotte-el-a-torokok-elleni-merkozest/t814r9j https://www.blikk.hu/sztarvilag/sztarsztorik/victoria-david-beckham-fia-romeo-18/wxpmz7k beagyazott_tartalom href +50732
0 0 0 https://www.blikk.hu/sztarvilag/felhaborito-visszaeltek-jakupcsek-gabriella-nevevel/w2kd61d https://www.blikk.hu/aktualis/belfold/elhunyt-klubradio-szerkesztoje/nmwqyfk https://www.blikk.hu/sztarvilag/sztarsztorik/david-beckham-vilaghiru-szakacs-akar-lenni/xwr7nf1 https://www.blikk.hu/streaming/the-lost-symbol-peacock-sorozat-dan-brown-tv/1ce6se7 https://www.blikk.hu/aktualis/politika/momentum-karman-iren-szolnok-elovalasztas/dkbfpb3 null default +29280
0 0 0 https://www.blikk.hu/valsag-ruhan-es-a-hasan-sporol-a-magyar/xvqc79c https://www.blikk.hu/74-milliard-forintert-elado-az-osbourne-villa/rts70hk https://www.blikk.hu/tancra-fel-holgyek/qf7qc4k https://www.blikk.hu/kutyaeskuvo-40-millioert/4yyhqth https://www.blikk.hu/berki-cserpes-zsuzska-ki-kivel-van/0z2qljz decompose default +23428
0 0 0 https://www.blikk.hu/sztarvilag/sztarsztorik/igy-csokolta-dallos-bogi-kezet-puskas-peti-az-x-faktorban/rcg2byf https://www.blikk.hu/galeria/birkozo-vb-dontoert-harcol-barka-emese/3dpsrgc https://www.blikk.hu/aktualis/kulfold/a-koreai-nephadsereg-megalakulasanak-70-evforduloja/xt84g86 https://www.blikk.hu/galeria/francia-zavargasok-rombolas-gyujtogatas-luxus-boltok/beb18lh https://www.blikk.hu/aktualis/krimi/megolte-ket-gyermeket-egy-gyori-apa-helyszini-fotok-lakas/yd7lvcm decompose default +18534 0 8 0 https://www.blikk.hu/sztarvilag/sztarsztorik/bon-jovi-luxusvillat-vett-florida-palm-beach/vf41629 https://www.blikk.hu/galeria/sarolta-hercegno-katalin-hercegne-koronavirus-jarvany-galeria/tczqgdd https://www.blikk.hu/sztarvilag/szexi/ez-a-brazil-lany-allitolag-tyga-uj-baratnoje/qztc15d https://www.blikk.hu/galeria-egy-alma-valt-valora-a-lanynak-aki-elza-hercegnokent-keresi-a-kenyeret/44rt57j https://www.blikk.hu/fogaval-kapaszkodva-logott-a-niagara-vizeses-felett-a-legtornasz/z8g79rq hivatkozas href +18534
0 0 0 https://www.blikk.hu/arokba-csuszott-busz-mentese-sojtoron/bv0fx76 https://www.blikk.hu/horrorisztikus-latvany-ritka-rak-miatt-folyt-ki-a-kisfiu-szeme-azota-vert-konnyez/7ekcgwf https://www.blikk.hu/marslakok-forgaras/r97xv45 https://www.blikk.hu/aktualis/belfold/havazas-aprilis-kelet-magyarorszag-hidegfront/z9cfegd https://www.blikk.hu/galeria/szetegett-a-teste-megis-ratalalt-a-szerelem-modell-usa/cnemtrm null default +18534
0 0 0 https://www.blikk.hu/galeria/olaszorszag-2020-koronavirus-korhazak-covid-19-betegseg/yxrwftd https://www.blikk.hu/aktualis/belfold/mentosok-tuntetnek/450rbyh https://www.blikk.hu/galeria/az-instagram-100-legforrobb-kepe-2018-ban/2beqmht https://www.blikk.hu/nepunnepelyt-csaptak-amerikaban-az-elmenekult-kubaiak-castro-halal/1s730d1 https://www.blikk.hu/dobjon-el-mindent-es-repuljon-moszkvaba-a-cicakiallitasra-galeria/c49czt4 null default +16609
0 0 0 https://www.blikk.hu/eletmod/utazas/programajanlo-hetvegere/x9ser4t https://www.blikk.hu/sztarvilag/sztarsztorik/hirossszefoglalo-blikk-friss-hirek-junius-25-pentek/0vqczkr https://www.blikk.hu/aktualis/krimi/lovoldozes-volt-amerikaban-negy-ember-meghalt/8h70tlq https://www.blikk.hu/aktualis/belfold/millios-nyomravezetoi-dij-utheti-a-markat-ha-ismeri-ezt-a-ket-ferfit/2z415tq https://www.blikk.hu/aktualis/teszteltuk-a-csokimikulasokat/krbgktb null default +12348
0 0 0 https://www.blikk.hu/sztarvilag/sztarsztorik/valovilag-finale-vv-zsuzsu-vv-greg-vv-hunor/cy0rn1y https://www.blikk.hu/aktualis/belfold/elegendo-e-a-nyugdijak-ketezer-forintos-emelese/pygffl7 https://www.blikk.hu/fodrasz-szolgaltato-zarva-jarvany-szabalyok/66e70nv https://www.blikk.hu/aktualis/belfold/onnek-volt-mar-munkahelyi-kapcsolata/s84k2kd https://www.blikk.hu/aktualis/politika/onnek-hianyozna-ha-a-britek-kilepnenek-az-uniobol/x4pp2f9 null default +4831