diff --git a/configs/vadhajtasok/vadhajtasok_BASE.xml b/configs/vadhajtasok/vadhajtasok_BASE.xml new file mode 100644 index 0000000..04c411c --- /dev/null +++ b/configs/vadhajtasok/vadhajtasok_BASE.xml @@ -0,0 +1,125 @@ + + + + + + + + + + + ELTE-DH webcrawling + + creator + ELTE-DH + + + + project director + PalkóGábor + https://orcid.org/0000-0002-4394-8577 + + + chief programmer + IndigBalázs + https://orcid.org/0000-0001-8090-3661 + + + TEI expert + FellegiZsófia + https://orcid.org/0000-0001-9199-1759 + + + programmer + Sárközi-LindnerZsófia + https://orcid.org/0000-0002-2558-0633 + + + + + ELTE-DH + http://elte-dh.hu/ + + Budapest http://www.geonames.org/3054643 + + 2020 + +

Metadata: IN COPYRIGHT - NON-COMMERCIAL USE PERMITTEDhttp://rightsstatements.org/vocab/InC-NC/1.0/

+

Text: IN COPYRIGHT http://rightsstatements.org/vocab/InC/1.0/ +

+
+ +
+ + + + PLACEHOLDER + PLACEHOLDER + + + + + PLACEHOLDER + PLACEHOLDER + +

© 2018 Vadhajtások.hu

+

+ + + +

+
+ +
+
+
+ + + + + Vadhajtasok + hun + In Copyright + + + + + + + WARC/1.1 + 2021-12-13T12:32:22/2021-12-13T23:19:44 + + + b0d41bc0-01bb-4845-b7bd-45f95be24f0e + + + + + + + TEI + + + Palkó Gábor + Indig Balázs + Fellegi Zsófia + Sárközi-Lindner Zsófia + + + + + + TEI file created + +
+ + + + +
diff --git a/configs/vadhajtasok/vadhajtasok_notext_tags_normal.tsv b/configs/vadhajtasok/vadhajtasok_notext_tags_normal.tsv new file mode 100644 index 0000000..5e49078 --- /dev/null +++ b/configs/vadhajtasok/vadhajtasok_notext_tags_normal.tsv @@ -0,0 +1,29 @@ +frequency tag average_word_count average_descendant_num immediate_texts_average_length URL_example normal_name preserved_attribute +default

default default default no_example bekezdes default +default

default default default no_example cimsor default +default

default default default no_example cimsor default +default

default default default no_example cimsor default +default

default default default no_example cimsor default +default default default default no_example felkover default +default default default default no_example felkover default +default default default default no_example kiemelt default +default default default default no_example dolt default +default default default default no_example kiemelt default +default default default default no_example alsoindex default +default default default default no_example felsoindex default +default default default default no_example athuzott default +default default default default no_example alahuzott default +default default default default no_example athuzott default +default
    default default default no_example lista default +default
      default default default no_example lista default +default
    1. default default default no_example listaelem default +default default default default no_example table_text default +default default default default no_example sor default +default
      default default default no_example oszlop default +default default default default no_example oszlop default +default default default default no_example idezet default +default
      default default default no_example media_tartalom default +default