Sharing texts better, part 1: Austrian Newspapers

Apr 18 2022

It’s not very hard to get individual texts in digital form. But working with grad students in the humanities looking for large sets of texts to do analysis across, I find that larger corpora are so hodgepodge as to be almost completely unusable. For humanists and ordinary people to work with large textual collections, they need to be distributed in ways that are actually accessible, not just open access.

That means:

  • Downloading
  • Reasonable file sizes (rarely more than a gigabyte).
  • Reasonable numbers of files (don’t make people download more than a dozen for some analysis tasks.

This isn’t happening right now. The hurdles to working with digital texts are overwhelming to almost anyone. I don’t usually write up a simple process story about what it’s like to get collections of texts, but I want to do do so a few times here.

What follows here is–I should be clear–a sort of infomercial. Over the last year or so I’ve started formalizing a much better way to distribute texts than any cultural heritage currently uses.

I’ll share texts using it. I want to start looking at some collections I encounter to make clear just how high are the barriers to working with text the way we’re distributing it now.

Part one: newspapers. Newspapers should be, in theory, a pretty easy type of text to distribute. In an ideal world, a newspaper is divided up into articles. But most of the open-access newspaper collections I’ve seen instead chope papers up into pages. That’s the case for the first archive I’m going to look at in this series: newspapers from the Austrian National Library hosted on Europeana.

I can’t completely remember the details of why I’m looking at this collection, but in short: a graduate student in my Working with data class was interested in doing text analysis for their class project on newspapers from there. We decided that the Neue Freie Presse would be an especially useful paper, and identified digitized versions both on Europeana and at ANNO, hosted by the Österreichische Nationalbibliothek. (If you visit the Wikipedia page for the NFP, it takes you to a dead Columbia link) ANNO has a nice online interface including well-formatted links like “|18970610|20” for full-text: this seems like a possible route for getting data, although the decades of data will take an extremely long time to download in R. Looking for other copies, I first check the Atlas of Digitized Newspapers from the Oceanic Exchanges project, because I know that they have decent information about accessibility. (Despite the name, they are not an atlas in any normal sense, but instead of bibliography, registry, or catalog.) It suggests that access will be to XML files through Europeana, and does not list any access through ANNO above what I’ve been able to find.

But it also links to a bulk download site at Europeana. Looking at the Europeana sites during a Zoom call we discover that there are a number of full-text downloads identified by opaque numbers: 9200300 is the first one.

Here’s where we hit the first snag. What are these numbers? Looking at the site for one of the NFP pages in the Europeana browser, we see that it, too, starts with 9200300. Perhaps this is just what we want? But the file is unthinkably large–116 GB, zipped, for the page-level full text. This is too large for the grad student to download, but I click on it to see what will happen. It spins, and spins, long past the end of office hours. The student has to wait.

A week passes. While looking for a completely different file on my computer, I encounter a 63GB zip file in my downloads. I dimly remember downloading this earlier, and think about opening it. To just unzip a 63GB file would be crazy–this is another place that most researchers will be stimied. I know that one can access a zipfile randomly, though, and fire it up in Python to read.

This is a second place that most researchers would be lost–63 GB is just too big. There should never be a single file that large unless it’s completely necessary; in this case, that’s clearly not so. The idea that you can extract single files is simply not obvious, so many people will try to extract. I don’t know exactly how big that 63GB file will be, but probably large enough to clobber most hard drives.

I’ve named the zipfile ‘’ now, because I’m hoping it has the Neue Freie Press. Now I can read the list of filenames.

			import zipfile
import html
f = zipfile.ZipFile("")
fnames = f.filelist

It turns out to have 1.6 million little files bundled in there, with names like 9200300/BibliographicResource_3000116292697/3.xml. Hmm. Well, the end is clearly the page number, and perhaps the bibliographic resource is the individual issue?

I read in a single document–the one-millionth–to see.

			<TextLine HEIGHT="61" WIDTH="703" VPOS="25" HPOS="166"><String WC="0.5249999762" CONTENT="rung" HEIGHT="29" WIDTH="68" VPOS="37" HPOS="166"/><SP WIDTH="19" VPOS="32" HPOS="234"/><String WC="0.5199999809" CONTENT="des" HEIGHT="29" WIDTH="46" VPOS="33" HPOS="253"/><SP WIDTH="10" VPOS="35" HPOS="299"/><String WC="0.4877777696" CONTENT="höchstens" HEIGHT="43" WIDTH="140" VPOS="30" HPOS="309"/><SP WIDTH="17" VPOS="38" HPOS="449"/><String WC="0.625" CONTENT="ui" HEIGHT="22" WIDTH="28" VPOS="45" HPOS="466"/><SP WIDTH="17" VPOS="45" HPOS="494"/><String WC="0.275000006" CONTENT="emem" HEIGHT="27" WIDTH="84" VPOS="45" HPOS="511"/><SP WIDTH="10" VPOS="42" HPOS="595"/><String WC="0.4562500119" CONTENT="fncvüchm" HEIGHT="40" WIDTH="149" VPOS="42" HPOS="605"/><SP WIDTH="9" VPOS="48" HPOS="754"/><String WC="0.3616666794" CONTENT="Zustan" HEIGHT="36" WIDTH="96" VPOS="48" HPOS="763"/><HYP CONTENT="­"/></TextLine>

So–it’s XML of the scans including exactly the position in pixels of each work. I consider parsing the textlines out and deconstruction the JSON, but XML parsing is a pain and always tediously, tediously slow. And I don’t care about any of this stuff–I’m doing text mining, so I just want the words. A quick check back at the Europeana site confirms that I have the smallest file on offer.

So let’s do the quick and dirty approach. The letters I want follow the word “CONTENT” in the XML; so I’ll just write a quick-and-dirty approach that splits on that string, and grabs everything up to the second quotation mark. This is how people use XML, I tell myself; no one is enough of a sucker to use python’s XML parsing libraries, so let’s just munge it out. split is so much faster….

			import pyarrow as pa
from pyarrow import parquet
while True:
    pages = []
    ids = []
    for j in range(5000):
        print(i, end = "\r")
        r =[i])
        words = []
        for word in"utf-8").split('CONTENT="')[1:]:
            words.append(word.split('"', 1)[0])
        page = html.unescape(" ".join(words))
        ids.append(fnames[i].filename.replace(".xml", ""))
        i += 1
    out = pa.table({"ids": ids, "pages": pages})
    parquet.write_table(out, f"{i}.parquet", compression = "zstd", compression_level = 5)

This is code that pulls out of XML into something better: a parquet file, written by pyarrow, for each group of 5,000 pages. I check one to be sure–looks like German. There will surely be mistakes–perhaps involving quotation marks in words. But with low-quality OCR, it’s enough to start.

Arzt der k. k. prio. THÄßbahn, anö den frischen Blätter» des Enca» lyptiis Globnlus. eines ans Anstratten stammende» BaiimcS, i» dem ««oratorwin des Apothekers ^»»>i Sdl»»»»»» Wien. JÄche», - Haupistraze Nr. 16, einzig und allein zukereiteie rmd stets «orrStbig

Rewriting with compression.

I wrote them into a folder with level 5 compression in zstd. The new directory, with parquet files and ids, is a tenth the size: 6.4GB vs 63GB for the zipfile I downloaded. Why on earth have I downloaded massive XML files when I just want text? Who really wants this positional text, anyway? I’ve used it a few times over the years–but most people want text, not XML. Zipfiles at least are nice, because I can grab the specific files I want. But they’re also slow in their own right. I start parsing at 22:21, and leave my computer open–looking at the timestamps, I don’t finish the last file until more than two hours later, at 00:31.

This is bonkers. Mediocre zip compression and uselessly XML-encoded data mean that it takes two hours just to look at the data in the most cursory way. It’s important to distribute things in a complete format, but it’s also important not to waste resources making things too hard to parse. With the parquet formatted versions of the data, it takes not two hours but 55 seconds to parse through every file in this set. That’s a major improvement–100 times faster to read, and one-tenth the size. Both of those are big enough differences that they actually affect whether this data is usable or not.

			matches = []
from pyarrow import compute as pc
for p in Path("parquet_files").glob("*.parquet"):
    a = parquet.read_table(p)
    which = pc.match_substring(a['pages'], "Gustav Mahler")

So–now we’ve got a huge set of text in a fairly navigable form. But we don’t know what the records are. The identifiers are all things like 9200300/BibliographicResource_3000123565676/4; aside from the page number, it’s not clear what any of those mean. My working theory to this point was that 9200300 meant the Neue Freie Presse and BibliographicResource_3000123565676 means the individual issue; but I need to know for sure.

Sorting is information

At this point, I start putting the identifiers into the web site and figuring out the layout of the metadata here. It turns out that this is not just one newspaper, but lots–probably everything contributed from the OSB to Europeana. And, stunningly, the order seems to be completely random? I call the web based Europeana API and get a dcTitle field in this order:

			["Der Humorist - 1847-01-29"]
["Blätter für Musik, Theater und Kunst - 1871-09-19"]
["Wiener Zeitung - 1841-10-18"]
["Der Humorist - 1841-03-10"]
["Neue Freie Presse - 1871-10-22"]
["Innsbrucker Nachrichten - 1859-11-25"]
["Die Presse - 1867-06-25"]
["Das Vaterland - 1862-09-26"]
["Wiener Zeitung - 1705-02-28"]
["Wiener Zeitung - 1868-12-04"]

There a couple things weird here. One is the random order. I suppose that this could be my fault, because I just used the filenames from the zipfile in the order they appeared, rather than sorting. But that itself is a problem–the zipfile should have more of an inherent order. It is an underappreciated fact that good sorting is good compression; the more natural an order information appears in, the better it will compress. And of course, the fewer files people will have to download. The other is that “title” is wrapped in an array: apparently in the EDM things can have multiple titles. OK, that’s something I can work with.

So now I have a clear plan.

  1. Get metadata for every record.
  2. Match it to the papers.
  3. Write out each newspaper in chronological order.

To get the metadata, I have to find it–there is no metadata in the data dumps. First I do it using the API.{id}.json?wskey={api_key}' But it quickly becomes clear this won’t scale: Running overnight I’ve only download 35,000 of 1.3 million records. So I go back to the Europeana page and download another enormous zipfile–a 4 gigabyte one with records for the entire set. How this manages to be so large isn’t initially clear to me–perhaps, I think, they’ve bundled the full text into it?

The answer turns out to be that there is massive amounts of text for each record because, chiefly, every records repeats an extremely long definition of ‘newspaper’ in many different languages. That this balloons the size so much is a failure of an over-literal use of linked data. Perhaps there would be a way to reference it as an element in a single HTML file, but really, no one cares. This part of the data model will never be used outside a Europeana site–there is some base-covering in distributing it, but it’s a massive inconvenience for researchers to have the following block of text (and something vaguely equivalent in Latvian, Arabic, Russian, etc.) **repeated 1.6 million times in a file that’s supposed to be a metadata dump about newspaper issues:

Many newspapers, besides employing journalists on their own payrolls, also subscribe to news agencies (wire services) (such as the Associated Press, Reuters, or Agence France-Presse), which employ journalists to find, assemble, and report the news, then sell the content to the various newspapers. This is a way to avoid duplicating the expense of reporting.

Now, I understand the need for clear URIs for concepts and the benefits of linked open data. But the nature of linked open data is that any individual record can be ballooned indefinitely. Why is there a definition of ‘newspaper’ at such tedious length and not, say a full expansion of the geographic definition of ‘Graz’ where it appears? I am sure there is a reason–but I’m equally sure it’s not really a good one.

Toggle to see the metadata for a single newspaper
text/html; charset=UTF-89085GrazTagespresseTageszeitungGazetteZeitungenZeitungAvisZeitungSanomalehtiГазетаГазетаJornalВестникLaikraštisNovineLaikrakstsJournalÚjságNovineԼրագիրგაზეთიГазетаDenník (žurnalistika)ČasopisNuachtánPàipear-naidheachdPremsaВесникGazetaНовинеTidning신문Prensa escritaΕφημερίδαNewspaperDagblaðGiornale報紙Prensa escritaAjalehtEgunkariNovinyصحيفةPapur newydd新聞QəzetGazetaZiarAvisעיתוןGazeteKrantAvis er tradisjonelt en mangfoldiggjort (trykket) publikasjon på papir med varierende format bestående av tekst og eventuelt også bilder, med regelmessig utgivelsesfrekvens der innholdet har vekt på nyheter.Moderne aviser finnes også som nettaviser. Enkelte aviser finnes bare på nett. Ordet «avis» er opprinnelig fransk og betyr underretning, opprinnelig avledet av latinsk «ad» og «visum» (syn eller det som er sett). På norsk «meddelelse» eller «etterretning». Det finnes over 15 000 dagsaviser i verden som trykkes i over 600 millioner eksemplarer i papirutgave, i tillegg til å være på internett.Papiraviser trykkes hovedsakelig på avispapir.Das Wort Zeitung war ursprünglich der Begriff für eine beliebige Nachricht; die Bedeutung hat sich jedoch im Laufe des 18. Jahrhunderts geändert. Heute versteht man darunter ein periodisch erscheinendes Druckerzeugnis mit aktuellem und universellem Inhalt. Dieser besteht aus mehreren inhaltlich in sich abgeschlossenen Texten, die Zeitungsartikel genannt werden und bei deren Abfassung verschiedene journalistische Stilmittel angewandt werden. Als Internet- bzw. Online-Zeitung werden Online-Publikationen mit Zeitungs- aber auch Zeitschriften-Charakter bezeichnet.Sanomalehti on päivittäin tai monta kertaa viikossa ilmestyvä iso, tavallisesti monisivuinen painate, joka välittää ajankohtaista uutistietoa ja sisältää tavallisesti myös ilmoituksia, viihdettä, mainoksia ja muuta vastaavaa. Sanomalehdet ovat levikkinsä kannalta valtakunnallisia, maakunnallisia tai paikallisia lehtiä, ilmestymisajankohtansa kannalta aamu-, (ilta)päivä-, ilta- tai sunnuntailehtiä ja poliittisen sidonnaisuutensa kannalta puoluelehtiä tai riippumattomia (puolueettomia) lehtiä. Nykyisin sanomalehti käsittää paperilehden lisäksi internetissä julkaistavan näköislehden (digilehti), lehden verkkosivuilla julkaistavat uutiset ja muun aineiston sekä matkapuhelimilla käytettävät mobiilipalvelut.Suomessa ilmestyy noin 200 sanomalehteä. Nimitystä päivälehti käytetään sanomalehdestä, joka ilmestyy 4–7 päivänä viikossa. Tilattavat tai ostettavat sanomalehdet haluavat erottautua ilmaisjakelulehdistä, jotka ”tulevat pyytämättä”. Myös tilattavien tai ostettavien sanomalehtien tuloista valtaosa tulee ilmoittajilta. Sanomalehdellä on oltava tarkastettu levikki, jonka vuosittaisesta mittaamisesta vastaa Levikintarkastus Oy. Sanomalehdet kuuluvat Sanomalehtien Liittoon.Osa ilmaisjakelulehdistä kuuluu Kaupunkilehtien liittoon. Niitä nimitetään kaupunkilehdiksi. Liittoon hyväksytään jäseniksi vain, jos lehti on ilmestynyt säännöllisesti vähintään vuoden ajan ja siinä on sama prosentuaalinen osuus journalistista sisältöä kuin sanomalehdissä. Kaupunkilehtiä on Suomessa 52 kappaletta. Kaupunkilehdet ovat pääosin sivukooltaan tabloideja, mutta joukossa on myös broadsheet-kokoisia lehtiä.Suomen ensimmäinen sanomalehti oli Tidningar Utgifne Af et Sällskap i Åbo (1771) ja ensimmäinen suomenkielinen sanomalehti Suomenkieliset Tieto-Sanomat (1776). Vanhin edelleen ilmestyvä suomalainen sanomalehti on Åbo Underrättelser (1824). Vanhin edelleen ilmestyvä suomenkielinen sanomalehti on Keskisuomalainen, jonka edeltäjä Keski-Suomi perustettiin 1871. Nykyään Suomen suurin sanomalehti on Helsingin Sanomat.Газета — друкаванае перыядычнае выданне, якое выходзіць пад пастаяннай назвай не радзей аднаго разу ў месяц.Папярэднікамі газет традыцыйна лічацца старажытнарымскія рукапісныя паведамленні аб падзеях у горадзе. Сучасны выгляд газеты набылі ў 16 ст., а росквіт газетнай справы прыйшоўся на 19 стагоддзе. У 20 стагоддзі з-за моцнай канкурэнцыі з боку больш аператыўных электронных (радыё — з 1920-х, тэлебачання — з 1950-х), а потым і сецевых (з канца 1990-х) сродкаў масавай інфармацыі месца газет у грамадска-палітычным жыцці скарацілася.Першая газета ў Беларусі — Gazeta Grodzieńska (1776). Першая газета на беларускай мове — «Мужыцкая праўда» (1862). Першая легальная — «Наша доля» (1906).Газе́та — печатное периодическое издание, выходящее под постоянным названием и не реже одного раза в месяц. Прообразом газеты считают древние рукописные сводки новостей. Ещё Юлий Цезарь начал публиковать «Деяния сената», а затем «Ежедневные общественные деяния народа». Римские газеты представляли собой глиняные дощечки, на которых записывали хронику событий. Примерно с 911 года в Китае начал выходить «Цзинь бао» («Столичный вестник»). Название «газета» произошло от наименования мелкой итальянской монеты — итал. gazzetta (гасета). В XVI веке за прочтение ежедневного публичного листка с информацией (сообщениями о придворной жизни, торговых новостях, сообщениями из других городов) платили одну гасету, то есть самую маленькую монету. Название же монеты дала сорока (итал. gazza), изображённая на ней. Согласно советскому ГОСТу — «листовое издание в виде одного или нескольких листов печатного материала установленного формата, издательски приспособленное к специфике данного периодического издания».Jornal é um meio de comunicação impresso, geralmente um produto derivado do conjunto de atividades denominado jornalismo.As características principais de um jornal são: o uso de "papel de imprensa" - mais barato e de menor qualidade que os utilizados por outros materiais impressos; a linguagem própria - dentro daquilo que se entende por linguagem jornalística; e é um meio de comunicação de massas - um bem cultural que é consumido pelas massas.Os jornais têm conteúdo genérico, pois publicam notícias e opiniões que abrangem os mais diversos interesses sociais. No entanto, há também jornais com conteúdo especializado em economia, negócios ou desporto, entre outros.A periodicidade mais comum dos jornais é a diária, mas existem também aqueles com periodicidade semanal, quinzenal e mensal.O jornal foi o primeiro - e, por muito tempo, o principal - espaço de atividade profissional do jornalismo.A crise econômica de 2008, combinada com o rápido crescimento de alternativas na internet, causou um grande declínio na publicidade e circulação dos jornais, com vários deles fechando ou reduzindo suas operações mundialmente , uma exceção é o Brasil no qual a tiragem dos jornais impressos cresceu 4.2% em 2010.Os jornais contemporâneos normalmente são impressos em um tipo específico de papel espesso e áspero - o papel-jornal ou "papel de imprensa", (newsprint em inglês), um papel reciclado, obtido de pedaços de madeira não aproveitados na fabricação de móveis e fibras recicladas, cortado em folhas de tamanhos padronizados. Tamanho standard - entre 60 cm x 38 cm e 75 cm x 60 cm. Tamanho tabloide - cerca de 38 cm x 30 cm. Tamanho tabloide berlinense (ou europeu) - cerca de 47 cm x 31,5 cm. Tamanho microjornal.Os jornais tipicamente atendem quatro critérios:Abrangência: seus conteúdos são razoavelmente acessíveis ao público em geral. Periodicidade: é publicado a intervalos regulares. Atualidade: sua informação é atual.Universalidade: cobrem um amplo número de assuntos.↑ ↑ ↑ ↑ ↑Вестникът е печатно периодично издание, най-често издавано ежедневно или ежеседмично и обикновено съдържащо новини, мнения и анализи, често придружени от реклами. Според оценки от 2005 година в света излизат около 6580 ежедневника с общ тираж от 395 милиона копия дневно. Световната рецесия от 2008 година, съчетана с бързия ръст на алтернативите в Интернет, причинява значителен спад в рекламните приходи и тиражите на вестниците и много издания са закрити или рязко ограничават дейността си.Неспециализираните вестници обикновено публикуват информация за местни или национални политически събития и личности, за престъпността, бизнеса, културата, обществения живот и спорта. Повечето традиционни издания съдържат и рубрики с редакционни статии и с лични мнения на избрани автори. Вестниците се финансират, в различно съотношение, от публикуваните в тях реклами и от цената, за която се продават.Вестникът е първото модерно средство за масово осведомяване, възникнало в подобен на сегашния си вид през XVII век в Европа (в частност — Германия, Нидерландия, Италия, Франция, Англия): хартиен носител с поне няколко страници, съдържащ новини, оформени в различен тип статии (строго информативни, мнение, анализ, специализирани съобщения и др.), често придружени с илюстрации и снимки. До началото на 20 век вестниците са най-бързо реагиращото на актуални събития средство за информация и традиционно съдържанието им е по-злободневно от това на други хартиени издания, като списания, годишници и други. С появата на електронните медии (радио, телевизия, Интернет) вестниците губят първенството си в актуалността на информацията, но в продължение на десетилетия продължават съществуват успоредно с тях. Днешните вестници често имат сайтове, където предлагат статиите за безплатно или платено четене.Laikraštis – spaudos leidinio tipas.Plintant modernioms komunikacijoms, greta spausdintinių laikraščių yra žinomi taip pat ir internetiniai leidiniai.Dar Senovės Romos laikais buvo leidžiami vyriausybės pranešimų biuleteniai Acta Diurna (juos pradėjo leisti Julijus Cezaris). Pasaulinė laikraščių asociacija pirmuoju pasaulio laikraščiu laiko Johanno Carolus’o Relation aller Fürnemmen und gedenckwürdigen Historien, kuris buvo išleistas 1605.Lietuvoje pirmieji laikraščiai pasirodė XVII a. pabaigoje - XVIII a. Jų tarpe buvo daug rankraštinių laikraščių.Novine su tiskani mediji koji objavljuju razne vijesti iz društvenog, političkog, kulturnog i športskog života, izvještavaju o dnevnim događajima, donose priče, romane u nastavcima i stripove, objavljuju oglase, reklame itd. Novinari su ljudi koji su za svoj poziv odabrali pisanje za novine. Djelatnost pisanja i izdavanja novina naziva se novinarstvo ili žurnalistika (francuski: journal [žurna\'l]= novine)Laikraksts jeb avīze (no itāļu: aviso — "paziņojums") ir periodiski iznākošs, uz papīra (vai cita piemērota materiāla) drukāts jaunāko ziņu, notikumu un komentāru apkopojums ar vienu nosaukumu.Un journal est un document qui recense par ordre chronologique ou thématique un certain nombre d\'événements pour une période donnée (généralement une journée, d\'où il tire son nom). Par extension, un journal désigne une publication regroupant des articles sur l\'actualité du jour.Az újság időszakonként megjelenő nyomtatvány (időszaki lap), illetve újabban akár percenként megújuló hírekkel megjelenő, elektronikus formában terjedő kiadvány, internetes újság. Állandó neve és megszabott ára van (de lehet ingyenes is). Az újság mellett használatos még a hírlap, a periodika és a folyóirat megnevezés is. Folyóirat alatt elsősorban a nagyobb terjedelmű írásokat közlő lapokat értjük. Tartalmuk általában vegyes, de vannak szakosodott kiadványok is: szaklapok, különféle érdeklődési körű olvasóknak szóló újságok.אַ צײַטונג, (זשורנאל אדער טאגבוך) איז אַ אויסגאַבע רשימה, וואס איז ווי א טעגליכע וויסן- בוך וואס בריינגט אקטועלע נייעס פון איבער די וועלט און נאך ידיעות. די בלעטער, אינפֿאָרמאַציאָן און אַנאָנס ענטהאַלט; ווערט געווענליך געדרוקט אויף ספעציעלע אייגנארטיגע ברוינע פאָפיר וואָס איז היבש ביליגער צו ערצייגן, און ווערט גערופן "צײַטונג פאַפיר". צייטונגען זענען די ארגינעלע פארעם פון בראודבענד קאמיוניקאציע וועלכע גייט צוריק הונדערטער יארן און אפשר נאכמער. אין די היינטיגע וועלט איז קאמיוניקאציע א גרויסער טייל פון די געזעלשאפט און קומט אין צענדליגער פארמען ווי: טעלעפאנס, סעליולער, פעקס, ראדיא, טעלעוויזיע, און אינטערנעט. בעפאר די אלע זאכן זענען געווען אויף די וועלט, האט מען זיך באנוצט מיט צוויי קאמיוניקאציע מיטלען און זיי זענען געווען צייטונגען און בריוו. שפעטער האט מען אויסגעטראפן די טעלעגראף וועלכע האט פארשנעלערט די קאמיוניקאציע פון וויכטיגע מעסעדזשעס. צייטונגן זענען שטענדיג געווען די ביליגסטע און גרינגסטע וועג ווי אזוי צו פארשפרייטן נייעס, ארטיקלען, מיינונגען, און רעקלאמירן געוויסע פראדוקטן צו מאסן מענטשן. צייטונגען זענען פון אנהייב געשריבן געווארן מיט דער האנט, און שפעטער האט מען דאס געדרוקט אין א דרוקעריי מיט גרויסע זיגלען, און היינט ווערט די גאנצע ארבעט געטוהן דורך דעם קאמפיוטער. צייטונגען זענען שטענדיג געשריבן געווארן אין שפראכן וועלכע די מערסטע לייענער האבן גערעדט און דאס מאכט זיי נאך היינט אינטערעסאנט ווען מען קוקט אין זיי.Novine su publikacija štampana na papiru koja izlazi periodično, svaki dan ili svake sedmice. Svrha im je prenošenje informacija i mišljenja o trenutnim događajima i vijestima. Novine se kupuju na kiosku ili u prodavnicama. Moguće je dobiti novine i na kućna vrata, ako se na to pretplati.Novine obično imaju dosta tema. Najčešće uključuju političke događaje, crne hronike, poslovne vijesti, sport i kolumne. Mnoge također donose i vremensku prognozu, stripove, horoskop, križaljku i druge vidove zabave. U novinama se koriste slike za ilustracije događaja i priče.Novine su najstariji način raširenja vijesti, a u današnjem obliku su nastale prije otpilike tri stotine godina.Լրագիրը պլանավորված տպագրություն է, որ պարունակում է նորություններ ընթացիկ իրադարձությունների մասին, տեղեկատվական հոդվածներ, բազմազան հնարավորություններ և գովազդ։ Այն սովորաբար տպվում է համեմատաբար էժան, ցածրորակ թղթի վրա, ինչպիսին լրագրային թղթերն են։ 2007թ. տվյալներով , աշխարհում 6580օրաթերթեր կային 395 միլիոն օրինակի օրական վաճառքով։ 2008թ. համաշխարհային ճգնաժամը , արագ զարգացող վեբ հիմքով այլընտրանքային լրագրերի հետ գովազդի և վաճառքի լուրջ անկում արձանագրեցին, պատճառ հանդիսանալով մեծ թվով լրագրերի փակվելուն կամ հրատարակման ձևի փոխակերպումին։გაზეთი — პერიოდული ბეჭდური გამოცემა, რომელიც არანაკლებ თვეში ერთხელ მუდმივი სახელწოდებით გამოდის. სიტყვა „გაზეთი“ ყველაზე პატარა ნომინალის მქონე იტალიური მონეტის სახელწოდებიდან მომდინარეობს (იტალ. gazzetta — გაზეტა).ml:വര്\u200dത്തമാനപ്പത്രംГазе́та (від італ. gazzetta — назва дрібної монети) — щоденне, щотижневе або двотижневе періодичне видання у формі складених аркушів; містить новини і коментарі.Газета — періодичне газетне видання з постійною назвою, що виходить через певні, короткі проміжки часу, містить офіційні документи, оперативну інформацію і матеріали з актуальних громадсько-політичних, наукових, виробничих та інших питань, а також літературні твори, фотографії та рекламу.Газети набули комерційну цінність після винаходу друкування, почали випускатися в Німеччині в 1609, в 1616 у Нідерландах. У 1622 з\'явилася перша газета англійською мовою («Віклі ньюс» англ. «Weekly News»— «Щотижневі новини»), редакторами були Ніколас Бурн і Томас Арчер.Вдосконалення поліграфії, винахід парового верстата в 1814, роторної машини в 1846 у США та в 1857 в Англії, газетного паперу (зробленого з дерев\'яної пульпи, технологія стала використовуватися в Англії в 1880-х) і підвищення грамотності збільшило випуск газет. Після появи комп\'ютерних технологій вартість виробництва газет зменшилася.Denník je druh tlačeného periodika vychádzajúceho zväčša šesť alebo päťkrát týždenne, najmenej však trikrát za týždeň. Denníky sa delia na ranné noviny a večerníky. Prvým denníkom na Slovensku bol Slovenský denník vychádzajúci od roku 1910.Časopis (tudi časnik) je serijska publikacija, običajno tiskana na recikliranem papirju, ki izhaja dnevno ali tedensko. Časopis je en najstarejših načinov razširjanja novic, v današnji obliki je nastal pred okrog tristo leti. Časopisna industrija je zaenkrat preživela tekmovanje z drugimi sodobnimi tehnologijami, kot so radio in televizija, precej večjo nevarnost pa ji predstavlja internet. Večina časopisov ima del vsebin dostopnih tudi v spletni izdaji, vendar nekateri samo za naročnike oz. proti plačilu.Časopis vsebuje novice, ki so lahko splošnega značaja ali tematsko obarvane. Običajno obravnavajo različne teme: politika, črna kronika, finance, šport, vreme. Del časopisa je lahko namenjen tudi mnenjem komentatorjev, kolumnam ter pismom bralcev. Večina časopisov je ilustrirana in opremljena s fotografijami, danes so praktično vsi časopisi tiskani v barvah. Razvedrilni del časopisa lahko vključuje karikature, križanke in horoskop. Pomemben del časopisa predstavljajo oglasi, ki so najpomembnejši, če ne kar edini, finančni vir časopisa.Poseben del časopisne industrije predstavlja tako imenovani rumeni tisk; gre za izdaje, ki se osredotočajo predvsem na popularne teme z veliko slikovnega gradiva.Is iris ina fhoilsítear nuacht agus faisnéis eile é nuachtán. Clóbhuailtear ar pháipéar tanaí é. Foilsítear nuachtáin ar fad na cruinne gach lá. Is iad ceann de na bealaí is tábhachtaí atá ag daoine nuacht a fháil. Ach tá na nuachtáin faoi bhrú ón nGréasán Domhanda mar is féidir an t-eolas a fhoilsiú láithreach ar na ngréasán. Foilsítear nuachtáin gach lá, gach seachtain nó gach mí nó níos minicí, amhail gach ré lá nó dhá uair sa seachtain.Bíonn ailt i nuachtáin dírithe ar pholaitíocht, spórt, siamsaíocht, an gheilleagar, oideachas, eolaíocht agus a lán nithe eile nachവര്\u200dത്തമാനപ്പത്രംTha pàipear-naidheachd na phasgan de dhuilleagan pàipeir le iomraidhean, altan, sanasan-reic ⁊c, a thèid a dh\'fhoillseachadh gach là, seachdain neo mìos.La premsa (també anomenada premsa escrita) és el conjunt de publicacions impreses en paper amb una certa periodicitat (diària, setmanal, mensual, anual) destinades, bàsicament, a difondre informació de diferents tipus. La informació continguda a la premsa pot ser d\'actualitat, històrica, generalista o relativa a un àmbit concret de la vida, o destinada a l\'entreteniment (còmics o passatemps). Podem distingir l\'anomenada premsa diària (diaris), impresa en paper econòmic i sovint en blanc i negre (amb una única tinta, habitualment negra); i les revistes, que tenen, normalment, periodicitat setmanal o mensual i que estan impreses en paper d\'alta qualitat i amb fotografies en color de bona qualitat. La premsa existeix des de l\'aparició de la impremta, essent el primer mitjà de comunicació de masses i el vehicle original del periodisme. Encara que la informació sigui la seva funció més destacada, la premsa periòdica posseeix, com tot mitjà de comunicació, les funcions d\'informar, persuadir, promoure, formar opinió, educar i entretenir (habitualment resumides en la tríada informar, formar i entretenir).La premsa d\'informació general acostuma a publicar articles sobre els esdeveniments polítics locals, nacionals i internacionals, sobre personalitats, delinqüència, economia i negocis, entreteniment, societat i esports. La majoria dels diaris tradicionals també disposen d\'una pàgina que conté l\'editorial escrita per l\'editor que expressa l\'opinió de l\'empresa i columnes que expressen les opinions personals dels seus autors. Aquest tipus de premsa s\'ha finançat tradicionalment amb les subscripcions i la publicitat. Des de fa uns anys, la premsa té dues manifestacions ben diferenciades: la premsa gratuïta i la de pagament. La possibilitat de rebre informació en directe, primer a través de la ràdio i la televisió, i des de finals del segle XX per internet (periodisme digital), ha acabat suprimint la diferència que hi havia entre la premsa matutina i la premsa vespertina, que es venia al matí i a la tarda respectivament.El 2007, hi havia 6.580 de diaris al món, amb unes vendes de 395 milions d\'exemplars diaris. La recessió mundial de finals de la dècada del 2000 combinada amb el ràpid creixement de les alternatives basades en el web, va provocar una disminució important de la publicitat i de la circulació, molts diaris van tancar o van reduir considerablement la seva activitat.Весници се печатени медиуми кои објавуваат разни вести од друштвениот, политичкиот, културниот и спортскиот живот, извештаи од дневните случувања, донесуваат приказни, романи и стрипови, објавуваат огласи, реклами итн. Новинари се луѓе кои се за своја професија одбрале пишување на весници. Дејноста на пишување и издавање на весници се вика новинарство.Gazeta është një botim periodik me përmbajtje aktuale dhe universale që u drejtohet lexuesve.Që një botim ta quajmë gazetë duhet të plotësoj këto katër kritere bazë: Aktualitetin Perioditetin Publicitetin dhe Universalitetin.Новине су штампани медији који редовно излазе, најчешће дневно или недељно, и објављују разне вести из друштвеног, политичког, културног и спортског живота, извештавају о важним догађајима, доносе приче, романе у наставцима и стрипове, објављују огласе, рекламе итд. Углавном садрже вести, информације и огласе и обично се штампају на релативно јефтином папиру. Новинари су људи чији је посао писање за новина. Делатност писања и издавања новина назива се новинарство или журналистика (фр. journal - новине).Дневне новине су новине које излазе свакодневно. Зову их и дневници. Људе обавештавају о битним догађајима јучерашњег дана. Постоје недељне новине (недељник), полумесечне новине (полумесечник), месечне новине (месечник) и годишње новине (годишњак). Неке од врста новина по тематици су журнали и часописи. Преувеличана или лажна вест у новинама назива се новинска патка.До 2007. било је 6.580 дневних новина у свету, а продавало се 395 милиона примерака дневно. Светска рецесија од 2008, у комбинацији са брзим растом ВЕБ-алтернатива, изазвала је озбиљни пад оглашавања и продаје новина.На издавању, уређивању и писању тих публикација ради велики број људи, разних занимања и опредељења, новинара, политичара, просветних радника, научника, свештеника, официра, студената, ђака.Uppslagsordet ”Press” leder hit. För andra betydelser, se Press (olika betydelser).En tidning är en återkommande publikation. Tidningar kan förekomma i många olika varianter såsom dagstidning eller tidskrift. Dagstidningar finns av två typer, morgontidningar och kvällstidningar. Om en tidning ges ut inom ett begränsat geografiskt område benämns den lokaltidning. Populärpress är en sammanfattande beteckning för serietidningar, vecko- och månadstidningar samt olika typer av specialtidningar, till skillnad från fackpress som riktar sig till en viss yrkesgrupp.Svenska tidningar listas av Kungliga biblioteket inom projektet Nya Lundstedt.En posttidning är en tidning som delas ut av Postens brevbärare istället för av ett tidningsbud.Formen har trots konkurrensen av radio, television och Internet stått sig väl. Numera ges många tidningar även ut på internet och vissa tidningar finns som TV-magasin.Prenumerant kallas den som regelbundet får en tidning hemskickad. Genom löpsedlar gör tidningarna reklam för sig själva. Tidningarnas viktigaste inkomstkällor är ofta annonser.신문(新聞, Newspaper)은 대중에게 다양한 소식과 사건들을 전달해주는 정기 간행물의 한 종류이다. 신문은 국내외의 뉴스 등을 신문 기사와 사진 등의 형태로 얇고 값이 싼 신문지에 인쇄하여 나오는 인쇄 매체로, 대체로 매일 발행되는 것이 보통이었다. 신문은 고대 로마 제국과 그리스에서도 존재하였지만, 대중들이 신문을 접할 수 있었던 것은 구텐베르크가 독일에서 인쇄술을 개발한 이후였다. 과학의 발달로 신문은 종이로 볼 수 있을 뿐만 아니라 마이크로필름과 인터넷 등을 통해서도 구독할 수 있게 되었다. 종이 신문은 방송이나 인터넷 등의 발달로 쇠락의 길을 걷게 되었다.A prensa escrita refírese a publicacións impresas que se diferencian en función da súa periodicidade. Esta periodicidade pode ser diaria (neste caso o xornal acostuma chamarse diario, ou incluso periódico), semanal (semanario), mensual (no caso de revistas especializadas) ou anual (anuario).Ως εφημερίδα χαρακτηρίζεται οποιαδήποτε έντυπη περιοδική έκδοση της οποίας η περιεχόμενη ύλη αφορά κατά πλειονότητα ειδησεογραφία τρεχόντων γεγονότων της περιόδου στην οποία εκδίδεται (ημερήσια, εβδομαδιαία κ.λπ.). Αυτή είναι και η ουσιώδης διαφορά από το έντυπο περιοδικό. Το σύνολο των εφημερίδων και περιοδικών ονομάζεται γενικότερα Τύπος διακρινόμενος ανάλογα σε "ημερήσιο τύπο", "εβδομαδιαίο τύπο" κ.λπ. ή "περιοδικό τύπο", ειδικότερα για τα περιοδικά. Οι εφημερίδες, όπως ομοίως και τα περιοδικά συγκαταλέγονται στα Μέσα Μαζικής Ενημέρωσης. Σήμερα με την ηλεκτρονική τεχνολογική εξέλιξη απαντάται και το είδος της "ηλεκτρονικής εφημερίδας".Οι εφημερίδες απευθύνονται σε μεγάλο αριθμό αναγνωστών είτε με ειδησεογραφία γενικού περιεχομένου είτε ειδικού, λαμβάνοντας ανάλογους χαρακτηρισμούς, π.χ. πολιτικές, οικονομικές, αθλητικές κ.λπ.Η εκτύπωσή της γίνεται συνήθως σε χαρτί χαμηλού κόστους.A newspaper (often just called a paper when the context is clear) is a periodical publication containing news, other informative articles (listed below), and usually advertising. A newspaper is usually printed on relatively inexpensive, low-grade paper such as newsprint. The news organizations that publish newspapers are themselves often metonymically called newspapers. Most newspapers now publish online as well as in print. The online versions are called online newspapers or news sites.Newspapers are typically published daily or weekly. News magazines are also weekly, but they have a magazine format. General-interest newspapers typically publish news articles and feature articles on national and international news as well as local news. The news includes political events and personalities, business and finance, crime, severe weather, and natural disasters; health and medicine, science, and technology; sports; and entertainment, society, food and cooking, clothing and home fashion, and the arts. Typically the paper is divided into sections for each of those major groupings (labeled A, B, C, and so on, with pagination prefixes yielding page numbers A1-A20, B1-B20, C1-C20, and so on). Most traditional papers also feature an editorial page containing editorials written by an editor, op-eds written by guest writers, and columns that express the personal opinions of columnists, usually offering analysis and synthesis that attempts to translate the raw data of the news into information telling the reader "what it all means" and persuading them to concur.A wide variety of material has been published in newspapers. Besides the aforementioned news and opinions, they include weather forecasts; criticism and reviews of the arts (including literature, film, television, theater, fine arts, and architecture) and of local services such as restaurants; obituaries; entertainment features such as crosswords, horoscopes, editorial cartoons, gag cartoons, and comic strips; advice, food, and other columns; and radio and television listings (program schedules).Most newspapers are businesses, and they pay their expenses (such as journalists\' wages, printing costs, and distribution costs) with a mixture of subscription revenue, newsstand sales, and advertising revenue (other businesses or individuals pay to place advertisements in the pages, including display ads, classified ads, and their online equivalents). Some newspapers are government-run or at least government-funded; their reliance on advertising revenue and on profitability is less critical to their survival. The editorial independence of a newspaper is thus always subject to the interests of someone, whether owners, advertisers, or a government.Many newspapers, besides employing journalists on their own payrolls, also subscribe to news agencies (wire services) (such as the Associated Press, Reuters, or Agence France-Presse), which employ journalists to find, assemble, and report the news, then sell the content to the various newspapers. This is a way to avoid duplicating the expense of reporting.Circa 2005, there were approximately 6,580 daily newspaper titles in the world selling 395 million print copies a day (in the U.S., 1,450 titles selling 55 million copies). The late 2000s–early 2010s global recession, combined with the rapid growth of web-based alternatives, caused a serious decline in advertising and circulation, as many papers closed or sharply retrenched operations. The decline in advertising revenues affected both the print and online media; print advertising was once lucrative but no longer is, and the prices and effectiveness of online advertising are often lower than those of their print precursors. Besides remodeling advertising, the internet (especially the web) has also challenged the business models of the print-only era by democratizing and crowdsourcing both publishing in general (sharing information with others) and, more specifically, journalism (the work of finding, assembling, and reporting the news). In addition, the rise of news aggregators, which bundle linked articles from many online newspapers and other sources, influences the flow of web traffic.Dagblað er blað sem inniheldur fréttir, upplýsingar, skemmtiefni og auglýsingar.Un giornale è una pubblicazione periodica distribuita in forma cartacea. Il termine deriva da “giorno”, che indica l\'originaria frequenza giornaliera di pubblicazione (oggi non è più una qualità dirimente). Tipicamente un giornale è fatto di fogli non rilegati. In questo senso si distingue dalla rivista. Anche la carta da giornale (non patinata) è diversa da quella di una rivista (patinata).I giornali, insieme alle riviste, possono essere conservati e venir consultati in luoghi appositi e aperti al pubblico detti emeroteche.報紙,或稱报章、新聞紙,是一種以重量較輕,價值較低的紙張印刷而成,閱讀後即可任意處置的出版品。報紙上通常刊載不同主題的新聞、消息、評論、專欄等,並且常附帶有商業廣告。這些不同的主題包括政治事件、犯罪、體育、意見、天氣、星座運勢等等,報紙通常也包括卡通或其他娛樂,如數獨、填字遊戲。報紙的收入來源是來自讀者訂閱或購買,以及廣告的收入。在2007年時,世界上有6,580種日報,每天銷售將近四億份。不過在2008金融危機時,由於經濟的不景氣加上網路媒體的快速發展,造成銷售及廣告的巨幅下滑,因此許多報紙停刊或縮小規模。但也有許多報社將報紙的內容放在網站中,即為電子報。報紙是媒體的一種。一般國家的人民可以自由創辦報刊,屬於言論自由中的一部份,但也有例外:像中華民國在戒嚴時期曾有报禁,停止新報紙登記,一直到西元1988年才解除报禁。La prensa escrita es el conjunto de publicaciones impresas que se diferencian en función de su periodicidad, que puede ser diaria (en cuyo caso suele llamarse diario), semanal (semanario), quincenal (quincenario), mensual (mensuario), o anual (anuario). La prensa escrita existe desde la Edad Antigua, cuando se difundían textos en hojas de seda o papiro, o bien en placas de metal o piedra. Con la aparición de la imprenta, la prensa escrita se convirtió en el primer medio de comunicación de masas y los vehículos originales del periodismo. Aunque la información sea su función más destacada, la prensa escrita posee, como todo medio de comunicación, las funciones de informar, persuadir, promover, formar opinión, educar y entretener (habitualmente resumidas en la tríada informar, formar y entretener).Algunos formatos de publicaciones de prensa escrita son el periódico, la revista, el boletín,algunos libros y el panfleto. Su máximo responsable es el llamado Editor Jefe o Redactor jefe.Ajaleht on perioodiline väljaanne, mille sisuks on uudised, intervjuud, artiklid, reklaamid jmt. Ajalehed ilmuvad traditsiooniliselt paberkandjal, paljud ajalehed ilmuvad tänapäeval ka internetis. On ka teistest materjalidest (näiteks plastmassist) ajalehti. Päevalehed ilmuvad iga päev. Neile lisaks on eriväljaanded, õhtused väljaanded jmt. Mõnikord nimetatakse päevalehtedeks ka 4–6 korda nädalas või isegi harvem ilmuvaid ajalehti. Eesti Ajalehtede Liidu definitsiooni järgi on päevaleht vähemalt neli korda nädalas ilmuv ajaleht. Eesti suuremad päevalehed on Postimees, Õhtuleht ja Eesti Päevaleht (ilmuvad 6 korda nädalas).Nädalalehed ilmuvad iga nädal. Eesti suuremad nädalalehed on Maaleht ja Eesti Ekspress.Kollane ajaleht on kõnekeelne väljend ajalehe kohta, mis peamiselt pühendub sensatsioonidele, skandaalidele ja meelelahutusele. Esimene eestikeelne ajaleht oli Tarto maa rahva Näddali-Leht, mille esimene number ilmus 13. märtsil (1. märtsil) 1806. Perno Postimees ehk Näddalileht, esinumber ilmus 5. juunil 1857, pannes aluse eesti perioodikale.Välismaa ajalehtedest on suuremate hulgas näiteks The New York Times, Yomiuri Shimbun, Bild, International Herald Tribune, Le Monde, The Wall Street Journal ja Daily Mail.Artikulu hau egunero kaleratzen den argitalpenari buruzkoa da; beste esanahietarako, ikus Egunkari (argipena).Egunkaria, albistaria, egunerokoa, izparringia, berripapera edo kazeta egunero kaleratzen den argitalpena da, bereziki albisteak ematen dituena.Munduko lehen kazeta, "Relation aller Fürnemmen und gedenckwürdigen Historien", 1605ean argitaratu zuen lehen aldiz Johann Carolusek Estrasburgon. Gaur egun, euskarazko bakarra Euskal Herri osoko mailan "Berria" da, "Euskaldunon Egunkaria" eta "Egunero"ren ondorengoa dena 2003tik.Eskualde mailan, "Hitza" egunkariak ditugu.Noviny jsou pravidelně vycházející publikace (periodikum), které denně (deník, často kromě neděle) nebo nejméně týdně (týdeník) přinášejí nejnovější události ze všech možných oblastí a co nejrychleji o nich informují co nejširší veřejnost. Noviny se tisknou ve velkém formátu na novinovém papíře a místo vazby se skládají. Prodávají se na stáncích a v automatech nebo doručují předplatitelům. V poslední době nabývají na významu internetové noviny, často jako elektronická verze tištěných novin.Typické noviny mají svoji charakteristickou grafickou úpravu, jejich obsah se dělí na rubriky a často doplňuje vkládanou týdenní přílohou. Důležitou částí novin je také reklama.الصحيفة أو الجريدة (أو الجورنال سابقا) هي إصدار يحتوي علي أخبار ومعلومات وإعلانات، وعادة ما تطبع علي ورق زهيد الثمن. يمكن أن تكون الصحيفة صحيفة عامة أو متخصصة، وقد تصدر يوميا أو أسبوعيا. جرى العرف أن يطلق اسم "صحيفة" على "الجريدة"، إلا أنه علميا فإن الصحيفة هي كل مطبوع دوري، وبالتالي يدخل تحت خانتها المجلة التي يعمل بها "صحفيون" أيضا، إلا أن المجلة تتميز بدورية أطول من الجريدة التي تصدر يوميا أو أسبوعيا، في حين يمكن للمجلة أن تصدر أسبوعيا أو شهريا أو نصف شهريا أو فصليا أي كل ثلاثة أشهر، كما تختلف المجلة عن الجريدة في نوعية الورق ووجود غلاف وقطع مختلف.نشرت أول صحيفة في التاريخ عام 1605 م، ومع دخول القرن العشرين قاومت الصحف المكتوبة كل الاختراعات التكنلوجية الحديث ابتداء من المذياع وتعريجا على التلفاز وانتهاءا بشبكة الإنترنت ولكن مع بداية القرن ال21 أصبحت الصحافة المكتوبة بشكل عام عرضة للزوال[بحاجة لمصدر]، لا سيما بعد التوسع الهائل الذي تشهده الثورة المعلوماتية والتي يعتبر الإنترنت الفضاء الرئيسي لها.تحتوي الصحف العامة (غير المتخصصة) عادة على الأخبار ومنها الأحداث السياسية والجرائم والأعمال والرياضة وربما أيضا أخبار الطقس والكلمات المتقاطعة والطالع وتأخذ أشكالا متعددة مثل المقالات والأعمدة والكاريكاتير.تعد الصحافة المكتوبة من أهم المهن التي تنقل للمواطنين الأحداث التي تجري في محيط مجتمعهم والعالم اجمع والوظيفه الأولى للصحافه هي ان تبحث عن الأخبار فتنفلها ولكن ما يحدث كل يوم أكثر من أن تستطيع الصحف الاحاطه به لذا لايسرد في الصحف الا ما يشكل حدثا.في عام 1632 صدرت الصحيفة الفرنسية الأولى وكان اسمها الأخبار اليومية لأماكن مختلفه بعد ذلك بأشهر تبعتها لاغازيت لصاحبها نيو فراست رنودوم حوالي عام 1796 كان عدد النشرات الصادرة في باريس يتجاوز السبعين وكانت أول جريده عربيه عام 1799 وكان اسمها الحوادث اليومية وكان ظهور أول جريدة عربية في شمال أفريقيا في علم 1847 وهي المبشر.ويطلق أحيانا لفظة السلطة الرابعة على الصحافة لما لها من تاثير على خلق الراي العام ،ومنذ ان ظهرت الوسائل الاعلامية الأخرى من اذاعة وتلفاز وإنترنت وما زال الجدل والنقاش دائرا بين اوساط الاعلاميين في مدى قدرة هذه المهنة (والتي تسمى أحيانا بمهنة البحث عن المتاعب) على البقاء والديممومة نظرا لسهولة انتشار الوسائل الاعلامية الأخرى وزيادة قدرتها على التاثير في الجمهور إضافة إلى جاذبيتها ولكن ظلت الصحافة تحافظ على مكانتها وذلك عبر لجوئها إلى بدائل أخرى ومحاولة البقاء ضمن دائرة اهتمامات الجمهور من خلال الاعلانات أو تقديم الخدمات العامة أو التعمق في الأحداث اليومية وسرعة الوصول إلى القاريء وغيرها.Mae papur newydd neu newyddiadur yn gyhoeddiad sy\'n cynnwys newyddion a gwybodaeth a hysbysebu, fel arfer wedi\'i gyhoeddi ar bapur rhad o\'r enw papur papur newydd. Gallai fod yn gyffredinol neu o ddiddordeb arbennig, ac fel arfer cyhoeddir yn ddyddiol neu\'n wythnosol.新聞(しんぶん)は、事件、事故や政治や経済や芸能やスポーツや国際情勢などの動向などのニュースを報じるためのメディアで、記事文章や写真、図面などが紙(新聞紙)に印刷され綴じていないものである。Qəzet — kütləvi informasiya vasitəsi olub, azı ayda bir dəfə, daimi adla nəşr edilməsi nəzərdə tutulan mətbu nəşr. Hələ Yuli Sezarın dövründə " Senatın işləri" adlı indiki qəzetləri xatırladan gil lövhələr hazırlanırdı. Lövhələrdə hadisələr yazılırdı."Qəzet" adı italyan xırda pul vahidi qaseta\' ilə bağlıdır. XVI əsrdə kağız vərəqlərdə çap edilən saray həyatı, ticarət xəbərləri və şəhər məlumatları haqqında xəbərləri oxumaq üçün ən xırda pul vahidi olan qaset - (it. gazza), ödənilirdi. .Qəzetlər xəbərləri və maraqları faktları təqdim edən və dərc edən bir nəşr vasitəsidir. Qəzetlər ictimai fikrin formalaşmasında və baş verən hadisələr barəsində insanların məlumatlandırılmasında mühüm rol oynayırlar.Gazeta – rodzaj wydawnictwa ciągłego, czasopismo ukazujące się częściej niż raz w tygodniu, najczęściej codziennie (dziennik) – w rozumieniu wszystkich dni roboczych.Ziarul este o publicație care conține știri, informații și publicitate, de obicei tipărită pe foaie de ziar, o hârtie de o calitate inferioară și la un cost redus. Ziarul poate fi general sau de un interes special, de cele mai multe ori publicat zilnic sau săptămânal. Primul ziar tipărit a fost publicat în 1605 și s-a dezvoltat chiar și când a fost în competiție cu tehnologii noi, precum radioul și televiziunea. Dezvoltarea recentă a Internetului este o amenințare reală pentru materia ziarului, însă cumpărarea ziarelor scade în cele mai multe țări, în timp ce câștigurile din publicitate, care măresc considerabil veniturile ziarului, se măresc, treptat forma tipărită înlocuindu-se cu cea online.Denne artikel omhandler en publikation. Opslagsordet har også anden betydning, se Avis (biludlejningsfirma).En avis er en ofte og jævnligt udkommende publikation trykt på billigt, tyndt papir, som gør den nem at arbejde med i alle faser af dens korte livscyklus; fremstilling, distribution, læsning, bortskaffelse. De mest almindelige måder at modtage aviser på er abonnere på dem, eller at købe dem i løssalg i butikker eller hos bladhandlere.עיתון הוא כתב-עת היוצא לאור, בדרך כלל, בתדירות קבועה ובדפוס, או באופן אלקטרוני.Gazete, haber, bilgi,bulmaca ve reklam içeren, genellikle düşük maliyetli kâğıt kullanılarak basılan ve dağıtımı yapılan bir yayım olup halka güncel olaylara ilişkin bilgi verme amacı gütmektedir . Genel olarak yayınlandığı gibi, özel bir konu üzerinde de yayınlanabilir ve genellikle günlük ya da haftalık olarak yayınlanır.Een krant (vroeger courant en ook wel gazet genoemd) is een regelmatig verschijnende publicatie, meestal op papier gedrukt, waarin nieuws wordt opgenomen.Een moderne krant heeft drie basisfuncties: Ten eerste moet de krant haar lezers objectieve informatie bieden over datgene wat er in de wereld gebeurt. Daarbij gaat het over actuele gebeurtenissen of informatie die verbonden is met deze actualiteit. Ten tweede plaatst een moderne krant deze gebeurtenissen en ontwikkelingen in een context. De krant geeft duiding en levert commentaar. Tot slot kunnen bedrijven, instellingen en personen adverteren in de krant. Vanzelfsprekend zijn deze functies niet in alle kranten gelijkmatig aanwezig en zijn de verhoudingen in de loop der tijd geëvolueerd.Daarnaast heeft elke krant ook nog een aantal nevenfuncties, zoals de lezers ontspanning bieden.Dikwijls wordt het begrip krant gebruikt als synoniem voor dagblad. Dit is feitelijk niet juist. Zoals de naam al aangeeft verschijnt een dagblad dagelijks (doorgaans met uitzondering van zondag), terwijl sommige kranten minder frequent verschijnen. Elk dagblad is dus ook een krant, maar niet elke krant is een dagblad. In informele Belgisch-Nederlandse spreektaal wordt een krant soms ook gazet (Bijvoorbeeld Gazet van Antwerpen) genoemd.Doorgaans wordt er onderscheid gemaakt tussen algemene kranten en gespecialiseerde kranten. De meeste dagbladen zijn een voorbeeld van de eerste soort, kranten als Cobouw en het Agrarisch Dagblad zijn voorbeelden van de tweede soort.Sommige van de huidige dagbladen zijn als krant begonnen. In de titel is dit soms nog terug te vinden. Een voorbeeld hiervan is de Leeuwarder Courant; op 29 juli 1752 voor het eerst verschenen als Leeuwarder Saturdagse Courant.De Belgische krant Het Nieuwsblad verschijnt wel op zondag.Een voorbeeld van een krant die niet als dagblad verschijnt, is Le Monde diplomatique, die maandelijks uitkomt.Een recent fenomeen zijn de gratis kranten, die de laatste jaren qua oplage de betaalde kranten naar de kroon steken. In Nederland zijn dat de Sp!ts en de Metro. België kent enkel Metro, dat zowel in een Franstalige als een Nederlandstalige versie verschijnt.Österreichische Nationalbibliothek - Austrian National LibraryThe European LibraryONB_00314/1873/ONB_00314_18730905deuGrazer Volksblatt - 1873-09-05Analytic serialNewspaperNewspaper IssuePages: 8Europeana Newspapers1873-09-05falseTEXT

So now I’ve got to parse these monster XML blobs 1.3 million times. And this time I can’t resort to regex. Ugh. Again, this is something that most researchers will abandon quickly. I’m increasingly XML referred to in the past tense online, as a data format/data movement that failed. Evangelists will surely disagree, and certainly a great deal has been lost. But for my purposes, I need something tabular that can be joined, and XML and tables play extremely poorly together.

But I’ll try. The first step will be to get into JSON-LD format, which is a linked data format that actually works inside of programming languages for non-evangelist humans. It turns out to be something of a pain–maybe ten minutes of vaguely recalling terms before I precisely figure out how to use Harold Solbrig’s rdflib-jsonld extension to the rdflib library to squeeze the data into JSON. Solbrig, thank goodness, has provided a code example. With everything but the format to put in, the transformation is obvious.

			from rdflib import Graph, plugin
from rdflib.serializer import Serializer
g = Graph().parse(data=demo, format="xml") #<-took a while to figure this line out!
print(g.serialize(format='json-ld', indent=1))

OK. So all I really need here is the nmewspaper title and the date, so let’s see how to parse it out. Once again, the json-ld is massively large. After wasting 40 minutes trying to figure out if I can implement a general solution to parse out all the various @type entries using a json context into a flatter document, and coming up flat against the difficulties of inferring the many contexts, I decide to just do a quick-and-dirty route that will lose most of the json-ld data here. First, filter to only proxies:

			proxies = [f for f in json.loads(d) if '' in f['@type']]

And then reduce to a dict where we grab the first occurrence of a value or id field if it seems to be a Dublin Core item.

Again, this is requiring a completely different set of skills than the data wrangling above. If I knew a lot about LOD, I could do much better here. But the python libraries I’m finding don’t make this especially easy, so I’m giving up on the LOD dream of being able to put it back together in a multilingual frame.

			def parse_row(d):
    proxies = [f for f in json.loads(d) if '' in f['@type']]
    out = {}
    for k, v in proxies[1].items():
        if "" in k:
                out['dc:' + k.split("/")[-1]] = v[0]['@value']
            except KeyError:
                out['dc:' + k.split("/")[-1]] = v[0]['@id']
    return out
			{'dc:identifier': '',
 'dc:language': 'deu',
 'dc:relation': '',
 'dc:source': '',
 'dc:subject': '',
 'dc:title': 'Neuigkeits-Welt-Blatt - 1875-06-10',
 'dc:type': '',
 'dc:extent': 'Pages: 4',
 'dc:isPartOf': '',
 'dc:issued': '1875-06-10',
 'dc:spatial': ''

This whole process can parse about 40 lines a second. That sounds kind of fast, maybe. But with 1.3 million metadata items it would take nine hours to run, single threaded in Python on my laptop. That is obscene. We can reduce this by batching by issue an getting it down to about an hour–there are “only” 154,000 records in here. But a good metadata format should be able to load a million rows of structured data in under a second, not in nine hours. This data could probably have been released in CSV on the Web, or JSON-LD, or some other format where this process would take a minute or two.

Anyhow–nine hours is too long for me because it’s the morning. I’ll split this up into multiple processes that work on batches of 25,000 at a time, and set it running in a loop.

And I’m back! So now I’ve got data and I’ve got texts. Joining these together is pretty easy–I just pull apart the IIIF ID and merge them in. Now I need to figure out how to distribute these to the student. These are big–too big, probably to simply slap them into an e-mail.

But luckily, I set up a static hosting service on Google a few months ago, so I can just upload them into there. I’ve created files for all of these newspapers now. So we’ve got one for the student, but also for you.

filestart dateend dateissuespagescompressed sizelink
Figaro1857-01-0453745741875-12-259.4 MBdownload
Tages-Post1865-01-181008920821875-12-3151.0 MBdownload
Salzburger Volksblatt: die unabhängige Tageszeitung für Stadt und Land Salzburg1871-01-0331706361875-12-2410.2 MBdownload
Nasa Sloga1870-06-01322791875-11-160.9 MBdownload
Wienerische Kirchenzeitung1784-01-2417882141789-12-242.4 MBdownload
Feldkircher Zeitung1861-08-0339879601875-12-2911.8 MBdownload
Österreichische Buchhändler-Correspondenz1860-02-0141544211875-12-257.8 MBdownload
Volksblatt für Stadt und Land1871-11-0944053191875-12-3120.9 MBdownload
Teplitz-Schönauer Anzeiger1861-05-0167445361875-12-1813.9 MBdownload
Linzer Volksblatt1870-01-03525611901875-12-2922.1 MBdownload
Extract-Schreiben oder Europaeische Zeitung1700-12-011621700-12-040.0 MBdownload
Grazer Volksblatt1868-01-021369214951875-12-3049.1 MBdownload
Nordböhmisches Volksblatt1873-10-044271873-12-130.2 MBdownload
Agramer Zeitung1841-01-06694312861858-06-3021.7 MBdownload
Neuigkeits-Welt-Blatt1874-01-0671044251875-12-3129.2 MBdownload
Die Neuzeit1861-09-1340123391872-12-209.3 MBdownload
Eideseis dia ta anatolika mere1811-07-05216271811-11-190.2 MBdownload
Die Debatte1864-11-13526010731869-09-3052.5 MBdownload
Die Bombe1871-01-0815121631875-12-314.1 MBdownload
Znaimer Wochenblatt1858-01-1749865691875-12-2414.2 MBdownload
Zeitschrift für Notariat und freiwillige Gerichtsbarkeit in Österreich1868-01-0813682601875-12-293.0 MBdownload
Frauenblätter1872-01-01285171872-12-150.5 MBdownload
Populäre österreichische Gesundheits-Zeitung1830-05-2643376851840-12-315.2 MBdownload
Union1872-01-07342831874-11-152.6 MBdownload
Prager Abendblatt1867-01-02943216971875-12-2228.4 MBdownload
Kikeriki1861-11-1434425921875-12-307.9 MBdownload
Vorarlberger Landes-Zeitung1863-08-11540212191875-12-2815.9 MBdownload
Hermes ho logios1811-02-0127911141819-12-153.4 MBdownload
Philologikos telegraphos1817-01-01400841820-12-150.9 MBdownload
Oesterreichisches Journal1870-08-0628543051875-12-1512.4 MBdownload
Weltausstellung: Wiener Weltausstellungs-Zeitung1871-08-1814462331875-11-195.0 MBdownload
Der Floh1869-01-0118931931875-12-196.3 MBdownload
Wiener Abendzeitung1848-03-284381061848-10-240.6 MBdownload
Feldkircher Anzeiger1866-01-0214982391875-12-211.0 MBdownload
Allgemeine Österreichische Gerichtszeitung1851-01-03918222331875-12-3122.1 MBdownload
Leitmeritzer Zeitung1871-07-0825302851875-12-317.3 MBdownload
Feldkircher Wochenblatt1810-02-1337627431857-12-222.9 MBdownload
Politische Frauen-Zeitung1869-10-17568691871-12-311.8 MBdownload
Militär-Zeitung1849-07-031217016281875-12-0835.3 MBdownload
Ellēnikos tēlegraphos: ētoi eidēseis dia ta anatolika mere1812-01-03534311821836-12-2710.9 MBdownload
Blätter für Musik, Theater und Kunst1855-02-02484011961873-12-2716.8 MBdownload
Cur-Liste Bad Ischl1842-06-0239986461875-09-112.7 MBdownload
Innsbrucker Nachrichten1854-01-264201043301875-12-3136.4 MBdownload
Der Humorist1837-01-021885044301862-05-0355.3 MBdownload
Bregenzer Wochenblatt1793-03-15873917251863-07-289.4 MBdownload
Ephemeris1791-01-0327743111797-12-112.7 MBdownload
Wiener Sonntags-Zeitung1867-01-0143265891875-12-2620.5 MBdownload
Österreichische Zeitschrift für Verwaltung1868-01-0211302801875-12-302.6 MBdownload
Vorarlberger Zeitung1849-04-06272671850-03-220.6 MBdownload
Die Gartenlaube für Österreich1867-01-28937671869-04-192.5 MBdownload
Allgemeine land- und forstwirthschaftliche Zeitung1851-07-0537423011867-12-277.1 MBdownload
Wiener Vororte-Zeitung1875-02-1552131875-11-010.3 MBdownload
Siebenbürgisch-deutsches Wochenblatt1868-06-1031821931873-12-317.3 MBdownload
Neue Wiener Musik-Zeitung1852-01-1512893121860-12-293.8 MBdownload
Österreichische Badezeitung1872-04-14600541875-08-221.6 MBdownload
Deutsche Zeitung1872-04-0292846041874-12-2963.3 MBdownload
Internationale Ausstellungs-Zeitung1873-05-02492791873-09-303.1 MBdownload
Janus1818-10-10236521819-06-300.4 MBdownload
Wiener Moden-Zeitung1862-01-01126131863-07-150.3 MBdownload
Die Emancipation1875-04-226481875-05-250.1 MBdownload
Die Vedette1869-11-0132531871875-12-195.8 MBdownload
Salzburger Chronik1873-07-019862381875-12-303.1 MBdownload
Wiener Feuerwehr-Zeitung1871-01-01336781875-12-150.7 MBdownload
Gerichtshalle1857-03-30613210051875-12-2314.6 MBdownload
Illustrirtes Wiener Extrablatt1872-03-2463546621875-12-3129.7 MBdownload
Wiener Salonblatt1870-03-1321701381875-12-245.0 MBdownload
Sonntagsblätter1842-01-1652772271848-09-176.1 MBdownload
Wiener Theater-Zeitung1806-07-151434531101838-12-2933.5 MBdownload
Wiener Landwirtschaftliche Zeitung1868-01-03746761869-12-182.3 MBdownload
Vorarlberger Volks-Blatt1866-06-1541436441875-12-3110.0 MBdownload
Marburger Zeitung1862-04-134471041870-11-301.6 MBdownload
Vaterländische Blätter für den österreichischen Kaiserstaat1808-05-1058618161820-12-279.0 MBdownload
Freie Pädagogische Blätter1867-01-1951363161875-12-257.0 MBdownload
Jörgel Briefe1852-01-02140867571875-12-0613.0 MBdownload
Österreichische Feuerwehrzeitung1865-08-15430951872-06-021.2 MBdownload
Österreichische Buchdrucker-Zeitung1873-02-11675961875-12-301.9 MBdownload