<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-8859-1">
<META NAME="Generator" CONTENT="MS Exchange Server version 6.5.7654.12">
<TITLE>RE: batch conversion to pdf</TITLE>
</HEAD>
<BODY>
<!-- Converted from text/plain format -->

<P><FONT SIZE=2>idealy you want two things for archiving - text because it is so much more editable and searchable, and something like pdf to give an idea of what it should look like<BR>
<BR>
<BR>
-----Original Message-----<BR>
From: Ken Manson [<A HREF="mailto:ken.grammar@gmail.com">mailto:ken.grammar@gmail.com</A>]<BR>
Sent: Wed 27/10/2010 8:19 PM<BR>
To: 'Rik'; 'Aidan Wilson'; 'Andrew Cunningham'<BR>
Cc: 'Gary Holton'; 'resource-network-linguistic-diversity'<BR>
Subject: RE: batch conversion to pdf<BR>
<BR>
Hi All,<BR>
<BR>
I like ODT format - even though I use Word 2007. (Have some macros I am in<BR>
love with for aligning examples.) I have used ODT to pass on documents for<BR>
editing which have Thai and Burmese (Unicode) fonts.<BR>
<BR>
However, for archiving, pdf is "less" editable and preferable.<BR>
<BR>
Ken<BR>
<BR>
-----Original Message-----<BR>
From: Rik [<A HREF="mailto:rdbusser@gmail.com">mailto:rdbusser@gmail.com</A>]<BR>
Sent: Wednesday, 27 October 2010 9:18 AM<BR>
To: 'Aidan Wilson'; 'Andrew Cunningham'<BR>
Cc: 'Gary Holton'; 'resource-network-linguistic-diversity'<BR>
Subject: RE: batch conversion to pdf<BR>
<BR>
What about the ODT format that OpenOffice uses? It is part of the Open<BR>
Document Standard (open and ISO-compliant) and it is transparent (basically<BR>
a zip-container with XML files in it). Not really sure how well it deals<BR>
with complex scripts, though.<BR>
<BR>
Rik<BR>
<BR>
------------------------------<BR>
Rik De Busser<BR>
Research Centre for Linguistic Typology<BR>
La Trobe University, Bundoora 3086 VIC, Australia<BR>
www.rdbusser.com<BR>
<BR>
-----Original Message-----<BR>
From: Aidan Wilson [<A HREF="mailto:a.wilson@pgrad.unimelb.edu.au">mailto:a.wilson@pgrad.unimelb.edu.au</A>]<BR>
Sent: 27 October 2010 11:20<BR>
To: Andrew Cunningham<BR>
Cc: Gary Holton; resource-network-linguistic-diversity<BR>
Subject: Re: batch conversion to pdf<BR>
<BR>
All true. But it's better than archiving in .doc format. Take the current<BR>
situation with .docx as an example; Microsoft no longer support their own<BR>
propriatary formats (.doc, .ppt, .xls, .mdb, etc) and to read them in the<BR>
newest Office suite, you must download the 'compatibility pack'. The reason<BR>
is<BR>
of course that other software engineers and manufacturers like Sun<BR>
Microsystems<BR>
have reverse engineered these formats and make software that can read and<BR>
write<BR>
to them easily. So Microsoft, understandably, is oriented towards control of<BR>
<BR>
their formats - an aim that is largely incompatible with those of the<BR>
archivist.<BR>
<BR>
Adobe, by contrast, have released .pdf as an open standard format, making it<BR>
<BR>
quite reliable for archive. To respond to your concerns about indexing and<BR>
searchability, most pdf files (and pdf creation tools, printers, etc) encode<BR>
<BR>
character information in a text file layer. It's not perfect (try to<BR>
copy/paste<BR>
the text from a pdf and you'll quickly see why), but it will eventually<BR>
improve<BR>
to the point where merely by printing to pdf, it will encode a text only<BR>
version as a sublayer, making it just as searchable as .doc.<BR>
<BR>
Alternatively, you could copy/paste the contents out of a word doc and<BR>
archive<BR>
as a raw text file (in addition to pdf). It'd consume negligibly little<BR>
storage<BR>
space.<BR>
<BR>
--<BR>
Aidan Wilson<BR>
<BR>
PhD Candidate<BR>
Dept of Linguistics and Applied Linguistics<BR>
The University of Melbourne<BR>
<BR>
+61428 458 969<BR>
a.wilson@pgrad.unimelb.edu.au<BR>
<BR>
On Wed, 27 Oct 2010, Andrew Cunningham wrote:<BR>
<BR>
> I'm just wondering if PDF files are suitable as an archival format,<BR>
> since it is in essence a preprint format rather than an archival<BR>
> format<BR>
><BR>
> This may be more of a concern with languages written in complex<BR>
> scripts (including Latin and Cyrillic script languages that need to be<BR>
> treated as complex scripts), where a PDF document will be<BR>
> glyph-centric rather than character-centric; affecting searchability,<BR>
> indexing and text extraction.<BR>
><BR>
> Andrew<BR>
><BR>
> On 27 October 2010 04:36, Gary Holton <gmholton@alaska.edu> wrote:<BR>
>> Here at ANLA we are often faced with the problem of archiving vast<BR>
>> numbers of digital files in proprietary formats, especially MS Word.<BR>
>> Does anyone know of a good method for batch converting from, say, .doc<BR>
>> to .pdf ?<BR>
><BR>
><BR>
><BR>
><BR>
<BR>
<BR>
</FONT>
</P>

</BODY>
</HTML>