<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">

<head>
<meta http-equiv=Content-Type content="text/html; charset=iso-8859-1">
<meta name=Generator content="Microsoft Word 12 (filtered medium)">
<!--[if !mso]>
<style>
v\:* {behavior:url(#default#VML);}
o\:* {behavior:url(#default#VML);}
w\:* {behavior:url(#default#VML);}
.shape {behavior:url(#default#VML);}
</style>
<![endif]-->
<style>
<!--
 /* Font Definitions */
 @font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Tahoma;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
@font-face
        {font-family:Verdana;
        panose-1:2 11 6 4 3 5 4 4 2 4;}
 /* Style Definitions */
 p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri","sans-serif";}
h2
        {mso-style-priority:9;
        mso-style-link:"Heading 2 Char";
        mso-margin-top-alt:auto;
        margin-right:0cm;
        mso-margin-bottom-alt:auto;
        margin-left:0cm;
        font-size:18.0pt;
        font-family:"Times New Roman","serif";
        font-weight:bold;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
p
        {mso-style-priority:99;
        mso-margin-top-alt:auto;
        margin-right:0cm;
        mso-margin-bottom-alt:auto;
        margin-left:0cm;
        font-size:12.0pt;
        font-family:"Times New Roman","serif";}
p.MsoAcetate, li.MsoAcetate, div.MsoAcetate
        {mso-style-priority:99;
        mso-style-link:"Balloon Text Char";
        margin:0cm;
        margin-bottom:.0001pt;
        font-size:8.0pt;
        font-family:"Tahoma","sans-serif";}
span.BalloonTextChar
        {mso-style-name:"Balloon Text Char";
        mso-style-priority:99;
        mso-style-link:"Balloon Text";
        font-family:"Tahoma","sans-serif";}
span.EmailStyle19
        {mso-style-type:personal;
        font-family:"Calibri","sans-serif";
        color:windowtext;}
span.EmailStyle20
        {mso-style-type:personal-reply;
        font-family:"Arial","sans-serif";
        color:#1F497D;}
span.Heading2Char
        {mso-style-name:"Heading 2 Char";
        mso-style-priority:9;
        mso-style-link:"Heading 2";
        font-weight:bold;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;}
@page Section1
        {size:612.0pt 792.0pt;
        margin:72.0pt 72.0pt 72.0pt 72.0pt;}
div.Section1
        {page:Section1;}
-->
</style>
<!--[if gte mso 9]><xml>
 <o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
 <o:shapelayout v:ext="edit">
  <o:idmap v:ext="edit" data="1" />
 </o:shapelayout></xml><![endif]-->
</head>

<body lang=EN-US link=blue vlink=purple>

<div class=Section1>

<p class=MsoNormal><span style='font-family:"Arial","sans-serif";color:#1F497D'>Hello!<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-family:"Arial","sans-serif";color:#1F497D'><o:p> </o:p></span></p>

<p class=MsoNormal><span style='font-family:"Arial","sans-serif";color:#1F497D'>This
solution might not be of help for you in this stage, but in case you decide do
copy-paste text from an Adobe PDF file to a word processor, this tool might be of
interest to you:<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-family:"Arial","sans-serif";color:#1F497D'><o:p> </o:p></span></p>

<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto;
text-align:justify'><b><span style='font-family:"Arial","sans-serif";
color:black'>AutoUnbreal 1.01: Simple application that removes line breaks from
formatted (or plain) text input<o:p></o:p></span></b></p>

<p class=MsoNormal style='mso-margin-top-alt:auto;mso-margin-bottom-alt:auto;
text-align:justify'><span style='font-family:"Arial","sans-serif";color:black'>AutoUnbreak
removes line breaks from formatted (or plain) text input. This is useful if you
want to reformat a text document, where lines have been cut short, e.g. when
copying text from an Adobe PDF file to a word processor. Thus, the program
removes any extraneous lines. AutoUnbreak will remove these carriage returns/
line breaks in a very smart manner. For instance it will try to reconstruct any
hyphenated words and it will not merge lines if they e.g. are a part of a
numbered or bulleted list. AutoUnbreak is customizable and you can change its
"rules" by altering the plain text files "merge.set" and
"exceptions.set" to fit your needs: <a
href="http://www.softpedia.com/get/Office-tools/Other-Office-Tools/AutoUnbreak.shtml">http://www.softpedia.com/get/Office-tools/Other-Office-Tools/AutoUnbreak.shtml</a>.<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-family:"Arial","sans-serif";color:#1F497D'>Best,<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-family:"Arial","sans-serif";color:#1F497D'><o:p> </o:p></span></p>

<div>

<p class=MsoNormal><span style='font-family:"Arial","sans-serif";color:#1F497D'>Ana
Rita Remígio<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-family:"Arial","sans-serif";color:#1F497D'>University
of Aveiro<o:p></o:p></span></p>

<p class=MsoNormal><span style='font-family:"Arial","sans-serif";color:#1F497D'>Portugal<br>
<br>
</span><span style='font-family:"Arial","sans-serif";color:#1F497D'><o:p></o:p></span></p>

</div>

<p class=MsoNormal><span style='font-family:"Arial","sans-serif";color:#1F497D'><o:p> </o:p></span></p>

<div>

<div style='border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0cm 0cm 0cm'>

<p class=MsoNormal><b><span style='font-size:10.0pt;font-family:"Tahoma","sans-serif"'>From:</span></b><span
style='font-size:10.0pt;font-family:"Tahoma","sans-serif"'>
corpora-bounces@uib.no [mailto:corpora-bounces@uib.no] <b>On Behalf Of </b>John
MCKENNY<br>
<b>Sent:</b> quarta-feira, 16 de Junho de 2010 11:40<br>
<b>To:</b> corpora@uib.no<br>
<b>Subject:</b> [Corpora-List] converting PDFs to ASCII or text-only files
without clumps<o:p></o:p></span></p>

</div>

</div>

<p class=MsoNormal><o:p> </o:p></p>

<p class=MsoNormal><span lang=EN-GB>Does anyone have a solution  to the
problem we are facing in a corpus linguistic research project? We have been
given permission by the publishers and editors  to download all issues of
a journal from the last 30 years obtainable from our university e-library in
the form of PDFs amounting to about 3,000,000 words. Starting with a small
sample (250,000 words), we tried  using various methods and software
including Wordsmith Tools 5  to convert the PDFs into text-only files. The
result so far has been text-only files with many words clumped together 
e.g. ‘inthefinalanalysisitseems’.  Breaking up these clumps is
a time-consuming business. For this reason, we haven’t started compiling
our larger corpus. We would only build the larger corpus if there was some kind
of automated or semi-automated way to generate text-only files which contained
all and only the alphanumeric sequences bounded by spaces in the original PDFs,
in other words, without clumps.<o:p></o:p></span></p>

<p class=MsoNormal><span lang=EN-GB>We would be very grateful for any
suggestions you might have.<o:p></o:p></span></p>

<div>

<p class=MsoNormal><span lang=EN-GB>Best wishes<o:p></o:p></span></p>

<p class=MsoNormal style='margin-bottom:12.0pt'><span lang=EN-GB
style='font-size:10.0pt;font-family:"Arial","sans-serif"'>John McKenny<br>
Deputy Head of the Division of English Studies<br>
University of Nottingham Ningbo, China</span><span lang=EN-GB style='font-size:
10.0pt;font-family:"Verdana","sans-serif"'><br>
</span><span lang=EN-GB style='font-size:10.0pt;font-family:"Arial","sans-serif"'>199
Taikang Dong Lu<br>
Ningbo, Zhejiang Province<br>
P.R.China   315100<o:p></o:p></span></p>

<p class=MsoNormal><span lang=EN-GB style='font-size:10.0pt;font-family:"Arial","sans-serif"'><a
href="mailto:john.mckenny@nottingham.edu.cn">john.mckenny@nottingham.edu.cn</a><o:p></o:p></span></p>

<p class=MsoNormal><span lang=EN-GB><o:p> </o:p></span></p>

</div>

<p class=MsoNormal><span lang=EN-GB><o:p> </o:p></span></p>

<p class=MsoNormal><span lang=EN-GB><o:p> </o:p></span></p>

<div class=MsoNormal align=center style='text-align:center'><span lang=EN-GB
style='font-size:12.0pt;font-family:"Times New Roman","serif"'>

<hr size=1 width="100%" noshade style='color:black' align=center>

</span></div>

<p class=MsoNormal><span lang=EN-GB style='font-size:12.0pt;font-family:"Times New Roman","serif"'>This
email has been scanned by the Altman Email Security System. For more
information please visit www.altman.co.uk/emailsystems<o:p></o:p></span></p>

<div class=MsoNormal align=center style='text-align:center'><span lang=EN-GB
style='font-size:12.0pt;font-family:"Times New Roman","serif"'>

<hr size=1 width="100%" noshade style='color:black' align=center>

</span></div>

</div>

</body>

</html>