<div dir="ltr"><div class="" style="font-family:'trebuchet ms',sans-serif">Hi Ramesh,</div><div class="" style="font-family:'trebuchet ms',sans-serif"><div class="gmail_default" style="font-family:'trebuchet ms',sans-serif">​Excuse me If I did not explain carefully,​</div></div><div class="" style="font-family:'trebuchet ms',sans-serif">In Statistical Machine Translation of Cross-lingual Information Retrieval (CLIR), parallel corpora(sentence-aligned corpora) and comparable corpora (document -aligned corpora that documents are not as precisely translations of each other as the parallel corpora but they are in the same topic) are useful resources to translate queries in different languages from documents. Indeed, these tasks extract some words in target language that are translations of a source language word with different probabilities. So we have a comparable corpora that each document in the source language <div class="" style="font-family:'trebuchet ms',sans-serif;display:inline">​is </div>in the same topic that some other in-the-target-language documents <div class="gmail<sub>default</sub>" style="font-family:'trebuchet ms',sans-serif;display:inline">​​</div>(<div class="" style="font-family:'trebuchet ms',sans-serif;display:inline">​<div class="" style="font-family:'trebuchet ms',sans-serif;display:inline">​D<sup>0</sup><sub>s</sub>​</div> →  D<sub>t1</sub>, D<sub>t2</sub>, ..D<sub>t<sub>k</sub></sub>​</div>)<div class="gmail<sub>default</sub>" style="font-family:'trebuchet ms',sans-serif;display:inline">​ ​</div><div class="gmail<sub>default</sub>" style="display:inline">, </div>(<div class="" style="display:inline">​<div class="" style="display:inline">​D<sup><div class="gmail<sub>default</sub>" style="font-family:'trebuchet ms',sans-serif;display:inline">​1</div></sup><sub>s</sub>​</div> → D<div class="gmail<sub>default</sub>" style="font-family:'trebuchet ms',sans-serif;display:inline">​<sup>'</sup>​</div><sub>t1</sub>, D<div class="gmail<sub>default</sub>" style="font-family:'trebuchet ms',sans-serif;display:inline">​<sup>'</sup>​</div><sub>t2</sub>, ..D<div class="gmail<sub>default</sub>" style="font-family:'trebuchet ms',sans-serif;display:inline">​<sup>'</sup>​</div><sub>t<sub>k</sub></sub>​</div>)<div class="gmail<sub>default</sub>" style="display:inline">​ , .. , </div><div class="gmail<sub>default</sub>" style="display:inline">​</div>(<div class="" style="display:inline">​<div class="" style="display:inline">​D<sup><div class="gmail<sub>default</sub>" style="font-family:'trebuchet ms',sans-serif;display:inline">​m</div></sup><sub>s</sub>​</div> → D<div class="gmail<sub>default</sub>" style="font-family:'trebuchet ms',sans-serif;display:inline">​<sup>"</sup>​</div><sub>t1</sub>, D<div class="gmail<sub>default</sub>" style="font-family:'trebuchet ms',sans-serif;display:inline">​<sup>"</sup>​</div><sub>t2</sub>, ..D<div class="gmail<sub>default</sub>" style="font-family:'trebuchet ms',sans-serif;display:inline">​<sup>"</sup>​</div><sub>t<sub>k</sub></sub>​</div>)<div class="gmail<sub>default</sub>" style="display:inline">​</div>. </div><div class="" style="font-family:'trebuchet ms',sans-serif"><div class="gmail_default" style="font-family:'trebuchet ms',sans-serif">​Best,</div><div class="gmail_default" style="font-family:'trebuchet ms',sans-serif">Javid​</div><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Mon, Oct 6, 2014 at 1:44 AM, Krishnamurthy, Ramesh <span dir="ltr"><<a href="mailto:r.krishnamurthy@aston.ac.uk" target="_blank">r.krishnamurthy@aston.ac.uk</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">hi javid<br>
<br>
i think you and i have different ideas about what a 'dictionary' is. :)<br>
<br>
i think perhaps you just want to find 'word/phrase-equivalents' in comparable corpora in<br>
different languages?<br>
<br>
i don't know enough about computational linguistics, but i *suspect*<br>
that both SketchEngine and Tshwanelex are for 'fuller' dictionaries,<br>
eg with collocational, grammatical, semantic, phraseological info, etc<br>
for each entry.... but they can probably be used with a bilingual lookup<br>
(eg Wordnet) to  link items in the comparable corpora...?<br>
<br>
best<br>
ramesh<br>
<br>
<br>
<br>
________________________________<br>
From: Jörg Tiedemann [<a href="mailto:Jorg.Tiedemann@lingfil.uu.se">Jorg.Tiedemann@lingfil.uu.se</a>]<br>
Sent: 06 October 2014 09:02<br>
To: javid dadashkarimi<br>
Cc: Krishnamurthy, Ramesh; <a href="mailto:corpora@uib.no">corpora@uib.no</a><br>
Subject: Re: [Corpora-List] Bilingual Dictionary from Comparable Corpora<br>
<span class=""><br>
<br>
Maybe you want to have a look at alignment tools for comparable corpora such as:<br>
- <a href="http://www.accurat-project.eu" target="_blank">http://www.accurat-project.eu</a><br>
- <a href="http://yalign.machinalis.com" target="_blank">http://yalign.machinalis.com</a><br>
<br>
I haven't used these tools myself but I would be interested to hear if they work for you.<br>
<br>
Good luck!<br>
Jörg<br>
<br>
**********************************************************************************<br>
</span> Jörg Tiedemann                                   <a href="mailto:jorg.tiedemann@lingfil.uu.se">jorg.tiedemann@lingfil.uu.se</a><mailto:<a href="mailto:jorg.tiedemann@lingfil.uu.se">jorg.tiedemann@lingfil.uu.se</a>><br>
<span class=""> Dep. of Linguistics and Philology           <a href="http://stp.lingfil.uu.se/~joerg/" target="_blank">http://stp.lingfil.uu.se/~joerg/</a><br>
 Uppsala University                                  tel:  +46 (0)18 - 471 1412<br>
 Box 635, SE-751 26 Uppsala/SWEDEN    fax: +46 (0)18 - 471 1094<br>
<br>
<br>
<br>
On Oct 5, 2014, at 7:00 PM, javid dadashkarimi wrote:<br>
<br>
Dear Ramesh,<br>
I only want to extract dictionary within an aligned bilingual corpus. I know that Moses can do it for parallel and sentence-level aligned corpus, but are the tools like SketchEngine or Tshwanelex extracting such a knowledge?<br>
Best,<br>
Javid<br>
<br>
</span><span class="">On Sun, Oct 5, 2014 at 7:23 PM, Krishnamurthy, Ramesh <<a href="mailto:r.krishnamurthy@aston.ac.uk">r.krishnamurthy@aston.ac.uk</a><mailto:<a href="mailto:r.krishnamurthy@aston.ac.uk">r.krishnamurthy@aston.ac.uk</a>>> wrote:<br>
hi javid<br>
not sure quite what you want,<br>
but i'd suggest contacting the<br>
people at SketchEngine<br>
<a href="http://www.sketchengine.co.uk/" target="_blank">http://www.sketchengine.co.uk/</a><br>
and Tshwanelex<br>
<a href="http://tshwanedje.com/tshwanelex/" target="_blank">http://tshwanedje.com/tshwanelex/</a><br>
best<br>
ramesh<br>
-------------<br>
Date: Sat, 4 Oct 2014 15:11:02 +0330<br>
</span>From: javid dadashkarimi <<a href="mailto:javiddadashkarimi@gmail.com">javiddadashkarimi@gmail.com</a><mailto:<a href="mailto:javiddadashkarimi@gmail.com">javiddadashkarimi@gmail.com</a>>><br>
<span class="">Subject: [Corpora-List] Bilingual Dictionary from Comparable Corpora<br>
</span>To: <a href="mailto:corpora@uib.no">corpora@uib.no</a><mailto:<a href="mailto:corpora@uib.no">corpora@uib.no</a>>, <a href="mailto:gate-users-request@lists.sourceforge.net">gate-users-request@lists.sourceforge.net</a><mailto:<a href="mailto:gate-users-request@lists.sourceforge.net">gate-users-request@lists.sourceforge.net</a>><br>
<span class=""><br>
Hi,<br>
Is there any tool for extracting probabilistic bilingual dictionary for a<br>
bilingual comparable corpora? Does Moses support such a task?<br>
Best,<br>
Javid<br>
<br>
_______________________________________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>
Corpora mailing list<br>
</span><a href="mailto:Corpora@uib.no">Corpora@uib.no</a><mailto:<a href="mailto:Corpora@uib.no">Corpora@uib.no</a>><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
<br>
</blockquote></div><br></div>