<div dir="ltr"><div>Dear Abdoulaye,</div><div><br></div><div>you may just upload all the texts into Sketch Engine (<a href="http://www.sketchengine.co.uk">www.sketchengine.co.uk</a>), have them automatically tagged by TreeTagger and lemmatised by RFTagger, extract collocations using your favourite association score (T-score, MI-score, logDice, ...) and have a look at the word sketches (collocations by grammatical relation) on top of that -- all this works for much larger corpora than 10M.</div>

<div><br></div>Full disclosure: I'm part of the development team of Sketch Engine ;)<br><div><br></div><div>Best,</div><div>Milos</div></div><div class="gmail_extra"><br><br><div class="gmail_quote">2014-08-15 12:16 GMT+02:00 Abdoulaye Dramé <span dir="ltr"><<a href="mailto:abou@drame.de" target="_blank">abou@drame.de</a>></span>:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><u></u>
    
 
 <div>
 
  <div>
   Hello,
  </div> 
  <div>
    
  </div> 
  <div>
   I would like to find co-occuring words in  german texts. The number of texts I have is about 1 000 000 (one million), with each text having about 10 sentences.
  </div> 
  <div>
    
  </div> 
  <div>
   Does anybody know where I can find a software to do the analysis on such a big amount of texts?
  </div> 
  <div>
    
  </div> 
  <div>
   I would prefer a java software but others are also ok provided they run on ubuntu.
  </div> 
  <div>
    
  </div> 
  <div>
   Any help would be appreciated.
  </div> 
  <div>
    
  </div> 
  <div>
   Regards,
  </div> 
  <div>
    
  </div> 
  <div>
   Drame A. 
   <img alt="Senden" src="https://communicator.strato.de/ox6/v=OaNMrJJ/v=OaNMrJJ/themes/default/icons/24/mail_send.png" border="0">
  </div>
 
</div><br>_______________________________________________<br>
UNSUBSCRIBE from this page: <a href="http://mailman.uib.no/options/corpora" target="_blank">http://mailman.uib.no/options/corpora</a><br>
Corpora mailing list<br>
<a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>
<a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>
<br></blockquote></div><br></div>