I believe that arXiv.org still asks for TeX source.<br>Be careful if you think about spidering their site, though, they take a *very* dim view of blind robots (<a href="http://arxiv.org/RobotsBeware.html">http://arxiv.org/RobotsBeware.html
</a>).<br><br>-Dominic<br><br><div class="gmail_quote">On Jan 10, 2008 11:25 AM, Jason Eisner <<a href="mailto:jason@cs.jhu.edu">jason@cs.jhu.edu</a>> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Here is a small corpus of automatically generated formal mathematical<br>proofs paired with their "verbalizations" into English (I believe):<br>   <a href="http://www.cs.cornell.edu/Info/Projects/NuPrl/html/nlp/" target="_blank">
http://www.cs.cornell.edu/Info/Projects/NuPrl/html/nlp/</a><br><br>Also, you might be able to get a corpus of papers that contain TeX<br>equations, if the TeX markup language itself constitutes sufficient<br>markup for your purposes.  (It reveals the recursive subconstituents
<br>of a formula, although it doesn't attach any semantics to them.  So<br>it's certainly a lot more informative than an scanned image of an<br>equation!)  For example, the digital library at arXiv.org used to ask
<br>authors to submit their original TeX / LaTeX / AMSTeX files when<br>adding a paper.<br><br>-cheers, jason<br><div><div></div><div class="Wj3C7c"><br>On Jan 10, 2008 9:07 AM, Mary Hearne <<a href="mailto:mhearne@computing.dcu.ie">
mhearne@computing.dcu.ie</a>> wrote:<br>> Hi all,<br>><br>> on behalf of my colleague, Dónal Fitzpatrick:<br>><br>> Do you know of any kind of corpus of mathematical equations where the constituent parts are tagged
<br>> in any meaningful way?  I am uncertain as to:<br>> 1.  How the parts of an equation could be tagged<br>> or<br>> 2.  whether this has been done before.<br>><br>> If you would like to contact him directly, Dónal's e-mail address is 
<a href="mailto:dfitzpat@computing.dcu.ie">dfitzpat@computing.dcu.ie</a>.<br>><br>> Best regards,<br>> Mary Hearne<br>><br>> _______________________________________________<br>> Corpora mailing list<br>> 
<a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br>> <a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br>><br><br>_______________________________________________
<br>Corpora mailing list<br><a href="mailto:Corpora@uib.no">Corpora@uib.no</a><br><a href="http://mailman.uib.no/listinfo/corpora" target="_blank">http://mailman.uib.no/listinfo/corpora</a><br></div></div></blockquote></div>
<br>