<html><head></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div><div>Hi,</div><div><br></div><div>One quick note regarding the second issue Ralph objected to Eugenio's methodology: it's true that a sample filtered on the basis of a given list of opinion words will show some bias (not necessarily problematic of itself if the bias matches the intended filtering criterion), but from that it does not follow that the sample will *only* contain lexically expressed sentiment: the fact that a sentence contains lexemes with an associated sentiment does not exclude the presence of other expressions of sentiment in the same sentence (e.g. "My iPhone is good but..." or "My iPhone is 'good'", where a positive lexeme co-occurs with a negativity inducing ellipsis and negativity inducing punctuation, respectively).</div><div><br></div><div>Best,</div><div><br></div><div><br></div><div>Jordi</div></div><br><div><div>On Dec 17, 2011, at 8:44 PM, <a href="mailto:ralf.steinberger@jrc.ec.europa.eu">ralf.steinberger@jrc.ec.europa.eu</a> wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite"><div lang="EN-GB" link="blue" vlink="purple"><div class="WordSection1" style="page: WordSection1; "><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><span style="font-size: 11pt; font-family: Calibri, sans-serif; color: rgb(31, 73, 125); ">Hello Eugenio,<o:p></o:p></span></div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><span style="font-size: 11pt; font-family: Calibri, sans-serif; color: rgb(31, 73, 125); "><o:p> </o:p></span></div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><span style="font-size: 11pt; font-family: Calibri, sans-serif; color: rgb(31, 73, 125); ">I fear that your plans will result in a corpus that is moderately useful.<o:p></o:p></span></div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><span style="font-size: 11pt; font-family: Calibri, sans-serif; color: rgb(31, 73, 125); "><o:p> </o:p></span></div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><span style="font-size: 11pt; font-family: Calibri, sans-serif; color: rgb(31, 73, 125); ">If you select and annotate only the positive and negative tweets, you can use the result to learn how to distinguish the positive from the negative, but you will not have any data to learn how to distinguish these subjective tweets from the neutral ones. This latter group is important to recognise as it presumably is the majority class. I cannot imagine how the positive-negative distinction is useful if you do not also distinguish the neutral and the subjective cases.<o:p></o:p></span></div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><span style="font-size: 11pt; font-family: Calibri, sans-serif; color: rgb(31, 73, 125); "><o:p> </o:p></span></div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><span style="font-size: 11pt; font-family: Calibri, sans-serif; color: rgb(31, 73, 125); ">Another issue is that – using your planned method – you will end up with a non-realistic set of positive and negative tweets, as they will only be those where sentiment is expressed lexically. Any experimental results based on that biased corpus will not be representative for real-life texts.<o:p></o:p></span></div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><span style="font-size: 11pt; font-family: Calibri, sans-serif; color: rgb(31, 73, 125); "><o:p> </o:p></span></div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><span style="font-size: 11pt; font-family: Calibri, sans-serif; color: rgb(31, 73, 125); ">It is much more work to annotate all samples from a random selection of texts or snippets, but I believe that this is what you will eventually need to do.<o:p></o:p></span></div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><span style="font-size: 11pt; font-family: Calibri, sans-serif; color: rgb(31, 73, 125); "><o:p> </o:p></span></div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><span style="font-size: 11pt; font-family: Calibri, sans-serif; color: rgb(31, 73, 125); ">Greetings to Jaén,<o:p></o:p></span></div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><span style="font-size: 11pt; font-family: Calibri, sans-serif; color: rgb(31, 73, 125); "><o:p> </o:p></span></div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><span style="font-size: 11pt; font-family: Calibri, sans-serif; color: rgb(31, 73, 125); ">Ralf<o:p></o:p></span></div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><span style="font-size: 11pt; font-family: Calibri, sans-serif; color: rgb(31, 73, 125); ">European Commission – Joint Research Centre (JRC)<o:p></o:p></span></div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><span style="font-size: 11pt; font-family: Calibri, sans-serif; color: rgb(31, 73, 125); ">Ispra, Italy<o:p></o:p></span></div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><span style="font-size: 11pt; font-family: Calibri, sans-serif; color: rgb(31, 73, 125); "><o:p> </o:p></span></div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><span style="font-size: 11pt; font-family: Calibri, sans-serif; color: rgb(31, 73, 125); "><o:p> </o:p></span></div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><b><span lang="EN-US" style="font-size: 10pt; font-family: Tahoma, sans-serif; ">From:</span></b><span lang="EN-US" style="font-size: 10pt; font-family: Tahoma, sans-serif; "><span class="Apple-converted-space"> </span><a href="mailto:corpora-bounces@uib.no" style="color: blue; text-decoration: underline; ">corpora-bounces@uib.no</a><span class="Apple-converted-space"> </span>[mailto:corpora-bounces@uib.no]<span class="Apple-converted-space"> </span><b>On Behalf Of<span class="Apple-converted-space"> </span></b>Eugenio Martínez Cámara<br><b>Sent:</b><span class="Apple-converted-space"> </span>17 December 2011 20:09<br><b>To:</b><span class="Apple-converted-space"> </span>Diana Maynard<br><b>Cc:</b><span class="Apple-converted-space"> </span><a href="mailto:corpora@uib.no" style="color: blue; text-decoration: underline; ">corpora@uib.no</a><br><b>Subject:</b><span class="Apple-converted-space"> </span>Re: [Corpora-List] Spanish Twitter Lexicon<o:p></o:p></span></div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><o:p> </o:p></div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; ">Thanks Diana for your response and your paper.<o:p></o:p></div><div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><o:p> </o:p></div></div><div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; ">I explain you what I want to do. I have done several experiments with tweets in Spanish following a machine learning approach, but the problem is I don't have a corpus with a reliable labelling, so I want to build a corpus with a manual labelling. So I've downloaded a set of politic tweets during the last Spanish elections. For the manual labelling process, I want to automatically delete those tweets that aren't opinions. So I'm looking for a Spanish or English word list of opinion words. If a tweet doesn't contain any opinion word I consider that it isn't an opinion tweet. I know that a person can express a politic opinion without using any typical opinion word, but it is a simple heuristic to reduce the set of tweets to be manually labelling.<o:p></o:p></div></div><div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><o:p> </o:p></div></div><div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; ">Regards.<o:p></o:p></div></div><div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><br clear="all">Eugenio Martínez Cámara.<o:p></o:p></div><div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; ">Grupo de Investigación SINAI.<o:p></o:p></div></div><div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; ">Departamento de Informática.<o:p></o:p></div><div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; ">Universidad de Jaén.<o:p></o:p></div></div><div><p class="MsoNormal" style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 12pt; font-size: 12pt; font-family: 'Times New Roman', serif; ">emcamara at ujaen dot es<o:p></o:p></p></div></div><p class="MsoNormal" style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 12pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><br><br><o:p></o:p></p><div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; ">El 17 de diciembre de 2011 19:40, Diana Maynard <<a href="mailto:d.maynard@dcs.shef.ac.uk" style="color: blue; text-decoration: underline; ">d.maynard@dcs.shef.ac.uk</a>> escribió:<o:p></o:p></div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; ">Hi Eugenio<br>Are you asking for some gazetteer list of opinionated words to determine whether a tweet is opinionated or not? Or are you asking for some method which uses bag-of-words (matching against such a list) in order to compare your tools with.<br>If the former, obviously you want to be very careful about using such an approach on its own, because there are lots of words which can convey an opinion or not, depending how they are used.<br><br>I am also working on opinion mining from tweets, for English and German, on political tweets amongst other things. You can see my paper about this for English here:<br><br>D. Maynard and A. Funk. Automatic detection of political opinions in tweets. In Proceedings of MSM 2011: Making Sense of Microposts. Workshop at 8th Extended Semantic Web Conference (ESWC 2011). Heraklion, Greece. June 2011.<br><a href="http://gate.ac.uk/sale/eswc11/opinion-mining.pdf" target="_blank" style="color: blue; text-decoration: underline; ">http://gate.ac.uk/sale/eswc11/opinion-mining.pdf</a><br><br>There is also an extended version currently in press.<br>Regards<span style="color: rgb(136, 136, 136); "><br><span class="hoenzb">Diana</span></span><o:p></o:p></div><div><div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><br><br><br>On 17/12/2011 16:05, Eugenio Martínez Cámara wrote:<o:p></o:p></div></div></div><blockquote style="border-top-style: none; border-right-style: none; border-bottom-style: none; border-width: initial; border-color: initial; border-left-style: solid; border-left-color: rgb(204, 204, 204); border-left-width: 1pt; padding-top: 0cm; padding-right: 0cm; padding-bottom: 0cm; padding-left: 6pt; margin-left: 4.8pt; margin-right: 0cm; "><div><div><p class="MsoNormal" style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 12pt; font-size: 12pt; font-family: 'Times New Roman', serif; ">Hi All,<br><br>Currently I'm working in Sentiment Analysis on Twitter. I have done<br>several experiments with Spanish Twitter corpus following the Go et al.<br>(2009) noisy labels technique, but I want to build a gold standard. So,<br>I downloaded a corpus of Spanish tweets in the politic domain. At first,<br>I want to erase all non-opinion tweets, so I'm going to delete all<br>tweets that not contain any opinion word. So, do you know any Spanish<br>opinion bag-of-words (positive/negative)? do you know any English<br>opinion bag-of-words (positive/negative)?<br><br>Thanks.<br><br><br>Eugenio Martínez Cámara.<br>SINAI Research Group<br>Computer Science Department<br>University of Jaén<br>emcamara at ujaen dot es<br><br><br><br><o:p></o:p></p></div></div><div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; ">_______________________________________________<br>UNSUBSCRIBE from this page:<span class="Apple-converted-space"> </span><a href="http://mailman.uib.no/options/corpora" target="_blank" style="color: blue; text-decoration: underline; ">http://mailman.uib.no/options/corpora</a><br>Corpora mailing list<br><a href="mailto:Corpora@uib.no" target="_blank" style="color: blue; text-decoration: underline; ">Corpora@uib.no</a><br><a href="http://mailman.uib.no/listinfo/corpora" target="_blank" style="color: blue; text-decoration: underline; ">http://mailman.uib.no/listinfo/corpora</a><o:p></o:p></div></div></blockquote><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><o:p> </o:p></div></div><div style="margin-top: 0cm; margin-right: 0cm; margin-left: 0cm; margin-bottom: 0.0001pt; font-size: 12pt; font-family: 'Times New Roman', serif; "><o:p> </o:p></div></div></div>_______________________________________________<br>UNSUBSCRIBE from this page:<span class="Apple-converted-space"> </span><a href="http://mailman.uib.no/options/corpora" style="color: blue; text-decoration: underline; ">http://mailman.uib.no/options/corpora</a><br>Corpora mailing list<br><a href="mailto:Corpora@uib.no" style="color: blue; text-decoration: underline; ">Corpora@uib.no</a><br><a href="http://mailman.uib.no/listinfo/corpora" style="color: blue; text-decoration: underline; ">http://mailman.uib.no/listinfo/corpora</a><br></div></blockquote></div><br></body></html>