Обучающие данные для анализа настроений [закрыто]


где я могу получить корпус документов, которые уже были классифицированы как положительные/отрицательные для настроений в корпоративном домене? Я хочу большой корпус документов, которые предоставляют обзоры для компаний, таких как обзоры компаний, предоставляемых аналитиками и СМИ.

Я нахожу корпорации, которые имеют обзоры продуктов и фильмов. Есть ли корпус для бизнес-домена, включая обзоры компаний, которые соответствуют языку бизнеса?

6 51

6 ответов:

http://www.cs.cornell.edu/home/llee/data/

http://mpqa.cs.pitt.edu/corpora/mpqa_corpus

вы можете использовать twitter, с его смайликами, как это: http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a-Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf

надеюсь, что вы начали. Там больше в литературе, если вам интересно конкретные подзадачи, такие как отрицание, область настроений и т. д.

чтобы сосредоточиться на компаниях, вы можете связать метод с обнаружением темы или дешево просто много упоминаний о данной компании. Или вы можете получить свои данные аннотированные механическими турками.

это список, который я написал несколько недель назад, от мой блог. Некоторые из этих наборов данных были недавно включены в платформу nltk Python.

словари


наборы


ссылки:

Если у вас есть некоторые ресурсы (медиа-каналы, блоги и т. д.) о домене, который вы хотите изучить, вы можете создать свой собственный корпус. Я делаю это в Python:

  • используя красивый суп http://www.crummy.com/software/BeautifulSoup/ для разбора содержимого, которое я хочу классифицировать.
  • разделите эти предложения, означающие положительные / отрицательные мнения о компаниях.
  • используйте NLTK для обработки этих предложений, токенизации слов, пометки POS и т. д.
  • используйте NLTK PMI для вычисления биграмм или триграмм mos часто только в одном классе

создание корпуса-это тяжелая работа по предварительной обработке, проверке, маркировке и т. д., но имеет преимущества подготовки модели для определенного домена, многократно повышая точность. Если вы можете получить уже подготовленный корпус, просто продолжайте анализ настроений;)

Я не знаю, что такой корпус находится в свободном доступе, но вы можете попробовать способ бесконтрольного на немаркированном наборе данных.

вы можете получить большой выбор онлайн-обзоров от Datafiniti. Большинство обзоров поставляются с рейтинговыми данными, которые обеспечивают большую детализацию настроений, чем положительные / отрицательные. Вот это список предприятий с отзывами, а вот список товаров с отзывами.