Обучающие данные для анализа настроений [закрыто]
где я могу получить корпус документов, которые уже были классифицированы как положительные/отрицательные для настроений в корпоративном домене? Я хочу большой корпус документов, которые предоставляют обзоры для компаний, таких как обзоры компаний, предоставляемых аналитиками и СМИ.
Я нахожу корпорации, которые имеют обзоры продуктов и фильмов. Есть ли корпус для бизнес-домена, включая обзоры компаний, которые соответствуют языку бизнеса?
6 ответов:
http://www.cs.cornell.edu/home/llee/data/
http://mpqa.cs.pitt.edu/corpora/mpqa_corpus
вы можете использовать twitter, с его смайликами, как это: http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a-Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf
надеюсь, что вы начали. Там больше в литературе, если вам интересно конкретные подзадачи, такие как отрицание, область настроений и т. д.
чтобы сосредоточиться на компаниях, вы можете связать метод с обнаружением темы или дешево просто много упоминаний о данной компании. Или вы можете получить свои данные аннотированные механическими турками.
это список, который я написал несколько недель назад, от мой блог. Некоторые из этих наборов данных были недавно включены в платформу nltk Python.
словари
мнение лексикон Бин Лю
- URL: http://www.cs.uic.edu/~liub/FBS / sentiment-analysis. html#lexicon
- статьи:добыча и подведение итогов отзывы клиентов
- Примечания: входит в платформу nltk Python
MPQA субъективность лексикон
SentiWordNet
- URL: http://sentiwordnet.isti.cnr.it
- Примечания: входит в платформу nltk Python
Harvard General Inquirer
лингвистический запрос и подсчет слов (LIWC)
- URL: http://www.liwc.net
Лексикон Вейдер
наборы
наборы данных MPQA
- URL: http://mpqa.cs.pitt.edu
Примечания: GNU Public License.
- данные политических дебатов
- данные дебатов продукта
- Субъективности Смысла Аннотации
Sentiment140 (твиты)
STS-Gold (твиты)
- URL: http://www.tweenator.com/index.php?page_id=13
- статьи:оценочные наборы данных для анализа настроений twitter (Saif, Fernandez, He, Alani)
- Примечания: как Sentiment140, но набор данных меньше, и с человека аннотаторов. Он поставляется с 3 файлами: твиты, сущности (с их настроением) и совокупный набор.
Набор Данных Для Обзора Клиентов (отзывы о продукте)
- URL: http://www.cs.uic.edu/~liub/FBS / sentiment-analysis. html#datasets
- статьи:добыча и подведение итогов клиента отзывы
- Примечания: название обзора, характеристика продукта, положительный / отрицательный ярлык с силой мнения, другая информация (сравнения, разрешение местоимения и т. д.)
входит в платформу nltk Python
плюсы и минусы набора данных (плюсы и минусы предложений)
- URL: http://www.cs.uic.edu/~liub/FBS / sentiment-analysis. html#datasets
- статьи:Горное мнение в сравнительных предложениях (Ganapathibhotla, Liu 2008)
- Примечания: список предложений с тегами
<pros>
или<cons>
входит в платформу nltk Python
Сравнительные Предложения (Отзывы)
- URL: http://www.cs.uic.edu/~liub/FBS / sentiment-analysis. html#datasets
- статьи:определение сравнительных предложений в текстовых документах (Нитин Джиндал и Бинг Лю),Mining Opinion Features in Customer Reviews (Minqing Hu and Bing Liu)
- Примечания: предложение, POS-помеченное предложение, сущности, тип сравнения (неравный, эквативный, превосходная, не градуируемая)
входит в платформу nltk Python
Sanders Analytics Twitter Sentiment Corpus (твиты)
5513 ручной классификации твитов wrt 4 различных тем. Из-за ТОС в Twitter, небольшой Python-скрипт включен, чтобы скачать все твиты. Сами классификации настроений предоставляются бесплатно и без ограничений. Они могут быть использованы для коммерческих продуктов. Они могут быть перераспределены. Они могут быть изменены.
испанский твиты (твиты)
легко угадать (твиты)
вы не должны повторно распространять твиты, аннотации или корпус, полученный (из файла readme)
Различные Наборы Данных (комментарии)
Различные Наборы Данных #2 (Отзывы)
ссылки:
- Keenformatics-анализ настроений лексиконы и наборы данных (мой блог)
- личный опыт
Если у вас есть некоторые ресурсы (медиа-каналы, блоги и т. д.) о домене, который вы хотите изучить, вы можете создать свой собственный корпус. Я делаю это в Python:
- используя красивый суп http://www.crummy.com/software/BeautifulSoup/ для разбора содержимого, которое я хочу классифицировать.
- разделите эти предложения, означающие положительные / отрицательные мнения о компаниях.
- используйте NLTK для обработки этих предложений, токенизации слов, пометки POS и т. д.
- используйте NLTK PMI для вычисления биграмм или триграмм mos часто только в одном классе
создание корпуса-это тяжелая работа по предварительной обработке, проверке, маркировке и т. д., но имеет преимущества подготовки модели для определенного домена, многократно повышая точность. Если вы можете получить уже подготовленный корпус, просто продолжайте анализ настроений;)
Я не знаю, что такой корпус находится в свободном доступе, но вы можете попробовать способ бесконтрольного на немаркированном наборе данных.
вы можете получить большой выбор онлайн-обзоров от Datafiniti. Большинство обзоров поставляются с рейтинговыми данными, которые обеспечивают большую детализацию настроений, чем положительные / отрицательные. Вот это список предприятий с отзывами, а вот список товаров с отзывами.