Уважаемые коллеги,
хочу рассказать вам о новостях и достижениях нашего проекта, чтобы не было ложного впечатления, что летом мы ничего не делаем. :-)
1. Мы определились с целями по составу и объёму корпуса.
К концу 2011 года мы хотим создать корпус в 1 млн. словоупотреблений со следующим распределением по типам источников:
50% - публицистика (новостные источники: Часкор, WikiNews, ...)
10% - художественная литература
10% - научно-технические тексты (статьи с конференций, из журналов, ...)
10% - энциклопедические тексты (Википедия, Б-Э, ...)
5% - юридические тексты (законы, договоры, кодексы, стандарты,
обращения, заявления, петиции ...)
5% - письма (переписка известных людей + современные e-mail)
5% - блоги (dolboeb - доступен под CC, ещё кого-нибудь)
2.5% - статусы / микроблоги
2.5% - чаты / ICQ / gtalk / vkontatke
На данный момент мы добавляем в корпус тексты из трёх источников:
- Частный Корреспондент
- Википедия
- Викиновости
2. Объём корпуса
На прошлой неделе объём корпуса превысил 100 тыс. словоупотреблений, т.е. 10% от поставленной цели по объёму. Актуальный цифры можно увидеть тут: http://opencorpora.org/?page=stats
Они обновляются раз в сутки. Тогда же, когда генерируются дампы с разметкой ( http://opencorpora.org/?page=downloads ).
3. Метаинформация о текстах
На данный момент мы сохраняем следующую информацию о текстах:
- Название документа
- Имя автора для статей на ЧасКоре (или ссылку на его профиль в Викиновостях)
- Дату написания документа (или дату используемой правки в Википроектах)
- Тему (в том виде, в котором она указана в источнике)
- "Геофокус" для статей в Викиновостях (берётся из викикатегорий, обозначающих географические объекты)
- ссылку на документ в Интернете (на конкретную правку, если это Вики-проект)
- копию html документа на случай, если в Интернете он изменится или будет удалён (например, может пригодиться чтобы совместить лингвистическую и типографскую разметку)
Посмотреть как это выглядит, можно, например, тут:
http://opencorpora.org/books.php?book_id=82&full
(метаинформация + текст, разделённый на абзацы, предложения и токены).
Статистика по метаинформации тут: http://opencorpora.org/?page=tag_stats
4. Комментарии к предложениям
Для того, чтобы была возможность обсуждать спорные случаи, к каждому предложению теперь можно оставлять комментарии аналогично тому, как это делается в ЖЖ.
Например, вот так:
http://opencorpora.org/sentence.php?id=4959#comments
Комментарии могут оставлять все зарегистрированные пользователи.
Список новых комментариев можно увидеть по ссылке "Свежие комментарии" в правой панели:
http://opencorpora.org/comments.php
Я благодарю всех, кто помогает проекту развиваться.
БочаровВ
хочу рассказать вам о новостях и достижениях нашего проекта, чтобы не было ложного впечатления, что летом мы ничего не делаем. :-)
1. Мы определились с целями по составу и объёму корпуса.
К концу 2011 года мы хотим создать корпус в 1 млн. словоупотреблений со следующим распределением по типам источников:
50% - публицистика (новостные источники: Часкор, WikiNews, ...)
10% - художественная литература
10% - научно-технические тексты (статьи с конференций, из журналов, ...)
10% - энциклопедические тексты (Википедия, Б-Э, ...)
5% - юридические тексты (законы, договоры, кодексы, стандарты,
обращения, заявления, петиции ...)
5% - письма (переписка известных людей + современные e-mail)
5% - блоги (dolboeb - доступен под CC, ещё кого-нибудь)
2.5% - статусы / микроблоги
2.5% - чаты / ICQ / gtalk / vkontatke
На данный момент мы добавляем в корпус тексты из трёх источников:
- Частный Корреспондент
- Википедия
- Викиновости
2. Объём корпуса
На прошлой неделе объём корпуса превысил 100 тыс. словоупотреблений, т.е. 10% от поставленной цели по объёму. Актуальный цифры можно увидеть тут: http://opencorpora.org/?page=stats
Они обновляются раз в сутки. Тогда же, когда генерируются дампы с разметкой ( http://opencorpora.org/?page=downloads ).
3. Метаинформация о текстах
На данный момент мы сохраняем следующую информацию о текстах:
- Название документа
- Имя автора для статей на ЧасКоре (или ссылку на его профиль в Викиновостях)
- Дату написания документа (или дату используемой правки в Википроектах)
- Тему (в том виде, в котором она указана в источнике)
- "Геофокус" для статей в Викиновостях (берётся из викикатегорий, обозначающих географические объекты)
- ссылку на документ в Интернете (на конкретную правку, если это Вики-проект)
- копию html документа на случай, если в Интернете он изменится или будет удалён (например, может пригодиться чтобы совместить лингвистическую и типографскую разметку)
Посмотреть как это выглядит, можно, например, тут:
http://opencorpora.org/books.php?book_id=82&full
(метаинформация + текст, разделённый на абзацы, предложения и токены).
Статистика по метаинформации тут: http://opencorpora.org/?page=tag_stats
4. Комментарии к предложениям
Для того, чтобы была возможность обсуждать спорные случаи, к каждому предложению теперь можно оставлять комментарии аналогично тому, как это делается в ЖЖ.
Например, вот так:
http://opencorpora.org/sentence.php?id=4959#comments
Комментарии могут оставлять все зарегистрированные пользователи.
Список новых комментариев можно увидеть по ссылке "Свежие комментарии" в правой панели:
http://opencorpora.org/comments.php
Я благодарю всех, кто помогает проекту развиваться.
БочаровВ
Комментариев нет:
Отправить комментарий