[WT] [Архив] [Поиск] [Главная] [Управление]
[Совместно с IIchan.ru]

[Назад]
Ответ в нить
Имя
Animapcha image [@] [?]
Тема   (reply to 4094)
Сообщение flower
Файл 
Пароль  (для удаления файлов и сообщений)
Параметры   
  • Прежде чем постить, ознакомьтесь с правилами.
  • Поддерживаемые типы файлов: 7Z, BZ, GIF, JPG, MO, MP3, OGG, PDF, PNG, PSD, RAR, SVG, SWF, TXT, XCF, ZIP
  • Максимально допустимый размер файлов: 10000 кБ.
  • Изображения, размер которых превышает 200 на 200 пикселей, будут уменьшены.
  • Ныне 1168 unique user posts. Посмотреть каталог
  • Радио:

Файл: 130054290959.jpg-(15.34KB, 320x480, x_5efa8c48.jpg)
4094 No. 4094 watch    
сап /dev/
вообщем суть такова:
преамбула:
чаны время от времени довольно сильно меняются, как стихии, как тучи мозгов, как хавмайнд(как тут принято говорить), мутируя как одна большая клетка,кто то уходит, кто то приходит, время течет все меняется.

суть: мне в голову пришла идея сделать программу которая бы собирала статистику по часто употребимым словам вроде бы все это называется data mining, собственно говоря можно будет отслеживать форсы или просто какие то тренды, возможно какие то странные закономерности, да и просто это будет смешно, я даже вижу в этом что то от футуризма и постмодернизма.
изначально есть идея попытаться выделять только слова(или устойчивые словосочетания), потом какие то более сложные структуры типа предложений, слов с разными падежами, окончаниями , с опечатками и т.д.

вообщем у кого есть какие идея как это реализовать, может есть что то более менее готовое, чтоб свое не велосипедить.

вообщем дискас.
>> No. 4098    
Пишешь скрипт с соответствующим функционалом, запускаешь сервер статистики. Далее два пути:
1. Распространяешь его как юзерскрипт для браузера
2. Договариваешься с админами интересных тебе чанов и встраиваешь скрипт у них на главной. (подопытных будет больше)

А вообще я не понимаю (может объяснишь?), как используя статистику часто встречающихся слов можно отслеживать форсы, тренды? Предлагаешь "чановский" вариант теста Тьюринга?
>> No. 4099    
>>4098
вообще то я планировал сделать просто приложение которое будет работать 24х7 и парсить сраницы или разделы чанов и искать уникальные слова(т.е. то что разделено пробелом) и заносить их в базу, потом можно будет отсеить например, предлоги запятые и символы.

есть какие то более сложные вещи типа извлечения "знаний" из текстов-data mining
>> No. 4100    
>>4099
пример:

скажем еще можно еще отслеживать связи между словами например "брат" часто используется со словом "умер" и т.д.
>> No. 4136    
Лучше сделать 2-е программы. Одна собирает посты и заносит в бд. Вторая анализирует бд. В питоне пишется за пару часов.
>> No. 4146    
Было на Доброчане год назад. И отчет то ли в Нубтайпе, то ли еще где. Спроси в ручеченовском /u/.
[Назад]


Удалить сообщение []
Пароль  
[Mod]