Речник

hristonev

Well-Known Member
От няколко дни ми се върти идея за речник (говоря за бекенд, крон, sql). Идеята е да се проверява информацията за това дали е синтактично правилна. Речника трябва да работи и с имена било то на хора, градове, села, отбори и други подобни. Имам за сега две идей за реализирането на речника.
1. Богат набор от статии с определени насoчености, които да обхванат голяма част от думите. Следва парсване с python мисля е най-добрия избор за подобно приложение. Тук ми стои въпроса за верността на сорса :). Също така стои и въпроса за това колко процента ще покрия.
2. Използване на Google, това е най-големия речник, който аз познавам. Тук ще се закачам към самата търсачка или апп, като преводача. Дали според вас това би било проблем. Естествено не говорим за брутални заявки от сорта, абе моя сървър може още, а нещо като опашка и проверка на 1 дума всяка минута.
Какво мислите по въпроса?
Благодаря.
 
ПП да поясня за думите, които ме карат да мисля за такова приложение. pirin planina, reka maritza, чикаго булс, тауър бридж и т.н.
 
Ако "идей" е има на философ от древността опитай да направиш речник, ако мислиш че е дума от българският език бягай далече от тази идея.

Според теб кое е правилното това което Google е решил, това което 90% от медиите в България или някое от другите имена?
Веднага ти давам пример с едни английски отбор: Саутхямптън, Саутхемптън или Саутхамптън. Кое е вярното?

Преди да избираш език за програмиране първо си изясни какво целиш след това на база това се мисли за код и как ще работи той. Коденето е лесната част, мисленото е нещо съвсем различно нещо.
 
Ако "идей" е има на философ от древността опитай да направиш речник, ако мислиш че е дума от българският език бягай далече от тази идея.

Според теб кое е правилното това което Google е решил, това което 90% от медиите в България или някое от другите имена?
Веднага ти давам пример с едни английски отбор: Саутхямптън, Саутхемптън или Саутхамптън. Кое е вярното?

Преди да избираш език за програмиране първо си изясни какво целиш след това на база това се мисли за код и как ще работи той. Коденето е лесната част, мисленото е нещо съвсем различно нещо.
Не съм искал помощ за код. А мнение според вас, дали е възможно за реализация. Идеите, които написах са това което си мисля от известно време . Не твърдя, че е нещо просто и елементарно @AMitrev . Относно това, кое е вярното, според мен най-вярно е най-използваното. Именно това искам да обсъдя с други хора, дали мисля правилно.
ПП Извинявам се за правописната грешка.
 
wtf?!? Прочети ми пак поста и се опитай да разбереш какво съм написал. Никъде не съм говорил за помощ за код и т.н. Казах само, че започваш отзад напред (python, sql, етц.).

Най-използването не е най-вярно. Знаеш ли българската дума "впредвид"?
Всъщност няма такава дума, но масово се ползва.
 
Това Й ще ми извади очите, всеки го пише къде ли не. Най-често се бърка и се пише в множествено число, например "някой хора ходят пеша".
 
Значи, @AMitrev ми даде добра идея, въпреки леко негатвния отговор.
Речника вършещ работа може да бъде релация 1 към много, какъвто е и неговия пример: Southampton -> Саутхямптън, Саутхемптън, Саутхамптън. Марица -> Maritza, Marica, Димитър -> Dimitar, Dimityr. Така направено ще има вече полза защото няма да е една дума, а няколко и проблемът с коя е вярната изчезва. Просто трябва да се включи и човек за да отсява подобните с някакъв процент представени от машината.
 
Southampton -> Саутхямптън, Саутхемптън, Саутхамптън. Марица -> Maritza, Marica, Димитър -> Dimitar, Dimityr
С това само ще увеличиш пошлостта, неграмотността и ще увеличиш цапането на езика.
Има правила за транскрибиране.
 
С това само ще увеличиш пошлостта, неграмотността и ще увеличиш цапането на езика.
Има правила за транскрибиране.
Аз няма да публикувам такъв вид информация.
Единственото, което ми е нужно е да знам, че определени думи се отнасят за отигиналната такава дума. Тоест ще ползвам винаги оригиналните думи в оригинален език.
За тези правила съм чувал, не съм вещ, но няма да ми върши работа в случая. Няма да ми помогнат да схвана смисъла на текста (машината да схване).
 
@ReminD благодаря, интересно видео. Часта "Boyko was определителен член" особено изяснява някои проблеми.
@Вискяр Градинаров посредством правилата за транскрибиране може да се изчисти един текст от грешки. Минава машина определя истинските думи, след това замества с правилна дума спрямо транскрипция или транслитерация.
 
Щом не знаеш правилата какво въобще ще правиш?
Ще ги науча г-н Митрев ;).
Аз никога не съм се тупал по гърдите с това, че знам всичко на света. Ако Вие можете да се похвалите с такова знание, то аз съм по-обикновен човек и се уча при необходимост.
 
На гошо не разчитай много. Той е манипулируем:

14642296_1668873370070398_8371767017993679602_n.jpg
 
Да, и аз започнах да мисля, че Гошо не е вариант, ще е побуквено търсене и сравняване и човешко отсяване. Бавно ама на крон-а не му пука.
 
На гошо не разчитай много. Той е манипулируем:

14642296_1668873370070398_8371767017993679602_n.jpg
А уж ние го доусъвършенстваме, ама на. Някъде някой е писал квото му е дошло. Идеята е добра. Но е много работа според мен. Готов ли си да отделиш толкова време и ресурси? И къде смяташ да се ползва... преди няколко дни точно от това имах нужда за два града - не бях сигурен как от испански се пишат на български. :) Ако правилно съм разбрал. :)
 
Да, време ще ми се наложи да отделя. Правя го за клиент и трябва него да попитам, дали ако е готово ще иска да го сподели. И да езиците не трябва да са от значение. Все пак тръгваме от основния език на съответната дума, и се преглеждат вариации на друг език. EN-FR, EN-BG, FR-BG и така нататък.
Ще пиша в тази тема при някакво развитие. В момента само проучвам как би било най-подходящо за направа. И да правилно е точно за имена става на въпрос, било то на градове, отбори, реки...
Развитието, както вече ме насочи Вискяр може да бъде с вкарана транскрипция и уедняквяване на думите, но това е етап 2, като изходен елемент.
Ако има желаещи може да направим общ проект в github и да е с отворен код? Това мисля, че ще удовлетвори и моя клиент.
 

Горе