úterý 18. prosince 2012

Jazyk a stroj 1

Chci vytvořit nějakou jednoduchou matematickou strukturu, která bude obsahovat nějakou užitečnou informaci o přirozeném jazyce. Tuto strukturu chci získat automaticky pokud možno bez toho, abych stroji příliš napovídal jak má struktura vypadat. První pokus jsem udělal takto: Vzal jsem několik gigabytů textu a našel jsem dvojce slov, které mají alespoň padesát stejných kontextů. Kontext je slovo nalevo a slovo napravo. Tak se najdou slova, která mají něco společného. Z těchto dvojic jsem dále vyškrtal ty dvojice, které obsahují slovo, které je ve více jak deseti dvojicích. Tak se odstraní slova, které se všude jen motají a nic užitečného neříkají. Výsledek jsem dal do grafu. Texty byly z internetu. Do češtiny se připletlo dost anglických textů, ale anglická slova si povídají jen sami mezi sebou a mezi česká slova se nepletou. Překvapilo mě, že i takhle jednoduchý algoritmus na takhle "nečistých" datech může udělat docela plantou práci. Je však potřeba vytvořit něco úctyhodnějšího, a proto bude mít tento příspěvek pokračování. Cizím nápadům a připomínkám je nebráním, takže přemýšlejte, co by se dalo udělat.

pondělí 10. prosince 2012

Miroslav Petříček uvažuje o matematice (a jednom matematikovi)

Líbí se mi, když někdo dovede říci něco nápaditějšího než "matematika je pro život užitečná, protože učí logickému myšlení". A ještě víc se mi líbí, když to někdo napíše do kulturní revue. Celé je to tady, takže jsem vybral jen pár slov.

Jednoduchá otázka dokáže rozbít pečlivě vybudovanou logickou stavbu, protože ta dosud jen předstírala, že stojí na solidních pilířích. Ale ty tam nejsou, nikdy nebyly a ani být nemohly. Matematika ukazuje problémy na rubu jistot. V rukou vystudovaného matematika, který pochopil, proč byla vynalezena, přesně ukazuje, co je na jistotách nepřesného. (...) hloupost se rodí z všeobecné shody, která si libuje v nepřesnostech. Zdánlivě naivní tázání tuto hloupost demaskuje a brání jejímu bujení.
Miroslav Petříček - O matematice