29. října 2025

Science vs Corruption

Science vs Corruption

Science (Language models and LLM in vector) vs Corruption


2009
Tomás Mikolov, Jirí Kopecký, Lukás Burget, Ondrej Glembek, Jan Cernocký:
Neural network based language models for highly inflective languages.
2009 IEEE International Conference on Acoustics, Speech and Signal Processing (2009)



RNN LM 
Recurrent neural network based language model
Tomáš Mikolov, Martin Karafiát, Lukáš Burget, Jan Černocký, Sanjeev Khudanpur

A distance on words

Word2vec 

In 2010, Tomáš Mikolov (then at Brno University of Technology) with co-authors applied a simple recurrent neural network with a single hidden layer to language modelling 


King - Man + Woman = Qeen




So the famous equation w[king]+w[woman]-w[man] ≃ w[queen] can be rewritten as: w[woman] - w[man] ≃ w[queen] - w[king]



 


Word2vec (2013) byl jeden z klíčových průlomů v NLP (zpracování přirozeného jazyka), protože umožnil rychle učit husté vektorové reprezentace slov z velkých textových dat.
Tyto ‚word embeddings‘ se staly standardním stavebním kamenem mnoha dalších modelů a výrazně urychlily posun NLP směrem k neuronovým metodám.
Metodu publikoval tým v Googlu vedený Tomášem Mikolovem.
  
Tomáš Mikolov
PhD na VUT v Brně - téma: neuronové jazykové modely
Roku 2010 absolvoval stáž na Johns Hopkins University u Freddy Jelinka
MS
Google Brain - Word2vec
Facebook AI Research  FAIR - fastText

Od r. 2020 do 2025 je spojován s CIIRC ČVUT - vedení výzkumné skupiny









vs





Tomáš Mikolov a korupce v akademickém prostředí:



„Jeho krok společnost snad chápe i jako zoufalý způsob, jak důrazněji upozornit na problémy, kterým čelí  výzkum a špičkový výzkum v Česku"


vs

 
vs
 
Plus ideologická korupce

Vědecký konsensus nemusí být pravda
RNDr. Tomáš Fürst, Ph.D.
Katedra matematické analýzy a aplikací matematiky


DVTV






Na závěr dobré poznamenat, že Word2vec, GloVe, FastText ... generují statické vektorové reprezentace slov.

Modely jako BERT vytvářejí kontextové (dynamické) reprezentace tokenů - významové vektory se liší podle věty.
word2vec naopak zavedl a masově rozšířil statické embeddingy slov, které byly důležitým krokem v tom, že se text začal běžně reprezentovat vektorově.
Transformery pak na vektorových reprezentacích staví (používají token embeddings), ale jejich klíčová novinka je self-attention, díky níž umí kontext kombinovat napříč celou sekvencí a tvořit kvalitní kontextové reprezentace.
word2vec pomohl ukotvit embeddingy jako standardní vstup, na kterém transformery přirozeně staví.
Transformery stojí hlavně na attention a škálování; embeddingy by existovaly i bez word2vec ale word2vec jim významně napomohl.






České zdravotnictví jako inkubátor a líheň korupce 






2 komentáře:

Anonymní řekl(a)...

Word2vec aneb jak převést slova na čísla
https://www.marigold.cz/ai/word2vec/

Anonymní řekl(a)...

Hive Spirit Technologies
...