Scott Tiger Tech Blog

Blog technologiczny firmy Scott Tiger S.A.

Searx – metawyszukiwarka

Autor: Piotr Karpiuk o piątek 3. Marzec 2017


Kliknij aby powiększyć

SearX to kolejna metawyszukiwarka na rynku. Dlaczego warto po nią sięgnąć?

  • Zapytania użytkownika są anonimowe, więc znika problem „bańki informacyjnej” polegającej na dopasowywaniu wyników do profilu użytkownika określonego na podstawie wcześniejszych wyszukiwań, oglądanych w internecie treści, dokonywanych zakupów itp.
  • Zapytanie jest wykonywane na ponad 70 usługach online, w tym Google, Bing, DuckDuckGo, Wikipedia, Reddit itp.
  • Można łatwo ograniczyć wyniki do zadanego języka (jest polski), a nawet do jednej z kategorii: General (domyślnie), Files, Images, IT (tutaj szuka w usługach typu GitHub, StackOverflow itp.), Map, Music, News, Social Media, Videos.
  • Algorytm działania wyszukiwarki jest jawny: projekt jest otwartoźródłowy i dostępny na GitHubie.
  • Widać sporo udogodnień znanych z wyszukiwarki Google, np. panel informacyjny z definicją pojęcia z Wikipedii, sugerowane podobne zapytania itp.

Ogólnie, wydaje się że warto co jakiś czas przyglądać się metawyszukiwarkom ponieważ z upływem czasu stają się coraz bardziej atrakcyjne i konkurencyjne na rynku. Przykładowo wyszukiwarka DuckDuckGo może przyjemnie zaskoczyć kogoś kto zaglądał do niej dawno temu.

Napisany w Uncategorized | 1 Komentarz »

Tmux

Autor: Piotr Karpiuk o czwartek 23. Luty 2017

Kto pracuje pod Linuksem, zapewne zna narzędzie GNU Screen, które pozwala uruchomić wiele sesji terminala na zdalnej maszynie, nie tracąc ich nawet po zakończeniu połączenia. Na narzędzie Tmux można spojrzeć jak na „ulepszony Screen”. Po pierwsze, pasek statusu na dole informuje nas o tym jakie polecenie jest uruchomione na którym ekranie i który ekran jest aktualnie aktywny, jak również mamy tu podaną nazwę hosta i aktualny czas. Po drugie, w ramach jednego okna możemy sobie podzielić ekran na wiele paneli, a w każdym z nich uruchomić inne polecenie shella (np. vim w panelu głównym, a htop i podgląd logów w panelach pobocznych) – nie jest to przydatne na większości laptopów z małym ekranem, ale na komputerach stacjonarnych z dużymi monitorami już jak najbardziej.


Kliknij aby powiększyć

Wszystkie polecenia Tmuxa poprzedzamy prefiksem Ctrl+B. Poniżej spis najbardziej przydatnych poleceń.

$ tmux
Uruchamia sesję Tmux
Ctrl+B C
Otwiera nowe okno z powłoką shella i przechodzi do niego
Ctrl+B L
Przejście do ostatnio otwartego okna (trochę jak Alt+Tab w środowisku graficznym)
Ctrl+B D
Odłącza się od bieżącej sesji Tmuxa
$ tmux a
Podłącza się do istniejącej sesji Tmuxa
Ctrl+B %
Dzieli bieżące okno pionowo i uruchamia Basha w nowopowstałym panelu
Ctrl+B "
Dzieli bieżące okno poziomo i uruchamia Basha w nowopowstałym panelu
Ctrl+B [strzałka]
Przejście kursora do wskazanego panelu
Ctrl+B X
Zamyka panel w którym jest kursor (ten sam efekt da wyjście z Basha w panelu)
Ctrl+B Ctrl+[strzałka]
Zwiększa rozmiar bieżącego panelu o 1 znak we wskazanym kierunku
Ctrl+B Alt+[strzałka]
Zwiększa rozmiar bieżącego panelu o 5 znaków we wskazanym kierunku

Tags:
Napisany w Linux | Brak komentarzy »

Głębokie uczenie maszynowe: automatyczne kolorowanie czarno-białych obrazków

Autor: Piotr Karpiuk o środa 15. Luty 2017

Coraz więcej mówi się o uczeniu maszynowym, głównie w kontekście cyfrowych asystentów, automatycznych tłumaczeń i rozpoznawania twarzy. A dziś inne potencjalnie przydatne zastosowanie: automatyczne kolorowanie zdjęć. Pod adresem demos.algorithmia.com/colorize-photos podajemy URL do czarno-białego zdjęcia i po kilkunastu sekundach otrzymujemy jego pokolorowaną wersję. Do pełnego sukcesu chyba jeszcze trochę brakuje. W styczniowym numerze Linux Magazine można się dowiedzieć jak wykorzystać algorytm japońskich naukowców w otwartoźródłowym edytorze zdjęć GIMP.
Jeśli jeszcze się nie znudziliśmy, dla rozrywki możemy też wypróbować algorytm wykrywania nagości: isitnude.com.

Napisany w Machine Learning | Brak komentarzy »

CLARIN-PL: narzędzia lingwistyczne do przetwarzania języka polskiego

Autor: Piotr Karpiuk o czwartek 9. Luty 2017

Nierzadko informatycy stają przed zadaniem przetwarzania języka polskiego. Jest to oczywiście złożone zagadnienie i mało prawdopodobne by ktoś chciał sam się pokusić o napisanie parsera (choćby tylko płytkiego) dla języka polskiego, nie mówiąc już o poziomie semantycznym. Na szczęście polscy lingwiści-informatycy udostępniają stworzone przez siebie narzędzia w Internecie, a wśród nich prawdziwe perełki.
CLARIN-PL to strona od której warto zacząć przegląd. Mamy tu bardzo szybki analizator morfologiczny Morfeusz, wrocławski szybki tager języka polskiego WCRFT2, narzędzie do wydłubywania nazw własnych z tekstu Liner2, parsery do języków polskiego/angielskiego/niemieckiego czy narzędzia do przetwarzania mowy.
Ponieważ z czasem pojawiają się nowe narzędzia i aktualizacje istniejących, warto skorzystać z Wyszukiwarki, gdzie można sobie posortować wyniki malejąco po dacie zgłoszenia.
Niektóre pomysły są intrygujące, np. system do wykrywania listów samobójczych.
Zdecydowanie warto obejrzeć również zestaw narzędzi i zasobów IPI PAN.
Trochę szkoda że w obu repozytoriach opisy są często zdawkowe i mało przystępne dla osób które przetwarzaniem języka polskiego nie zajmują się na co dzień. Chciałoby się mieć te usługi łatwo dostępne i gotowe do uruchomienia np. jako kontenery Dockera – wyeliminowałoby to potrzebę nieraz kłopotliwej i czasochłonnej instalacji i konfiguracji.

Napisany w Lingwistyka | Brak komentarzy »

Zanieczyszczenie powietrza na bieżąco

Autor: Piotr Karpiuk o czwartek 2. Luty 2017

Główny Inspektorat Ochrony Środowiska udostępnił serwis Ocena jakości powietrza, w którym w miarę na bieżąco (z dokładnością do ok. 2h) sprawdzimy czy możemy wyjść na spacer albo mieszkańcom której części kraju można pozazdrościć.

Napisany w GIS, WWW | Brak komentarzy »