Darmowy OCR od Google?

2 Grudzień 2009

Szukałem dzisiaj oprogramowania do rozpoznawania tekstu. Chciałbym część papierowej korespondencji, jaką prawie codziennie otrzymuję w dużych ilościach, przełożyć na nośniki cyfrowe. Uprościłoby to proces wyszukiwania, składowania, a także odpowiadania na korespondencję.

Większość darmowych programów nie posiada niestety słowników i rozpoznawania tekstu innego niż angielski. A ja potrzebuję min. angielskiego, francuskiego, holenderskiego i polskiego. Z kolei ceny komercyjnych rozwiązań zaczynają się od $100.

Kierując się instynktem wpisałem w jedyną słuszą wyszukiwarkę hasło “google ocr“. I nie pomylicie się, kiedy zgadniecie, że Google ma OCR, na razie w fazie testów. I nie pomylicie się także, że jest darmowy i połączony z Google Docs. A dzięki opcji tłumaczenia wprost z Google Docs z tekstu francuskiego dostałem tekst w języku angielskim.

Skuteczność rozpoznawania tekstu nie jest porażająca, ale mając pod uwagę, że jest to program darmowy, w dodatku z powiązanymi słownikami, lepszy wróbel w garści niż gołąb na dachu.

Link: http://googlecodesamples.com/docs/php/ocr.php

Wymagany login w Google Docs.

To proste. Wystarczy pobrać źródła i skompilować.

Aby skompilować ChromeOS, należy mieć jakąkolwiek wersję Linuxa, choć Google sugeruje Ubuntu. Ja kompilowałem właśnie na Ubuntu w wersji 9.10 (x86). Dodatkowo, trzeba spełnić kilka wymagań odnośnie zainstalowanego oprogramowania (posiadać gcc, bison, python i kilkanaście innych bibliotek).

Sama kompilacja jest bardzo prosta i nie długa. Google sugeruje stworzenie pliku VMDK by później uruchomić system na maszynie wirtualnej VMWare. Innym rozwiązaniem jest kompilacja na USB i uruchomienie systemu na jednej z sugerowanych platform sprzętowych: Acer Aspire One, ASUS Eee, HP Mini 5101, Lenovo Ideapad S10 czy Dell Mini 10V.

Miałem kilka problemów z dostępem do sieci na VMWare i ostatecznie skonwertowałem VMDK na VDI na Sun VirtualBox. A efekt jest następujący:

ITblog na ChromeOS

ITblog na ChromeOS

Serwerom WWW przeglądarka (bo nic innego na tym systemie nie ma) przedstawia się jako

Mozilla/5.0 (X11; U; CrOS i686 9.10.0;en-US) AppleWebKit/532.5 (KHTML, like Gecko) Chrome/4.0.253.0 Safari 532.5

Niestety nie dane jest mi zobaczyć panel z aplikacjami. Obecny build jest zablokowany na działanie z kontami w domenie @google.com, a ja nie mam za dużo czasu na ingerencję w kod.

Linki:

Dla leniwych zostaje np. bittorrent, gdzie od wczoraj krążą gotowe dyski dla VMWare.

Dla pragnących poznać system trochę bardziej sugeruję następujący skrót klawiszowy: Ctrl-Alt-T. Otwiera on konsolę systemu.

Podążając za nurtem zdecydowałem się dzisiaj na zamianę mojego starego i wysłużonego już pakietu Office 2007 na wersję świeższą, jeszcze w powijakach – 2010 Beta. Choć rok 2010 rozpocznie się za nieco ponad miesiąc, to użytkownikom pakietu Office Microsoft sprezentował okazję do zasmakowania w nowej wersji już teraz. A jest na co patrzeć. Poniżej znajdziecie subiektywny opis niektórych ciekawych funkcji programu.

Nowy pakiet, po blisko 4 latach projektu pod nazwą Office14 znowu mnie zaskoczył. Ostatni raz miałem do czynienia z wersją 2010 w maju, na komputerze firmowym, pracując jeszcze w Microsoft. Urzekł mnie wtedy Outlook, który możliwościami szybkiego wyszukiwania, sortowania i wyświetlania wiadomości sprawiał, że codzienna męczarnia z setkami emaili stawała się jakby nieco łatwiejsza. Dzisiaj, już oduczony wykorzystywania Outlook’a na codzień, mogę dostrzec zalety nowego Word’a, Excel’a czy Acccess’a w domowym zaciszu, koncentrując się na tym co dla mojego domowego użytku jest najważniejsze.

Graficznie w stosunku do Office 2007 zmieniono wiele. Nowy pasek ikon, tzw. ribbon jest ładniejszy niż w poprzedniej wersji i ładnie wpasowuje się w look and feel okna programu. Dla konserwatystów, Microsoft udostępnił opcję schowania paska i powrotu do klasycznego menu.

Okrągły przycisk ikony Office zastąpiono zakładką niebieską zakładką File, gdzie znajdują się wszystkie najważniejsze opcje dokumentu, na którym pracujemy. To już nie jest menu, gdzie znajdują się opcje takie jak zapisz czy utwórz dokument, ale jest to cała “strona” opcji. Daje to większą przejrzystość i łatwość w znalezieniu tego, czego szukamy.

Bardzo ciekawą opcją jest możliwość podejrzenia wklejanego tekstu zanim zostanie wklejony do dokumentu. Wystarczy kliknąć prawym klawiszem w miejscu, gdzie chcemy wkleić nasz fragment tekstu, umieścić kursor nad ikonką wklejania i program automatycznie dopasuje wygląd dokumentu tak, jakby nasz tekst już tam był. Działa to analogicznie z górnego paska menu – przycisk Paste.

Nowością jest możliwość obcinania obrazków w tekście, tzw. cropping. Microsoft dodał wiele opcji zmian obrazów w tekście, dzięki temu manipulowanie obrazkami staje się łatwiejsze i wygodniejsze.

Dzielenie się plikami nigdy nie było łatwiejsze. W nowej wersji Word’a do dyspozycji mamy następujące opcje:

  • Send using E-Mail
  • Save to SkyDrive
  • Save to SharePoint
  • Publish as Blog Post

Ta ostatnia opcja pozwala na opublikowanie dokumentu na popularnych platformach do blogowania: SharePoint, WordPress, Blogger, Windows Live Spaces, Community Server czy TypePad. Microsoft przełożył na Office znaną z Windows Live Writer funkcjonalność pisania blogów off-line, choć pozbawił Word’a wielu pożytecznych funkcji, jakie Writer posiada.

Jedną z ciekawostek z Excela jest opcja dodawania miniaturowych wykresów mieszących się w jednej komórce (cell) arkusza. Powerpoint zyskał łatwiejsze dodawania filmów, m.in. z YouTube.

Doskonałym pomysłem było dodanie opcji broadcast w nowej wersji PowerPoint. Microsoft wykorzystał potęgę swojej wersji cloud computing pod nazwą Office Apps i dał możliwość uczestniczenia w prezentacji użytkownikom dowolnej przeglądarki internetowej. Prezenter rozpoczyna “transmisję” i wysyła zainteresowanym wygenerowany przez program link (zaczynający się od http://powerpoint.officeapps.live.com/…) do strony www prezentacji. Użytkownicy otwierają swoją ulubioną przeglądarkę i widzą to, co jest prezentowane, na żywo, bez konieczności instalowania pluginów, ActiveX, etc. Poniżej obrazek z mojej prezentacji w przeglądarce Safari (kliknij by zobaczyć większy obrazek).

PowerPoint 2010 broadcast

PowerPoint 2010 broadcast

To naprawdę rewelacyjna funkcja nowego PowerPointa, bardzo przydatna np. dla wszystkich pracujących z domu.

Bez Outlooka moja instalacja Office 2010 jest jakby niepełna, ale i tak nowy pakiet pozwala na więcej niz Office 2007. Wersja beta, jaką udostępnił Microsoft jest jeszcze w fazie rozwojowej i przyjdzie nam zaczekać do wersji release candidate by się przekonać jakie funkcje pakietu ostatecznie znajdą się w wersji finalnej. Wersja beta ma też włączone funkcje debugowania, co pozwala programistom znajdywać i poprawiać błędy przed wersją finalną, co jednak odbija się na prędkości działania programu. Ale nawet ta wersja działa bardzo szybko i sprawnie. Wraz z Windows 7 stanowią bardzo udaną parę szybkiego pakietu biurowego na szybkim systemie operacyjnym.

Nową wersję Office 2010 w wersji beta można pobrać ze strony Microsoft. Dostępne są dwie wersje: 32 i 64-bitowa.

Pisane z Office Word 2010.

Po zainstalowaniu Firefoxa w wersji 3, czyli już spory kawałek temu, po raz pierwszy zobaczyłem nową funkcjonalność przeglądarki, jaką było skanowanie nowo ściągniętych plików przez program antywirusowy. Zacząłem się wtedy zastanawiać czy Mozilla podrzuciła w F3.0 jakiś skaner, czy też sama zacząła zajmować się produktami AV. Od tamtego czasu nie miałem okazji i czasu by głębiej przyjrzeć się tematowi. Do dzisiaj.

Zasada działania skanowania w Firefox jest bardzo prosta. Jeśli użytkownik systemu Windows ma zainstalowany program antywirusowy, Firefox (a konkretniej Download Manager) użyje tego programu by przeskanować ściągnięty plik. Jeśli takowego programu nie ma, skanowania, opóźnienia w ściąganiu i zapisywaniu pliku nie będzie. Dodatkowo, w Windows XP SP2 i Windows Vista (i Windows 7) przeskanowany program nie aktywuje alertu bezpieczeństwa systemu.

Funkcjonalność ta pojawiła się w Firefoxie w wersji 3.0b3 na początku 2008 i zdążyła wywołać niemało problemów.

Pierwszym problemem, który został zaobserwowany przez dużą część użytkowników przeglądarki to problem w ściąganiu plików, a konkretniej w ich zapisaniu na dysku. Jednak nie jest to problem samej przeglądarki, ale programu antywirusowego, który może nieprawidłowo rozpoznać ściągnięty plik jako zagrożenie (false positive). Wykrycie jakiejkolwiek postaci malware uniemożliwia w rezultacie zapisanie pliku na dysku.

Drugim problemem, a raczej niedogodnością było opóźnienie związane z czynnością skanowania ściąganych plików, tym większe im większy jest plik. Opóźnienie to zależy też od szybkości działania programu antywirusowego.

Jak można się domyśleć, to co robi Download Manager jest tak naprawdę niepotrzebne, ponieważ nowo tworzone, zmieniane i otwierane pliki i tak są skanowane przez programy antywirusowe (w ustawieniach domyślnych). Dlatego też ja nie znajduję mocnych merytorycznych podstaw uzasadniających potrzebę dodania tej funkcjonalności do przeglądarki.

Skanowanie to można wyłączyć ustawiając zmienną browser.download.manager.scanWhenDone na false w ustawieniach przeglądarki (about:config, a poźniej Toggle na wartości).

Więcej:

Jeszcze nie tak dawno pisałem pochwalne peany na cześć MSE (Microsoft Security Essentials), a tu już na drugi dzień po zainstalowaniu przywitała mnie pierwsza wpadka tego programu antywirusowego.

Ku mojemu wielkiemu zaskoczeniu, MSE uznał, że Message Center Plus z Lenovo to szkodliwy program wyświetlający reklamy, tzw. adware.

Szczegóły:

  • plik – C:\Program Files\Lenovo\Message Center Plus\MCPLaunch.exe
  • wykryty jako Adware:Win32/LenovoMCP
  • poziom zagrożenia: średni

Najnowsza wersja Message Center Plus z Lenovo pochodzi z końca maja 2009 roku (link). Od maja nie pamiętam, bym widział reklamę wyświetloną inaczej niż z okna przeglądarki internetowej (Firefox, IE), tym bardziej nie z narzędzia Lenovo. Być może moje doświadczenia to za mało, by stwierdzić, że program tego nie robi, ale chyba nie jest to powodem by ostrzegać użytkowników laptopów Lenovo o potencjalnym zagrożeniu.

Znalezisko wygląda mi na klasyczny false positive. Mam nadzieję, że w niedługim czasie program nie będzie już wykrywany.

Microsoft oficjalnie zakończył dostępność wersji beta swojego nowego produktu, Security Essentials, jednak program wciąż jest dostępny na innych serwerach. Softpedia udostępnia wersje 32 i 64 bitowe dla Windows 7, Vista i Windows XP (na chwile obecną link wciąż działa, ale prawnicy Microsoftu już mogli zacząć działać).

Ten niedawno stworzony produkt to darmowa wersja Microsoft Windows Live OneCare, czyli program antywirusowy. Oparty na Microsoftowej technologii sprawdzonego skanera antywirusowego, tego samego, który znalazł zastosowanie w Forefront i OneCare budzi we mnie nadzieję, że będzie to bardzo dobry produkt. Dodatkowo, wyniki z VB100 zdają się potwierdzać tę tezę. Pracuję z grupą odpowiedzialną za tworzenie programu antywirusowego w mojej firmie od ponad 2 lat. Postęp, jakiego jestem świadkiem i narzędzie jakie stworzyli pozwala mi odważnie postawić tezę, że będzie to jeden z najlepszych programów antywirusowych na rynku.

Przez ostatnie kilka lat codziennie miałem do czynienia z wieloma programami antywirusowymi – AVG, Symantec, McAfee, Eset, Norman, Avira – by wymienić tylko kilka. Jednym z czynników, na podstawie których można stwierdzić, że program antywirusowy jest dobry jest ilość tzw. false positives, czyli błędnych wskazań zagrożenia wirusem. Kolejnym jest oczywiście celność wskazania właściwego zagrożenia. Wymienione przeze mnie programy miały porównywalne wyniki w tym drugim teście, natomiast potrafiły nastręczać nie lada problemów przy pierwszym.

Skaner opracowany przez Microsoft nigdy nie nastręczał problemów przy false positive ale zawsze znajdywał to, co miał znaleźć.

Ściągnąłem i zainstalowałem Microsoft Security Essentials na swoim komputerze. Szybka instalacja i mała zasobożerność przyjemnie odróżniają się od znanych na rynku alternatywnych rozwiązaniach. Program pracujący w tle zajmuje nieco ponad 6MB przy włączonych opcjach skanowania modyfikowanych plików. To skutecznie pozwala zapomnieć o tym, że w ogóle mamy program antywirusowy, co nie jest takie proste przy zauważalnym odcisku na procesorze i pamięci np. w programie antywirusowym od firmy Symantec.

Wykonałem mały test za pomocą eicar’a by przetestować nie tyle działanie skanera, ile informacje jakie dostają użytkownicy w przypadku wykrycia zagrożenia wirusem. Microsoft Security Essentials nie tylko poprawnie wykrył zagrożenie, na moje żądanie je usunął, ale także udostępnił dodatkowe informacje on-line na stronach Microsoftu. Takie wsparcie bazą wiedzy bardzo się przydaje.

Nie był to test z prawdziwego zdarzenia, na taki pewnie przyjdzie jeszcze zaczekać, kiedy program ukaże się w finalnej wersji. Moje odczucia są bardzo pozytywne, bo żaden inny program antywirusowy do tej pory nie spowodował, że nie chcę go usuwać krótką chwilę po zainstalowaniu (tym samym przyznaję się, że do dnia dzisiejszego nie mialem zainstalowanego żadnego programu antywirusowego :) ).

Windows 7 na 128MB RAMu

23 Czerwiec 2009

Słyszałem, że z Siódemką można zejść nisko na sprzęcie, ale nie wiedziałem jak nisko. Sam doświadczyłem szybkiej instalacji i szybkiego działania wersji RC na Toshiba Portege M400 z 1GB RAM’u. Komputer ten, nie pierwszej już świeżości, nie nadawał się do pracy na Windows Vista i zalegał mi długo w szafce pod biurkiem, kiedy ja pracowałem już na nowym Lenovo W500.

Ale zupełnym zaskoczeniem był dla mnie news, w którym opisano test instalacji Windows 7 na … 128MB RAMu na komputerze z Pentium II 266MHz z kartą graficzną 1MB (kliknij by zobaczyć większą wersję):

Użytkownik hackerman1 z forum windowsclub.com nie tylko wypróbował 128MB, ale również próbował przeprowadzić test na komputerze z 64MB RAMu. Niestety, te testy się nie powiodły.

Jak widać, Windows 7 i na takim sprzęcie zainstalować się da. Inną kwestią jest co na takim systemie można zrobić i ile czasu to zajmuje, o czym autor testu już nie wspomina. Należy jednak odnotować, że Windows 7 osiąga prędkość, którą Windows Vista nie był w stanie osiągnąć, a według niektórych głosów, nawet Windows XP się nie udawało (mam tutaj na myśli swojego kolegę z biura, który instalował Windows 7 na netbooku z Dell’a).

Microsoft z końcem roku zamyka beta projekt o nazwie adCenter Analytics. W marcu został rozesłany email do wszystkich użytkowników adCenter Analytics, w którym poinformowano o zaprzestaniu dalszych prac nad projektem. Od marca nie przyjmowano już nowych zgłoszeń do programu, a z dniem 31 grudnia 2008 2009 serwis nie będzie już zliczał wejść na strony www.

adCenter Analytics wystartował w październiku 2007 pod kodową nazwą Gatineau. Projekt był efektem zakupu firmy DeepMetrix Corporation przez Microsoft w 2006 roku. Od początku był częścią platformy reklamowej Microsoft o nazwie adCenter. Projekt miał być konkurencją do Google Analytics.

Używałem adCenter Analytics w okresie od połowy listopada 2007 do połowy lipca 2008 i od początku września 2008 do 15 czerwca 2009, czyli do dzisiaj. Od godziny 14:00 GMT Microsoft adCenter Analytics nie zlicza już wejść na ITblog. Powinno to przyspieszyć ładowanie się strony, ponieważ był to jeden z najdłużej łądujących się elementów wg. moich badań kilka tygodni temu.

Pokusiłem się dzisiaj o analizę porównawczą Google Analytics i adCenter Analytics, ale już na starcie zakończyła się klęską. Na stronie Microsoft otrzymywałem błąd

The selected reports does not support custom date range selection. The selected period has been reverted to the current week

kiedy próbowałem wybrać własny zakres dat dla generowania raportu. To skutecznie przeszkadzało w dokonywaniu jakichkolwiek porównań obu platform.

Jednak nawet te dane, które były dostępne nie różniły się znacząco od Google Analytics. Były w kilku miejscach niższe, co można byłoby wytłumaczyć problemami z dostępem do serwerów adCenter Analytics z niektórych hostów gości tego bloga.

Moje ogólne wrażenia z użytkowania produktu Microsoftu były dobre, ale nie rewelacyjne. Strona ładowała się dość opornie, często używane wykresy 3D nie były użyteczne tak jak 2D, wielkość bounce rate różniła się znacznie z tym, co widziałem w Google Analytics, a co ważniejsze system nie zliczał małego procent wejść (zauważyłem braki od 0.39 do 1.50% w porównaniu do konkurencji).

Bardzo chętnie przeczytam Wasze opinie o tym produkcie.

Jeśli chciałbyś dodać nową wyszukiwarkę Microsoftu bing do listy wyszukiwarek w IE8, wystarczy, że udasz się na poniższą stronę:

i klikniesz Add to Internet Explorer.

Jeśli używasz Google Chrome, po pierwszej próbie skorzystania z bing przeglądarka sama rozpozna, że bing jest wyszukiwarką i doda stronę do listy “Search Engines”.

Dla Firefoxa dostępny jest dodatek dodający bing do listy wyszukiwarek. Dodatek dostępny jest pod adresem:

Autorem powyższego jest Long Zheng znany z autostwa strony I started something.

Aby dodać nową wyszukiwarkę do Opery (nie miałem zainstalowanej wersji polskiej, dlatego posłużyłem się angielską) należy przejść do Tools -> Preferences -> Search i kliknąć na Add. Następnie wpisujemy nazwę wyszukiwarki, inne od wszystkich pozostałych i zainstalowanych poprzednio wyszukiwarek Keyword (ja użyłem m) i adres:

  • http://www.bing.com/?q=%s

%s, podobnie jak w Chrome zastępowane jest przez przeglądarkę wyszukiwaną przez nas frazą.

Bing, nazwa kodowa Kumo, jest następcą wyszukiwarki Live Search, Windows Live Search i MSN Search. Mimo, że wyszukiwarki jest wciąż w fazie beta, to już zdążyła wywołać pozytywne opinie (Techcrunch: Apparently Bing Is Something Of A Hit).

Zespół (a przynajmniej jego część) pracujący nad przeglądarką jest dostępny na Twitter: http://twitter.com/bing

Na wystawie elektroniki E3Expo zaprezentowano w tym roku nowy interfejs komunikacyjny dla konsoli Xbox 360 Microsoftu. Jest to podobno do Wii system sensorów ruchu, który w odróżnieniu od konsoli Nintendo nie wymaga żadnych kontrolerów. Projekt Natal, bo taką kodową nazwę nosi ten będący w fazie prototypu interfejs rozpoznaje ruchy graczy bez potrzeby trzymania jakichkolwiek elementów odbijających czy wysyłających promienie podczerwone – to ciało gracza staje się kontrolerem konsoli Xbox360.

Tak oto prezentuje się Project Natal w działaniu:

I pewnie nie zainteresowałbym się tym tematem bardziej, gdyby nie dzisiejszy twit Dare Obasanjo – podzielił się linkiem do bloga Johnny Lee. A kim jest Johnny zobaczycie na poniższych filmikach:

1) TED, luty 2008

2) Wideo z kanału YouTube Johnna:

3) Strona, na której prezentuje więcej Wii hacks: http://johnnylee.net/projects/wii/

Jak sami możecie zobaczyć, z takimi umiejętnościami w zespole Microsoftu, przyszli klienci efektu pracy nad projektem Natal mogą spodziewać się naprawdę rewolucyjnego produktu.